Espacios. Vol. 37 (Nº 08) Año 2016. Pág. 15

Técnicas de mineração de dados aplicadas a um problema de diagnóstico médico

Technical data mining applied to medical diagnostic problem

Carla Regina Mazia ROSA 1; Maria Teresina Arns STEINER 2; Pedro José STEINER Neto 3

Recibido: 10/11/15 • Aprobado: 14/12/2015


Contenido

1. Introdução

2. Métodos

3. Obtenção dos resultados e discussão

4. Conclusões

Agradecimentos

Referências


RESUMO:

Este trabalho tem por objetivo discriminar os dados relativos a exames clínicos de pacientes com câncer ou cálculo no duto biliar, para que dados novos pacientes, a sua classificação possa ser realizada com o menor erro possível. Foram coletados dados de 118 pacientes (casos; instâncias) cada um dos quais com 14 informações (variáveis; atributos) e uma saída, câncer ou cálculo (classes) no duto biliar. Com base no processo KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento em Bases de Dados) foi realizada uma análise exploratória sobre os dados e, em seguida, foram aplicadas três técnicas de Data Mining, de forma comparativa: Regressão Logística Binária (RLB), Geração de uma Superfície que Minimiza Erros (GSME) e Função Discriminante Linear de Fisher (FDLF). A referida análise se mostrou bastante eficiente neste estudo, com uma taxa de acerto geral de 87,60% de acurácia por meio da RLB. Vale enfatizar que as técnicas aqui abordadas servem apenas para respaldar as decisões/conclusões dos especialistas, sem nunca substitui-los.
Palavras-chave: Mineração de Dados; Processo KDD; Análise Exploratória dos Dados.

ABSTRACT:

This paper aims to discriminate data on clinical examination of patients with cancer or calculus in the bile duct, so that data young patients, their classification can be carried out with the least possible error. Data were collected from 118 patients (cases, instances) each of which with 14 information (variables, attributes) and an output, cancer or calculation (classes) in the bile duct. Based on KDD (Knowledge Discovery in Databases and Knowledge Discovery in Databases) process an exploratory analysis of the data was performed and then were applied three techniques of data mining, comparatively: Binary Logistic Regression, Generation of a Surface that Minimizes Errors and Fisher's Linear Discriminant Function (FLDF). This analysis was very efficient in this study, with an overall accuracy rate of 87.60% accuracy by RLB. It is worth emphasizing that the techniques discussed here only serve to support the decisions / conclusions of experts, never replace them.
Keywords: Data Mining; KDD Process; Exploratory Data Analysis.

1. Introdução

A colestase é um estado patológico em que há diminuição da formação de bile ou perturbação do seu fluxo. O fluxo biliar pode estar comprometido em qualquer ponto entre os hepatócitos e o duodeno. Embora a bile não esteja fluindo, o fígado continua a produzir bilirrubina, que "escapa" para o interior da corrente sanguínea (Antherieu et al. 2013; Pauli-Magnus, Meier, 2006).

A bilirrubina é então depositada na pele, a qual é parcialmente reabsorvida no intestino e excretada pela urina, causando icterícia. A icterícia ocorre pelo acúmulo no sangue de bilirrubina direta ou indireta. A acumulação da bilirrubina direta deve-se a uma colestase (acumulação de bile), por algum impedimento do fluxo natural da bile do fígado ao intestino pelo colédoco (Van de Steeg et al. 2012).  

As causas de colestase são divididas em dois grupos: as intra-hepáticas (originadas no interior do fígado) e as extra-hepáticas (originadas fora do fígado). O colestase Intra-Hepática é o transtorno no fluxo de bile devido à lesão nos hepatócitos, canalículos biliares, ou ductos biliares intra-hepáticos (Pauli-magnus,Meier, Stieger, 2010).

Já o colestase Extra-Hepática é a alteração do fluxo biliar através dos grandes ductos biliares por obstrução mecânica ou constrição devido a processos benignos ou malignos. As causas extra-hepáticas incluem o cálculo no interior de um ducto biliar, a estenose (estreitamento) de um ducto biliar, o câncer de um ducto biliar, o câncer de pâncreas e a inflamação do pâncreas (Roeb et al. 2003;Krishnamurthy, Krishnamurthy, 2009). Somente o cálculo e o câncer no ducto biliar serão considerados no presente trabalho fazendo uso da metodologia proposta. Alternativamente, tais problemas poderiam ser analisados através de exames como a ultrassonografia e, eventualmente, tomografia axial computadorizada.

Nesse contexto, o processo de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases; KDD) visa extrair conhecimento de grandes bases de dados e tem se mostrado efetivo na gestão de informações, buscando identificar as mais relevantes e transformá-las em conhecimento útil à tomada de decisão.

O processo KDD se dá pelo processo de identificação de padrões válidos, novos, visando à melhoria do entendimento de um determinado problema, do qual a Mineração de Dados (Data Mining – DM) pode ser vista como uma parte fundamental do processo. O DM é o elemento responsável pela extração do conhecimento contido em um banco de dados.

A qualidade dos dados é também uma das principais preocupações no processo KDD. A qualidade do conhecimento extraída é estritamente determinada pela qualidade dos dados fornecidos como entrada. O pré-processamento de dados no processo KDD tem a finalidade de melhorar a qualidade dos dados, tendo como objetivo principal a identificação e remoção de problemas presentes nos dados preliminarmente à utilização dos métodos de extração de conhecimento.

A análise exploratória dos dados, que constitui a primeira grande etapa do processo de descoberta de conhecimento em banco de dados, tem sido considerada crucial, melhorando drasticamente o desempenho das técnicas de DM. É indispensável que seja realizada uma análise dos dados para verificar se há falta de casos; se há presença de casos atípicos (outliers); se as hipóteses associadas à ferramenta escolhida estão sendo adequadamente atendidas, bem como identificar se os eventuais "afastamentos das condições ideais" poderão comprometer os resultados da análise (Ribas, Vieira, 2011).

O presente artigo tem como objetivo discriminar os dados relativos a exames clínicos de pacientes com câncer ou cálculo no duto biliar, para que dados novos pacientes, a sua classificação possa ser realizada com o menor erro possível. Desta forma, o médico terá um respaldo adicional para a correta classificação ("câncer" ou "cálculo" no duto biliar) de seus pacientes. Para isso, pretende-se aplicar o processo KDD, com as técnicas RLB, GSME-PL e FDLF, de forma comparativa, na etapa de DM.

2. Métodos

As variáveis independentes utilizadas nesse estudo foram em um total de 14 oriundas de medidas de exames clínicos sugeridos por médico especialista da área: Idade, Sexo, Bilirrubina total, Bilirrubina direta, Bilirrubina indireta, Fosfatases alcalinas, SGOT (Transaminase Glutâmico-Oxalacética), SGPT (Transaminases Glutâmico-Pirúvicas), Tempo de atividade da protrombina, Albumina, Amilase, Creatinina, Leucócitos e Volume Globular, além da variável dependente (resposta classificatória: câncer ou cálculo no duto biliar). Tais variáveis foram obtidas de 118 pacientes do Hospital das Clínicas (HC) de Curitiba, PR, dos quais, comprovadamente, 35 possuíam câncer e 83 possuíam cálculo no duto biliar (Steiner et al. 2006).

A metodologia proposta, aqui apresentada, foi dividida em duas fases, enquadradas no processo KDD. A 1ª. fase, que envolve a análise exploratória de dados, ficou composta da multicolinearidade e das duas técnicas apresentadas na sequência e a 2ª. fase, que envolve DM, ficou composta pelas três técnicas, RLB, GSME-PL e FDLF, apresentadas na sequência, com o intuito de se obter a técnica com a máxima acurácia para o problema apresentado.

Resumidamente, a metodologia descrita acima pode ser visualizada na Figura 1, a seguir. O detalhamento será apresentado na sequência.

Figura 1- Metodologia Proposta.

O escore padronizado é o número de desvios padrões a que se situa determinado valor de x, acima ou abaixo da média, expresso pela equação (1), a seguir.

                                                                                   (1)

onde:

X = escore bruto; µ = média populacional; σ = desvio padrão populacional; m = média amostral; s = desvio padrão amostral. Um resultado para z = 2, significa que o valor está "2 desvios padrões" acima da média; um resultado para z = – 3, significa que o valor está a "3 desvios padrões" abaixo da média.

Teste T2 de Hotelling

A estatística do teste T2 de Hotelling é baseada em estimativas amostrais da matriz de covariância e é aplicado para verificar a igualdade dos vetores médios de duas amostras multivariadas A e B, conforme as equações (2) e (3).

                                       (2)

onde:

             (3)

O resultado é comparado com a distribuição Fn, m+k-n‑1 (0.95) (distribuição F de Snedecor a uma probabilidade de 95%). Nas expressões (1) e (2) têm-se que: m e k = número de instâncias das amostras A e B, respectivamente; n = número de variáveis de cada instância; Sp = matriz de covariância conjunta de A e B; XA = vetor (n x 1) médio da amostra A; XB = vetor (n x 1) médio da amostra B;  = inversa da matriz covariância amostral conjunta, sabendo-se que Sp é dada por meio de (4).

                                                                (4)

onde:

SA = matriz de covariância da amostra A; SB = matriz de covariância da amostra B.

No teste (5), a seguir, se:

                                     (5)

rejeita-se, fortemente, com uma probabilidade de 95%, a hipótese de que as amostras estejam centradas no mesmo vetor de médias.

Regressão Logística Binária (RLB)

O modelo de RLB proposto por Hosmer e Lemeshow (2000), assume a relação exposta na equação (6), também conhecida como função logística. Assim sendo, modelo de RLB a variável resposta  $ Y_i $ é binária. A variável adota dois valores, como por exemplo, Yi = 0 e Yi = 1.

Y = f (x) = (1 + e–ƞ)–1, x ∈ R n              (6)

onde:

 η= g(x) obtido num ajuste linear. A qualidade do ajuste é medida pela função desvio sp.

Geração de uma Superfície que Minimiza Erros (GSME)

O programa linear proposto gera um plano que minimiza os erros, que pode ser obtido por meio do modelo de Programação Linear (PL) apresentado em (7), em que ek e em ∈ Rk e Rm, respectivamente; w = vetor "peso" ∈ Rn, normal ao plano separador ótimo e γ ∈ R, fornece a loca­lização da superfície separadora ótima wx.

                      (7)

s.a.: Aw – em γ + y ≥ em

      - Bw + ek γ + z ≥ ek

          y ≥ 0, y Rm

           z ≥ 0, z Rk

Função Discriminante Linear de Fisher (FDLF)

A ideia de Fisher foi transformar observações multivariadas X's em observações univariadas Y's derivadas das populações π1 e π2 de tal modo que estas apresentassem o maior grau de separação (desvio padrão) possível (Fisher,1936).

A combinação linear do vetor x, x, em cada população, de maneira que seja o máximo da relação do quadrado da diferença de médias dos conjuntos A e B (xA e xB) com à sua variância Y, ou seja, que fornece o máximo para a proporção. Neste contexto, a FDL amostral, é dada a seguir pela equação (8).

             (8)

em que x = vetor das variáveis aleatórias corresponden­tes às características amostrais observadas.

Se x0 A, então:

 

Se x0 B, então:

 

3. Obtenção dos resultados e discussão

Os resultados foram obtidos por meio da aplicação das duas fases: aplicação da análise exploratória de dados (detecção da multicolinearidade; estatística descritiva; descarte de casos atípicos e teste T2 de Hotelling) e DM (RLB; GSME-PL; FDLF) sobre os dados.

Para a detecção da multicolinearidade dos dados, estatística descritiva dos dados e também o descarte atípicos de casos foi utilizado o pacote estatístico SPSS 13.0. Para a aplicação do teste T2 de Hotelling foi desenvolvido um programa no software MatLab. Para a aplicação da técnica RLB fez-se uso do software SPSS; para a resolução do modelo de GSME-PL, utilizou-se o software LINGO (Language Interactive General Optimizer) e, finalmente, para a aplicação da FDLF foi desenvolvido um programa no software MatLab.

Análise exploratória dos dados

A análise exploratória dos dados foi aplicada, conforme já mencionado, com o intuito de "melhorar" os dados obtendo-se, como consequência, uma maior acurácia das técnicas de DM. Inicialmente, verificou-se se as variáveis independentes possuem correlação através da multicolinariedade, por meio da aplicação do software SPSS 13.0.

O SPSS identificou a variável bilirrubina total, apresentada na Tabela 3, como tendo forte correlação com as demais variáveis (Tolerância = 0) e, portanto, deverá ser retirada. Segundo Field (2009), quando o valor da Tolerância se aproxima de "0", há forte indicação de multicolinearidade.

Já a estatística descritiva, foi realizada inicialmente, para as 118 casos (35 pertencentes à classe "Câncer" e 83 à classe "Cálculo"). Desta forma, pode-se observar que os desvios padrões da maioria das variáveis estão acima de "3", ou seja, apontando a existência de dados atípicos (outliers), que deverão ser excluídos, pois poderão influenciar negativamente, piorando o desempenho das técnicas de DM. Assim, foram excluídos os dados que apresentaram os escores padronizados z < -3 ou z > 3 para cada uma das variáveis analisadas individualmente. Foram excluídas 21 observações e, portanto, a amostra ficou com 97 casos (28 da classe "Câncer" e 69 da classe "Cálculo"). Foi possível notar, que os desvios padrões das variáveis, analisados de forma conjunta, diminuíram após a exclusão dos 21 dados. Após a determinação da nova amostra foi realizada a 2ª. fase da metodologia, ou seja, a aplicação das técnicas de DM.

O teste T2 de Hotelling foi aplicado às duas amostras (118 e 97 casos), com a obtenção dos seguintes valores: Amostra(118 casos): 5,09 > 1,819 = F13,104 (0,95); Amostra(97 casos): 6,32 > 1,845 = F13,83 (0,95). Por conseguinte, rejeita-se fortemente para as duas amostras, a hipótese de que as mesmas estejam centradas no mesmo vetor de médias. Assim sendo, o conjunto de pacientes com câncer no duto biliar é distinto do de cálculo no duto biliar.

Têm-se, assim, duas amostras: a primeira com 118 casos (35 pertencentes à classe "Câncer" e 83, à classe "Cálculo") e a segunda com 97 casos (28 da classe "Câncer" e 69 da classe "Cálculo").

Regressão Logística Binária

A técnica de RLB foi aplicada às 118 casos, com o auxílio do software SPSS 13.0 utilizando o método "Entrada Forçada" (comando "Enter" no SPSS), que consiste na entrada simultânea de todas as variáveis para definir o modelo final que minimiza o número de variáveis e maximiza a precisão do modelo.

A "matriz de confusão", apresenta a classificação para as 118 casos. A taxa de acerto global foi de 83,1% e as taxas individuais de acertos foram: para a classe "Cálculo", de 89,2% e para a classe "Câncer", de 68,6%. Assim, dos 83 padrões da classe "Cálculo", apenas 9 estão na classificação de "Câncer" e dos 35 padrões considerados "Câncer" detinham 11 padrões "Cálculo". Ou seja, o resultado é considerado não tão satisfatório. Assim, têm-se que ƞ da equação (6) apresenta a seguinte forma:

Ƞ(Casos=118) = 0,04X1 + 1,18X2 + 0,23X3 – 0,03X4 – 0,003X5 + 0,003X6 - 0X7 – 0,01X8 + 0,21X9 + 0,25X10 - 1,51X11 – 0,04X12 – 0,14X13 - 0,37                                                        (9)

Um novo teste foi na amostra com 97 casos. O resultado inicial considerando o modelo com apenas uma constante, ou seja, se todo paciente fosse classificado como "Cálculo", a taxa de acerto seria de 71,1%, considerado insatisfatório também.

Pode-se verificar que a análise direcionada, a etapa utilizando a estatística Wald consumiu uma etapa até se obter o modelo final. Observando-se as significâncias estatísticas do modelo, constatamos que o coeficiente é significante.

Após 8 iterações na 1ª etapa, o modelo final selecionou as 13 variáveis. A Tabela 1 mostra que na 1ª etapa o índice "R2 de Cox e Snell" situou-se no patamar de 49,3% e o "R2 Nagelkerke" ficou em 70,5%. O "R2 Cox e Snell" indica que 49,3% das variações ocorridas na RLB são explicadas pelo conjunto das variáveis independentes, ou seja, este índice apresenta um alto índice de explicação. O índice "R2 Nagelkerke" indica que 70,5% das variações registradas na variável dependente (Classe: câncer ou cálculo no duto biliar) são ocasionadas pelas variáveis independentes. Ou seja, este índice também apresenta uma alta explicação. As magnitudes das duas estatísticas são consideráveis.

Tabela 1 – Resumo do modelo

A Tabela 2 mostra que o teste "Hosmer e Lemeshow" indica a ausência de diferença significativa na distribuição de valores dependentes efetivos e previstos. Um bom ajuste de modelo é indicado por um valor chi-quadrado não significante (HAIR et al., 2009), como o observado no modelo. Isto demostra que o modelo significativo de RLB.

Tabela 2 – Teste de Hosmer e Lemeshow

As matrizes de classificação mostram taxa de acerto extremamente alta de casos corretamente classificados para o modelo.

A taxa de acerto geral é de 87,6% e, de forma adicional, as taxas de acerto de grupos individuais foram: para a classe "Cálculo", de 92,8% e para a classe "Câncer", de 75%. Assim, dos 69 casos da classe "Cálculo", apenas 5 estão na classificação de "Câncer" e dos 28 casos considerados "Câncer" detinham 7 casos "Cálculo".

Logo, são consistentemente altas as taxas de acertos individuais e não indicam um problema na previsão de qualquer um dos dois grupos. Ou seja, o resultado é considerado satisfatória. Assim, têm-se que ƞ da equação (6) apresenta a seguinte forma:

Ƞ(Casos=97) = 0,02X1 + 1,49X2 + 0,76X3 – 0,38X4 – 0,01X5 + 0X6 + 0,01X7 – 0,01X8 + 0,54X9 + 1,11X10 + 0,41X11 – 0,07X12 – 0,59X13 + 6,45                     (10)

Assim sendo, pode-se concluir que todas as variáveis independente é estatisticamente significativa para explicar o problema médico em uma tentativa de otimizar o processo do diagnóstico no duto biliar. Os coeficientes de RLB das aludidas variáveis apresentam significância estatística, conforme indicado pelo teste de Wald.

Geração de uma Superfície que Minimiza Erros

Esta segunda técnica de DM aqui utilizada constrói um modelo matemático que permite ajustar as variáveis do processo, no problema médico, de forma a classificar pacientes com "Câncer" ou "Cálculo" no duto biliar com um menor erro.

Foram classificados os pacientes com cálculo no duto biliar, através da GSME-PL aqueles que forneceram de um valor Awem γ + y em e pacientes com câncer no duto biliar aqueles que forneceram um valor - Bw + ek γ + z ≥ ek.

Deste modo, foram utilizadas as mesmas duas amostras (118 e 97 casos), para construir um modelo que minimiza a média ponderada da soma das violações dos dados dos conjuntos A e B que estão do "lado errado" do hiperplano separador: w1x1 + w2x2 + w3x3 + w4x4 + ....+ wnxn = γ.

Os resultados apresentados em (11) e (12) mostram os valores da função objetivo e, também as equações para as amostras com 118 e 97 casos, respectivamente. As matrizes de confusão para os dois casos estão descritas, a seguir.

Função Objetivo(118) = 0,84

Equação minimiza erro(118): 0,23E-01X1 + 1,07X2 + 0,27X3 – 0,81E-01X4 – 0,96E-03X5 – 0,90E-03X6 + 0,30E-03X7 – 0,50E-02X8 – 0,14E-01X9 + 0,15X10 – 2,07X11 – 0,72E-02X12 + 0,143E-01X13 = 1,72.           (11) 

A taxa de acerto geral é de 82,20% e, de forma adicional, as taxas de acerto de grupos individuais foram: para a classe "Cálculo", de 79,52% e para a classe "Câncer", de 88,57%. Assim, dos 83 casos da classe "Cálculo", apenas 17 estão na classificação de "Câncer" e dos 35 casos considerados "Câncer" detinham 4 casos "Cálculo".

Função Objetivo(97) = 0,78

Equação minimiza erro(97): – 0,57E-03X1 + 0,77X2 + 0,36X3 – 0,14X4 – 0,62E-02X5 – 0,18E-02X6 + 0,14E-02X7 – 0,61E-02X8 + 0,26X9 + 0,13X10 – 1,11X11 + 0,48E-01X12 – 0,20E-01X13 = 4,06.                      (12)

A taxa de acerto geral é de 82,47% e, de forma adicional, as taxas de acerto de grupos individuais foram: para a classe "Cálculo", de 81,16% e para a classe "Câncer", de 85,71%. Assim, dos 69 casos da classe "Cálculo", apenas 13 estão na classificação de "Câncer" e dos 28 casos considerados "Câncer" detinham 4 casos "Cálculo".

Conforme o resultado tem-se que a amostra com 97 casos (82,47%) mostrou um desempenho um pouco melhor em relação à amostra com 118 casos (82,20%).

Função Discriminante Linear de Fisher

A FDLF possui função discriminante Y = b1X1 + b2X2 + b3X3 + b4X4 + ....+ bnXn, em que Xi, com i = 1; ... ; 13 representa cada uma das 13 variáveis e bi, com i = 1; ... ; 13 são os coeficientes ou pesos. Desta forma, para verificar se x0 A ou se x0 B, é necessário comparar o valor de Y com Q = ½(xA – xB)' (xA – xB).

Os resultados apresentados em (13) e (14) mostram as equações para as amostras com 118 e 97 casos, respectivamente. As matrizes de confusão para os dois casos estão apresentadas, a seguir.

Casos(118): Y = 0,03X1 + 1,16X2 + 0,17X3 + 0,11X4 – 0,002X5 + 0,002X6 + 0,0003X7 – 0,002X8 + 0,17X9 + 0,17X10 - 0,10X11 – 0,06X12 – 0,12X13 < Q = 1,10 e Y = 0,03X1 + 1,16X2 + 0,17X3 + 0,11X4 - 0,002X5 + 0,002X6 + 0,0003X7 – 0,002X8 + 0,17X9 + 0,17X10 – 0,10X11 – 0,06X12 - 0,12X13 > Q = 1,10.                              (13)                  

A taxa de acerto geral é de 81,36% e, de forma adicional, as taxas de acerto de grupos individuais foram: para a classe "Cálculo", de 81,93% e para a classe "Câncer", de 80%. Assim, dos 83 casos da classe "Cálculo", apenas 15 estão na classificação de "Câncer" e dos 35 casos considerados "Câncer" detinham 7 casos "Cálculo".

Casos(97): Y = 0,0068X1 + 0,8451X2 + 0,4595 X3 - 0,0529 X4 - 0,0077 X5 + 0,0033 X6 + 0,0043 X7 - 0,0064X8 + 0,5114X9 + 0,2494X10 - 0,1053X11 - 0,0425X12 - 0,3258X13 < Q = - 1,21 e Y = 0,0068X1 + 0,8451X2 + 0,4595 X3 - 0,0529 X4 - 0,0077 X5 + 0,0033 X6 + 0,0043 X7 - 0,0064X8 + 0,5114X9 + 0,2494X10 - 0,1053X11 - 0,0425X12 - 0,3258X13 > Q = - 1,21.               (14)                                                                                                               

A taxa de acerto geral é de 84,54% e, de forma adicional, as taxas de acerto de grupos individuais foram: para a classe "Cálculo", de 85,51% e para a classe "Câncer", de 82,14%. Assim, dos 69 casos da classe "Cálculo", apenas 10 estão na classificação de "Câncer" e dos 28 casos considerados "Câncer" detinham 5 casos "Cálculo".

Conforme o resultado tem-se que a amostra com 97 casos (84,54%) mostrou um desempenho superior em relação à amostra com 118 casos (81,36%).

4. Conclusões

O presente trabalho utilizou algumas técnicas para a análise exploratória e para DM, enquadradas no processo KDD, tendo em vista a classificação de padrões, Tais técnicas foram aplicadas a um problema de diagnóstico médico, visando a classificação de pacientes colestáticos (com "câncer" ou "cálculo" no duto biliar) com a máxima acurácia.

Na 1ª, fase, com análise exploratória dos dados, aplicou-se a análise descritiva aos dados, descarte de dados atípicos (outliers) e o teste T2 de Hotelling, na tentativa de "melhorar" os dados visando a maximização da acurácia das técnicas utilizadas na 2ª, fase.

Na 2ª, fase, com a utilização das técnicas RLB, GSME-PL e FDLF, obteve-se os resultados apresentados no Quadro 1 a seguir.

Quadro 1 – Resultado do Desempenho das Técnicas de DM

Amostras

RLB

GSME-PL

FDLF

Problema Médico

118

83,10%

82,20%

81,36%

97

87,60%

82,47%

84,54%

Por meio do Quadro 5, conclui-se que a técnica de DM, RLB, é a mais eficiente para o problema aqui apresentado, Desta forma, dado uma nova instância, o especialista poderia aplicar a equação (6) apresentada para confirmar (ou não) o seu diagnóstico. Vale enfatizar que as técnicas aqui abordadas servem apenas para respaldar as decisões/conclusões dos especialistas, e nunca para substitui-los.

Agradecimentos

A 1ª, autora deste trabalho agradece à CAPES pela bolsa que vem sendo concedida para o desenvolvimento de seu Doutoramento.

Referências

ANTHERIEU, S.; AZZI, P.B..; DUMONT, J.; ABDEL-RAZZAK, Z.; GUGUEN-GUILLOUZO, C.; FROMENTY, B.; ROBIN, M.A.; GUILLOUZO, A. (2013); Oxidative stress plays a major role in chlorpromazine-induced cholestasis in human heparg cells. Hepatology, v.57, n.4, p.1518-1529.

FIELD, A. (2009); Descobrindo a Estatística usando o SPSS. 2a. Ed., tradução Lorí Viali. Porto Alegre: Artmed.

FISHER, R. A. (1936); The use of multiple measurements in taxonomic problems. Annals of Eugenics, v.7, n.2, p.179 188.

HAIR, J.F.; BLACK, W.C.; BABIN, B.J.; ANDERSON, R.E.; TATHAM, R.L.(2009); Análise multivariada de dados. 6. ed. Porto Alegre: Bookman.

HOSMER, D.W.; LEMESHOW, S.(2000); Applied logistic regression. New York: Wiley & Sons.

KRISHNAMURTHY, G.T.; KRISHNAMURTHY, S. (2009); Nuclear Hepatology: a textbook of hepatobiliary diseases. New York. NY: Springer.

PAULI-MAGNUS, C.; MEIER, P.J. (2006); Hepatobiliary Transporters and Drug-Induced Cholestasis. Hepatology. v.44, n.4, p.778-787.

PAULI-MAGNUS, C.; MEIER, P.J.; STIEGER, B. (2010); Genetic determinants of drug-induced cholestasis and intrahepatic cholestasis of pregnancy. Seminars in Liver Disease, v.3, n.2, p.147-159.

RIBAS, J.R.; VIEIRA, P.R. C.D. (2011); Análise Multivariada com o uso do SPSS. Rio de Janeiro: Ciência Moderna.

ROEB, E.PURUCKER, E.GARTUNG, C.GEIER, A.JANSEN, B.WINOGRAD, R.MATERN, S. (2003); Effect of Glutathione Depletion and Hydrophilic Bile Acids on Hepatic Acute Phase Reaction in Rats with Extrahepatic Cholestasis. Scandinavian Journal of Gastroenterology, v.38, n.8, p.878-885.

STEINER, M.T.A.; SOMA, N.Y.; SHIMIZU, T.; NIEVOLA, J.C.; STEINER NETO, P.J.(2006); Abordagem de um problema médico por meio do processo de KDD com ênfase à análise exploratória dos dados. Revista Gestão & Produção, v.13, n.2, p.325-337.

VAN DE STEEG, E.; STRÁNECKÝ, V.; HARTMANNOVÁ, H.; NOSKOVÁ, L.; HREBÍCEK, M.; WAGENAAR, E.; ESCH, A.V.; DE WAART, D.R; ELFERINK, O.R.P.J.; KENWORTHY, K.E.; STICOVÁ, E.; AL-EDREESI, M.; KNISELY, A.S.; KMOCH, S.; JIRSA, M.; SCHINKEL, A.H.(2012); Complete OATP1B1 and OATP1B3 deficiency causes human Rotor syndrome by interrupting conjugated bilirubin reuptake into the liver. The Journal of Clinical Investigation, v.122, n.2, p.519-528.


1. Pontifícia Universidade Católica do Paraná - PUCPR – Brasil. EMail: carla.rosa@pucpr.br

2. Pontifícia Universidade Católica do Paraná - PUCPR – Brasil. EMail: maria.steiner@pucpr.br

3. Pontifícia Universidade Católica do Paraná - PUCPR – Brasil. EMail: pedrosteiner@ufpr.br



Vol. 37 (Nº 08) Año 2016

[Índice]

[En caso de encontrar algún error en este website favor enviar email a webmaster]