Post on 09-Nov-2018
Data mining – Sistemas de saúde
Faculdade de Engenharia da Universidade do Porto
Data mining
Data mining – Sistemas de saúde
Projeto FEUP:
Coordenadores gerais: Coordenador de Curso:
Manuel Firmino Luís Guimarães
Sara Ferreira
Equipa 05_02:
Supervisor: Luís Guimarães Monitor: Jorge Ferreira
Estudantes & Autores:
Cláudia Ferreira up201607178@fe.up.pt Rui Morais up201606955@fe.up.pt
Moisés Coelho up201606951@fe.up.pt Tomás Rocha up201606958@fe.up.pt
Patrícia Mendes up201606899@fe.up.pt
PROJETO FEUP I
Data mining – Sistemas de saúde
Resumo
O presente relatório foi redigido no âmbito da unidade curricular Projeto FEUP e visa definir o
conceito de Data mining (mineração de dados, em português), assim como evidenciar a sua
aplicabilidade à área da saúde, referindo exemplos concretos da mesma.
Ao longo deste trabalho, será apresentada uma definição técnica mais aprofundada deste
conceito, seguida da enumeração e explicação dos diversos processos que permitem a sua concretização.
Além disso, serão referidas situações reais, baseadas em estudos certificados, que comprovam o
potencial destes métodos no setor médico. Tal como todas as tecnologias, o Data mining apresenta
limitações, as quais serão exploradas na parte final deste relatório.
Data mining consiste na exploração e análise informática de grandes quantidades de dados com
o objetivo de encontrar padrões de fundo, os quais permitem aglutinar a informação através de
associações ou sequências temporais. Esta técnica utiliza tecnologias computacionais avançadas para
descobrir regras e tendências em extensos conjuntos de informação, auxiliando os seus utilizadores na
tomada de decisões estratégicas.
Palavras-Chave
Data mining, paisagem informacional, modelação prescritiva, clustering, regras de associação,
modelação descritiva, árvores de decisão, redes neuronais, Sistemas CAD, WEKA, Sistema de
linguagem médica unificada
PROJETO FEUP II
Data mining – Sistemas de saúde
Agradecimentos
O grupo agradece a todos os docentes envolvidos nesta unidade curricular, pela sua constante
disponibilidade e pelo seu apoio na preparação e realização deste relatório. Como tal, o grupo deixa o
seu sincero agradecimento ao coordenador de curso e supervisor, Luís Guimarães, e ao monitor, Jorge
Ferreira, por todo o auxílio prestado.
PROJETO FEUP III
Data mining – Sistemas de saúde
Índice
Resumo ........................................................................................................................... I
Palavras-Chave ............................................................................................................... I
Agradecimentos .............................................................................................................. II
Lista de figuras .............................................................................................................. IV
1. Introdução ................................................................................................................... 1
2. Conceito de Data mining ............................................................................................. 2
3. Métodos de Data Mining ............................................................................................. 3
3.1 Modelação Descritiva ............................................................................................ 3
3.1.1 Clustering ....................................................................................................... 3
3.1.2 Regras de associação .................................................................................... 4
3.2 Modelação Preditiva .............................................................................................. 4
3.2.1. Árvores de decisão ........................................................................................ 4
3.2.2. Redes Neuronais ........................................................................................... 5
4. Tarefas do Data mining ............................................................................................... 7
5. Data mining na saúde ................................................................................................. 8
5.1 Sistema de Linguagem Médica Unificada .............................................................. 8
6. Aplicação das técnicas de Data mining na saúde ....................................................... 9
6.1. Casos de hipertensão........................................................................................... 9
6.2. Casos Fraudulentos e de Abuso Hospitalar ........................................................ 10
7. Softwares de Data mining ......................................................................................... 12
7.1. WEKA ................................................................................................................ 12
7.2. Sistemas CAD .................................................................................................... 12
8. Limitações ................................................................................................................ 14
9. Conclusões ............................................................................................................... 15
Referências bibliográficas ............................................................................................. 16
PROJETO FEUP IV
Data mining – Sistemas de saúde
Lista de figuras
Figura 1 - Combinação de informação (data), descoberta (discovery) e implantação
(deployment) ......................................................................................................................... 2
Figura 2 - Visualização gráfica da técnica de clustering .................................................. 3
Figura 3 - Exemplos de regras de associação ................................................................ 4
Figura 4 - Exemplo de árvore de decisão ....................................................................... 5
Figura 5 - Exemplo de rede neuronal .............................................................................. 6
Figura 6 - Etapas associadas ao Data mining ................................................................. 7
Figura 7 - Aplicação do Data mining ............................................................................... 9
Figura 8 - Resultados obtidos ....................................................................................... 11
Figura 9 - Aplicação do Data mining à imagiologia médica ........................................... 13
PROJETO FEUP 1
Data mining – Sistemas de saúde
1. Introdução
Este relatório foi elaborado enquanto elemento integrante da unidade curricular Projeto FEUP
e o seu propósito é abordar, do ponto de vista técnico, o conceito de Data mining e a possibilidade de
este ser aplicado aos sistemas de saúde.
A predominância da tecnologia no nosso quotidiano implica um enorme volume de informação
em constante circulação. Nos últimos anos, a diminuição dos custos de hardware promoveu este
fenómeno, tornando possível o armazenamento de quantidades de dados exponencialmente maiores. No
entanto, o crescimento da paisagem informacional não se traduz numa melhor capacidade, da nossa
parte, de fazer escolhas com base nela.
Apesar de nos depararmos constantemente com uma infinidade de bits de informação
provenientes de diversas fontes, este excesso de dados torna-se um fator paralisante na tomada de
decisão. É por esta razão que as técnicas de exploração de dados se têm revelado particularmente úteis
recentemente. Entre elas, destacamos o Data mining como uma das inovações tecnológicas da
atualidade, pelo facto de a recolha massiva de dados ser extremamente dispendiosa e, simultaneamente,
nem sempre fornecer informação útil.
PROJETO FEUP 2
Data mining – Sistemas de saúde
2. Conceito de Data mining
Em primeiro lugar, é necessário ter em conta que o volume de dados cresce exponencialmente
ao longo do tempo e, estimando que os dados produzidos em 2020 serão 44 vezes maior que em 2009,
é imprescindível a criação de técnicas para a análise de grandes quantidades de informação (CSC, 2012).
Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados,
reconhecimento de padrões, machine learning, entre outras áreas. A fim de encontrar relações
desconhecidas que possam trazer valor para uma dada empresa, esta técnica foca-se na análise de
grandes bases de dados (Hand, 1998).
Figura 1 - Combinação de informação (data), descoberta (discovery) e implantação (deployment)
PROJETO FEUP 3
Data mining – Sistemas de saúde
3. Métodos de Data Mining
O Data mining inclui dois tipos de modelação muito utilizados: a Modelação Descritiva e a
Modelação Preditiva.
Para Fayyad, Shapiro & Smyth (1996), fomentando o aumento do conhecimento do analista, a
Modelação Descritiva resume e simplifica grandes quantidades de dados. Por outro lado, a Modelação
Preditiva, baseando-se em modelos e prevê algum valor quantitativo ou qualitativo de interesse. Esta
modelação utiliza a estatística e modelos matemáticos para prever futuros resultados, comportamentos
e tendências.
3.1 Modelação Descritiva
3.1.1 Clustering
Jain (2009) afirma que a análise de clusters se baseia em métodos que agrupam uma população
heterogénea de acordo com as suas caraterísticas e similaridade em grupos análogos. Para além disso,
Gupta & Mishra (2011) consideram que os dados em cada cluster têm que ser idênticos entre si e
diferentes entre os restantes clusters. Quanto maior a similaridade dos dados no cluster e maior a
diferença entre clusters, mais fácil será a sua análise.
Figura 2 - Visualização gráfica da técnica de clustering
PROJETO FEUP 4
Data mining – Sistemas de saúde
Em Data mining, existem dois tipos de classificação: supervisionada e não-supervisionada. O
clustering é classificado como não-supervisionada, pois não depende de classes pré-definidas, ou seja,
os registos são agrupados apenas com base nas suas semelhanças. Numa classificação supervisionada é
fornecido um conjunto de dados pré-classificados, onde os padrões de treino já são conhecidos (Jain,
Murty & Flynn, 1999).
Ainda mais, Jain (2009) declara que um cluster é uma entidade subjetiva, pois a sua
interpretação e o seu significado dependem do conhecimento do utilizador sobre o assunto. No entanto,
enquanto o Homem consegue facilmente interpretar clusters até três dimensões, dificilmente o
conseguirá para dimensões maiores, pelo que é importante criar um algoritmo que interprete dados a
grandes dimensões.
3.1.2 Regras de associação
Para Srikant & Agrawal (1997), as regras de associação são técnicas não supervisionadas que
têm como objetivo a descoberta de padrões e relações, desconhecidos ou pouco óbvios, entre os dados.
Como resultado, esta técnica gera um conjunto de regras que definam os padrões e relações encontrados.
A aplicação desta técnica é muito comum no retalho, onde os dados são definidos como transações.
Figura 3 - Exemplos de regras de associação
3.2 Modelação Preditiva
3.2.1. Árvores de decisão
Segundo Rokach & Maimon (2005), as árvores de decisão são os algoritmos mais utilizados,
constituindo-se por nós (interrogações que se colocam sobre o conjunto de dados), arcos (separam o
conjunto de dados de acordo com o critério em causa) e folhas (nós finais). As árvores de decisão
“crescem” com a raiz no topo e as folhas por baixo, pelo que a sua relação é unidirecional.
PROJETO FEUP 5
Data mining – Sistemas de saúde
Figura 4 - Exemplo de árvore de decisão
Esta técnica apresenta como vantagem uma fácil interpretação e leitura dos resultados,
permitindo que os utilizadores sem conhecimento da técnica consigam perceber os atributos com maior
impacto nos resultados.
Em certas situações, quando se abordam diversos aspetos, a árvore de decisão pode ficar
demasiado complexa e de difícil interpretação. Nestes casos, utilizam-se métodos estatísticos de forma
a apurar os ramos que podem ser retirados da análise. (Yoo et al., 2012)
3.2.2. Redes Neuronais
Pela perspetiva de Hariz et al. (2012), as redes neuronais artificiais foram inspiradas nas redes
neuronais do cérebro humano. Um neurónio é constituído por um núcleo e dois tipos de ramificações,
o axónio e as dendrites. Os axónios transmitem sinais para os outros neurónios, enquanto que as
dendrites recebem sinais dos neurónios anteriores. Uma rede neuronal artificial atua com base neste
princípio.
Assim sendo, as redes neuronais artificiais são técnicas computacionais que permitem a criação
de um modelo matemático através de uma aprendizagem assente num conjunto de dados previamente
classificados (dados de treino). À semelhança das redes neuronais humanas, as artificiais são compostas
por vários nós que se ligam por canais de comunicação, aos quais são atribuídos um determinado peso.
No processo de treino, estes pesos vão sendo ajustados de forma a amplificar ou atenuar o impacto que
essa ligação terá no modelo matemático (Yoo et al., 2012). Posteriormente, torna-se possível a
PROJETO FEUP 6
Data mining – Sistemas de saúde
classificação automática de dados utilizando o modelo matemático gerado.
Figura 5 - Exemplo de rede neuronal
Para Yoo et al. (2012), as redes neuronais têm vantagens tais como a capacidade de classificação
rápida após aprendizagem, assim como a sua flexibilidade na resolução de diversos problemas, sendo,
portanto, um dos algoritmos mais utilizados para as áreas da saúde, suportando estudos sobre o cancro
ou previsões de diagnósticos.
No entanto, a relação intrínseca entre a qualidade dos dados de treino e a qualidade dos
resultados apresenta-se como uma desvantagem, na medida em que dados de treino pouco fiáveis
produzem resultados igualmente pouco fiáveis. Além disso, este método é muito suscetível a overfitting
aos dados de treino. Por fim, dada a sua complexidade, o seu processo de aprendizagem é lento e
dispendioso e existe a possibilidade acrescida de má interpretação dos resultados (Yoo et al., 2012).
PROJETO FEUP 7
Data mining – Sistemas de saúde
4. Tarefas do Data mining
Os softwares de Data mining são capazes de desempenhar uma variedade de tarefas, as quais
produzem informação de diversos tipos.
● Descrição: consiste em descrever a informação revelada pelo conjunto dos dados, isto é, os
padrões e as tendências que estes encerram, sendo o resultado desta tarefa uma possível
interpretação dos mesmos.
● Classificação: tem como objetivo enquadrar um dado numa classe. Para tal, é necessária a
introdução direta das regras de classificação, para que o software se possa basear nelas ao longo
do processo.
● Estimação/Regressão: esta tarefa é uma adaptação da classificação a situações em que as
variáveis não são categóricas, mas sim numéricas, e permite estimar o seu valor comparando-
os com os restantes.
● Previsão: o princípio subjacente a esta tarefa é a criação de modelos de previsão baseados na
informação obtida através da classificação e da regressão, para que estes possam ser aplicados
em situações futuras.
● Sequenciação: consiste em relacionar dois eventos distintos com base na sua sequência
temporal.
Estas ferramentas permitem realizar análises generalizadas de padrões e tendências. É também
possível explorar exaustivamente os dados em busca de relações mais particulares.
Figura 6 - Etapas associadas ao Data mining
PROJETO FEUP 8
Data mining – Sistemas de saúde
5. Data mining na saúde
Do ponto de vista de Hariz et al. (2012), tal como nas outras áreas, o armazenamento de
informação na saúde é cada vez maior. As bases de dados médicas contêm registos dos pacientes e
diagnósticos médicos que podem ser úteis na tomada de decisão. No entanto, Cios & Moore (2002)
ressalvam que existem alguns constrangimentos a nível ético e legal, impedindo a utilização dos dados
na sua totalidade. A segurança dos dados dos pacientes é sempre tida em conta, de modo a garantir a
privacidade em questões mais sensíveis.
A interpretação das imagens, sinais ou outros dados clínicos pode ser semelhante entre médicos,
mas a sua forma de relatar pode ser bem diferente. A falta de uniformização da escrita dificulta as
análises, pois estes usam nomes diferentes (sinónimos) para descrever a mesma doença (Cios & Moore,
2002).
5.1 Sistema de Linguagem Médica Unificada
Dado o uso frequente de Data mining e sistemas informáticos na área da saúde, foi criado o
Unified Medical Language System (UMLS), projetado em 1986 por Donald A. B. Lindberg, M. D.,
Diretor da Biblioteca Nacional de Medicina.
O UMLS trata-se da combinação de vocabulários controlados do âmbito das ciências
biomédicas, organizando-os e armazenando-os em bases de dados. Fornece, portanto, uma estrutura de
mapeamento entre vocabulários, permitindo uma homogeneização na comunicação entre sistemas de
terminologia.
Devido ao grande volume de documentos de literatura médica, as pesquisas neste ramo
poderiam tornar-se mais difíceis. No entanto, o UMLS, melhorando o acesso a essa informação,
universaliza a variedade de diferentes abordagens para os mesmos conceitos que, posteriormente, são
distribuídos por outros sistemas e/ou bases de dados.
Atualmente, este sistema é mantido pela Biblioteca Nacional de Medicina dos Estados Unidos.
É de salientar que este sistema poderá potenciar o uso de Data mining, permitindo verificar a existência
de padrões comuns em bases de dados que, anteriormente, utilizavam terminologias distintas.
PROJETO FEUP 9
Data mining – Sistemas de saúde
6. Aplicação das técnicas de Data mining na saúde
O uso do Data mining tem como vantagens uma melhor gestão dos dados hospitalares dos
utentes e a sua separação através de determinadas particularidades. Os modelos caracterizam-se, ainda,
por serem precisos, de compreensão fácil e de construção e atualização imediatas. Isto prova ser uma
mais valia na área da saúde, reduzindo drasticamente os custos e melhorando a capacidade de resposta
aos casos hospitalares.
Figura 7 - Aplicação do Data mining
6.1. Casos de hipertensão
A. Contexto
Na Coreia do Sul, foram aplicadas técnicas de Data mining com o intuito de obter informações
que ajudassem na monitorização do programa de controlo da hipertensão.
B. Metodologia
A partir de uma base de dados, foram selecionados, de forma aleatória, registos de cerca de
127.000 pacientes. Posteriormente, incluíram-se registos dos pacientes que tinham hipertensão (9.103),
tendo-se repetido o processo para os pacientes sem hipertensão, para um total de 18206 registos. As
informações abrangiam dados biomédicos (como a altura, o peso, o colesterol, a taxa de glicose, entre
outros) e outros (como a idade e a percentagem de fumadores e ex-fumadores).
C. Técnicas utilizadas
Em primeiro lugar, foi usada a técnica de regressão que visava encontrar os fatores de risco
PROJETO FEUP 10
Data mining – Sistemas de saúde
para esta doença, através dos hábitos e caraterísticas dos pacientes, constituindo estas as variáveis
independentes, enquanto a existência ou não de hipertensão assumia o papel de variável dependente.
A técnica de previsão foi aplicada através de uma árvore de decisão que avalia as variáveis
definidas na técnica de regressão como fatores de risco e calcula a tendência de um certo paciente para
a hipertensão.
Finalmente, a técnica de associação foi utilizada de modo a encontrar relações entre as variáveis
de risco, como fumar ou beber, e o resultado positivo de hipertensão.
D. Resultados
Com a técnica de regressão, verificou-se que as variáveis biomédicas são definitivamente bons
indicadores para a hipertensão, destacando-se a taxa de glicose, o colesterol, o índice de massa corporal
e a concentração de proteína urinária. Por outro lado, a técnica de previsão permitiu definir a
probabilidade que um certo indivíduo tem de adquirir esta doença. Finalmente, a técnica de associação
possibilitou um elevado número de associações entre os vários fatores de risco.
E. Conclusões
Através da aplicação das técnicas de Data mining neste caso em particular, concluiu-se que
estas metodologias são bastantes úteis e eficazes na descoberta de padrões associados à doença da
hipertensão, apesar das limitações subjacentes ao conjunto de dados utilizados.
6.2. Casos Fraudulentos e de Abuso Hospitalar
A. Contexto
Em 2006 investigadores da Universidade de Ciências de Changhua (Taiwan) propuseram um
processo de Data mining, que se baseia na técnica de Árvores de Decisão. Este novo processo tem como
objetivo detetar casos abusivos ou fraudulentos nos sistemas de saúde.
Assim, analisando os dados de casos é possível construir modelos onde automaticamente são
separados comportamentos fraudulentos das atividades normais.
B. Metodologia
Para avaliação do modelo foram utilizados os dados do BNHI (Bureau of National Health
Insurance). Foram selecionados dados de um hospital regional referentes ao Departamento de
Ginecologia. Selecionaram-se dados de 2543 pacientes, recolhidos entre julho de 2001 e junho de 2002.
De seguida eram preparados dois conjuntos de dados: um contendo os casos de fraude e outro os
normais.
O método para a criação de base de dados consistiu numa primeira fase na eliminação dos
PROJETO FEUP 11
Data mining – Sistemas de saúde
registos com dados incoerentes. Nesse processo eliminaram-se 77 casos. Em seguida, ocorreu a
identificação, por parte de dois ginecologistas, dos casos fraudulentos. A análise total resultou na
descoberta de 906 casos fraudulentos. Por último, os mesmos profissionais de saúde selecionaram um
igual número de casos normais para assim formar uma base de dados equilibrada, contendo 1812
registos.
C. Resultados
A avaliação dos resultados baseou-se em dois parâmetros: “sensitivity”, que corresponde à
percentagem de casos fraudulentos detetados pelo software, e “specificity”, que corresponde à
percentagem de casos normais detetados. Os melhores resultados obtidos para “sensitivity” foram de
64%, enquanto que para o parâmetro “specificity” o melhor valor foi de 67%.
Figura 8 - Resultados obtidos
D. Conclusão
Apesar de ser uma aplicação diferente do Data mining, é possível concluir que o software
desenvolvido ajudou na identificação das características associadas a casos fraudulentos.
PROJETO FEUP 12
Data mining – Sistemas de saúde
7. Softwares de Data mining
7.1. WEKA
Atualmente, o software Waikato Environment for Knowledge Analysis (WEKA) é reconhecido
como um sistema de referência em Data mining, devido à sua capacidade de adaptação a diferentes
linguagens informáticas.
Procedendo à análise estatística dos dados fornecidos, o WEKA é capaz de gerir indutivamente
hipóteses para soluções e eventuais teorias sobre os dados em questão. Além disso, conforme a sua base
de dados aumenta, o software consegue, através de processos de machine learning, ajustar e melhorar
os seus algoritmos.
7.2. Sistemas CAD
O software CAD usa vários sistemas computacionais para ajudar o utilizador a criar, modificar,
analisar e otimizar designs.
No Instituto de Ciências Matemáticas e da Computação (ICMC) da Universidade de São Paulo,
investigadores desenvolveram um novo sistema de Data mining para imagens médicas. Recorrendo à
algoritmia, as imagens do corpo humano que tenham as características solicitadas pelos médicos são
selecionadas. Segundo Alceu Ferraz Costa, doutorando em Ciências de Computação pelo Instituto de
Ciências Matemáticas e de Computação da Universidade de São Paulo, “O computador não realiza o
diagnóstico, mas elabora um pré-diagnóstico, ao qual designamos diagnóstico auxiliado por
computador ou sistemas CAD (Computer Aided Diagnosis)”.
Os sistemas CAD são fundamentados por mineração de imagens, a partir das quais se realiza a
extração de características relevantes que salientam os aspetos a ter em conta pelo especialista aquando
do diagnóstico.
A pesquisa contou com a parceria do Hospital das Clínicas da Faculdade de Medicina de
Ribeirão Preto da Universidade de São Paulo e procurou avaliar a imagem do pulmão dos pacientes.
No entanto, poderia ser aplicada a outras áreas médicas, como ultrassonografias e radiografias de outros
órgãos. “Com imagens de pulmões, podíamos analisar qualquer parte danificada deste órgão. Deste
modo, tornar-se-ia possível detetar a doença.”.
PROJETO FEUP 13
Data mining – Sistemas de saúde
Figura 9 - Aplicação do Data mining à imagiologia médica
PROJETO FEUP 14
Data mining – Sistemas de saúde
8. Limitações
O Data mining apresenta, sem dúvida, um grande potencial no que diz respeito ao tratamento
de dados. No entanto, de forma análoga a todas as tecnologias, apresenta algumas limitações e fatores
que devem ser tido em conta, visto condicionarem a fiabilidade dos seus resultados.
● É necessário que as relações entre os atributos de um certo conjunto de informação sejam
claras e bem definidas. Se tal não se verificar, a interpretação dos resultados não oferece
garantias.
● A utilização de um grande número de variáveis exige um poder computacional elevado.
Deste modo, a complexidade das tarefas realizadas está intimamente dependente do suporte
informático, o qual está limitado em termos tecnológicos e orçamentais.
● O Data mining é capaz de encontrar padrões na informação, mas não é capaz de os explicar.
Além disso, não é possível detetar relações pontuais entre atributos.
● O nível de informação sobre os utilizadores exigido pelos softwares de data mining pode
ser questionável do ponto de vista legal, visto que poderá por em causa a privacidade dos
cidadãos e a ciber-segurança.
Por outro lado, há certos desafios tecnológicos cuja superação é necessária para a evolução do
Data mining.
● A capacidade de processamento de dados-base tem de atingir a ordem dos Terabytes e, em
simultâneo, possibilitar a alta dimensionalidade, isto é, o relacionamento entre um grande
número de atributos.
● Os softwares de correção de erro têm de ser capazes de abordar a limitação dos conjuntos
de dados que, por vezes, não abrangem todos os padrões reais. Neste contexto, o pré-
processamento poderá diminuir as margens de erro.
● Os softwares de integração devem tornar-se capazes de colmatar a crescente dependência
entre os sistemas.
PROJETO FEUP 15
Data mining – Sistemas de saúde
9. Conclusões
A elaboração deste relatório permitiu abordar, com uma profundidade substancial, o conceito
de Data mining, para além de avaliar a sua aplicabilidade na área da saúde.
Por um lado, a introdução teórica, que se faz acompanhar de uma descrição dos métodos e
tarefas deste software, permite ao leitor adquirir uma melhor conceção do termo Data mining. Por outro,
a apresentação de alguns exemplos práticos da aplicação do mesmo no setor médico permitiu concluir
sobre o seu potencial.
No entanto, uma pesquisa mais aprofundada revela também, na perspetiva de diversos autores,
a referência a algumas das limitações do Data mining. A inclusão das mesmas neste relatório confere-
lhe um caráter global e imparcial.
Concluindo, o Data mining integra uma tecnologia inovadora com muito potencial na área
médica. Não obstante, as suas desvantagens devem ser encaradas de forma a aperfeiçoar as suas técnicas
e softwares.
PROJETO FEUP 16
Data mining – Sistemas de saúde
Referências bibliográficas
Hand, D. J., 1998. Data Mining: Statistics and More? The American Statistician. Taylor & Francis, Ltd.
pela American Statistical Association.
Fayyad, U., Shapiro, G. P., & Smyth, P., 1996. From Data Mining to Knowledge Discovery in
Databases, American Association for Artificial Intelligence. Volume 39. Revista Communications of
the Association of Computing Machinery.
Jain, A., K., 2009. Pattern Recognition Letters. Volume 31. Elsevier.
Gupta, E., A. & Mishra, E., A., 2011. Research Paper on Cluster Techniques of Data Variations.
International Journal of Advance Technology & Engineering Research. Volume 8. Eletronic
Government, na International Journal.
Jain, A., K., Murty, M., N., & Flynn, P., J., 1999. Data Clustering: A Review. Volume 31, ACM
Computing Surveys.
Srikant, R., & Agrawal, R., 1997. Mining generalized association rules. Future Generation Computer
Systems. Volume 13. Elsevier.
Hariz, M., Adnan, M., Husain, W., Aini, N., & Rashid, A., 2012. Data Mining for Medical Systems: A
Review. Proc. Of the International Conference on Advances in Computer and Information Technology.
Institute of Research Engineers and Doctors.
Yoo, I., Alafaireet, P., Marinov, M., Pena-Hernandez, K., Gopidi, R., Chang, J., & Hua, L., 2012. Data
Mining in Healthcare and Biomedicine: A Survey of the Literature. Springer Science+Business Media.
Journal of Medical Systems.
Yang, W., Wang S., 2006. A process-mining framework for the detection of healthcare fraud and abuse,
Expert Systems with Applications 31.
Chae, Young M., Ho, Seumg H.; Cho, Won K.; Lee, Dong H.; Ji, Sun H., 2001. Data Mining approach
to policy analysis in health insurance domain. International Journal of Medical Informatics.
PROJETO FEUP 17
Data mining – Sistemas de saúde
Mineração de dados. 2016. Acedido a 14 de outubro de 2016.
https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados
SAS Data Mining Community. Data Mining From A to Z: How to Discover Insights and Drive Better
Opportunities. 2016. Acedido a 13 de outubro de 2016.
http://www.sas.com/content/dam/SAS/en_us/doc/whitepaper1/data-mining-from-a-z-104937.pdf
Goreti Marreiros, Paulo Oliveira. 2000. Acedido a 18 de outubro de 2016.
http://paginas.fe.up.pt/~mgi99021/it/defest.htm#1
M.M.M. Sarcar, K. Mallikarjuna Rao,K. Lalit Narayan, Computer Aided Design and Manufacturing, 2008.
Acedido a 19 de outubro de 2016.
https://books.google.pt/books?id=zXdivq93WIUC&printsec=frontcover&redir_esc=y#v=onepage&q
&f=false
Mark Hall e Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer Peter Reutemann, Ian H. Witten,The
WEKA Data Mining Software: An Update. 2009. Acedido a 16 de outubro de 2016.
http://www.cms.waikato.ac.nz/~ml/publications/2009/weka_update.pdf
Machine Learning Group at the University of Waikato, Weka 3: Data Mining Software in Java. Acedido
a 16 de outubro de 2016.
http://www.cs.waikato.ac.nz/~ml/weka/index.html
Ferraz Costa, Alceu, Mineração de imagens médicas utilizando características de forma. Acedido a 16
de outubro de 2016.
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27062012-102526/en.php
Cássio O. C., João C. S., Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. 2009.
Acedido a 17 de outubro de 2016. http://www.inf.ufg.br/sites/default/files/uploads/relatorios-
tecnicos/RT-INF_001-09.pdf
PROJETO FEUP 18
Data mining – Sistemas de saúde
WEKA. Weka 3: Data Mining Software in Java. 2015. Acedido a 15 de outubro de 2016.
http://www.cs.waikato.ac.nz/ml/weka/
Data Mining: conceitos e casos de uso na área da saúde. Acedido a 14 de outubro de 2016.
http://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945
Wan-Shiou Yang, Sa-Yih Hwang, A process-mining framework for the detection of healthcare fraud
and abuse. Acedido a 15 de outubro de 2016.
https://www.researchgate.net/publication/222426436_A_process-
mining_framework_for_the_detection_of_healthcare_fraud_and_abuse
The WEKA Data Mining Software: An Update. 2009. Mark Hall e Eibe Frank, Geoffrey Holmes, Bernhard
Pfahringer Peter Reutemann, Ian H. Witten. Acedido a 15 de outubro de 2016.
http://www.cms.waikato.ac.nz/~ml/publications/2009/weka_update.pdf
Weka 3: Data Mining Software in Java. Machine Learning Group at the University of Waikato. Acedido
a 14 de outubro de 2016. http://www.cs.waikato.ac.nz/~ml/weka/index.html
Mineração de imagens médicas utilizando características de forma. 2012. Alceu Feraz Costa. Acedido
a 12 de outubro de 2016. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27062012-
102526/en.php