Data Mining_ conceitos e casos de uso na área da saúde

7/16/2019 Data Mining_ conceitos e casos de uso na área da saúde

http://slidepdf.com/reader/full/data-mining-conceitos-e-casos-de-uso-na-area-da-saude 1/17

24/04/13 Data Mining: conceitos e casos de uso na área da saúde

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 1/17

Gostei (14) (0)

post favorito comentários

Data Mining: conceitos e casos de uso na

área da saúde

Veja neste artigo Mineração de Dados e aplicações na área da saúde.

Olá pessoal. Estamos de volta e nesta coluna vou conversar com vocês sobre duas coisas que eu acho muito

interessante, Mineração de Dados e aplicações na área da saúde. Minha área é bioinformática, mas aqui vou

mostrar alguns cases no uso clínico, muito interessante, vale a pena à leitura.

Bem para começar, data mining é a exploração e a análise, por meio automático ou semi-automático, degrandes quantidades de dados, a fim de descobrir padrões e regras significativas (Berry et al., 2000). Estes

padrões e regras s ignificativas são descritos muitas vezes como conhecimento invisível. São assim chamados

por estarem envoltos em um grande volume de dados e que se não fossem usadas técnicas inteligentes para

procurar esta informação, ou conhecimento, ele não seria descoberto facilmente pela observação humana. O

conhecimento gerado pelo data mining pode ser usado para o gerenciamento de informação, processamento de

pedidos de informação, tomada de decisão, controle de processos, entre outros. Para realizar essa coleta, o

processo de Data Mining agrega em suas etapas conhecimento de áreas como a Inteligência Artificial e

Estatística. Os métodos de Inteligência Artificial dão ao processo de mineração o status de processo

inteligente. Técnicas como redes neurais, árvores de decisão, regras de associação, raciocínio baseado em

casos e algoritmos genéticos são as mais usadas na construção deste processo. A estatística doa da sua partediversas técnicas para agrupamento e análise de dados, uma das técnicas mais utilizadas em data mining é a

regressão, termo e cálculos, herdados da estatíst ica tradicional.

1 - Técnicas

Como descrito na introdução deste trabalho, existem diversas técnicas util izadas dentro do processo de data

mining. Para deixar mais claro como o processo trabalha com estas técnicas, vamos descrevê-las um pouco

melhor.

Estas técnicas são utilizadas em diversas atividades (Gobel, et al .,1999) como:

Pesquisar

Bem vindo a DevMedia! LOGIN: SENHA: Esqueci minha senha Cadastre-se

Entenda o site Tecnologias Revistas Cursos Pocket vídeos Fórum Serviços Publicar Compre Créditos Loja Virtual Assine

http://www.devmedia.com.br/



http://www.devmedia.com.br/assine/

http://www.devmedia.com.br/shop/

http://www.devmedia.com.br/creditos/?p=6

http://www.devmedia.com.br/seja-um-autor-do-site-devmedia/18799

http://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945#

http://www.devmedia.com.br/forum/

http://www.devmedia.com.br/pocket-video




http://www.devmedia.com.br/sobre/

https://plus.google.com/101753743720604160232?prsrc=3

http://www.devmedia.com.br/join

http://www.devmedia.com.br/cadastro/lembrarcadastro.asp


http://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945#comentariosArtigo

http://www.devmedia.com.br/favorite/addfavorite.asp?comp=5945







- Previsão: Dado um determinado item e um respectivo modelo, é a capacidade de deduzir um valor para

um atributo específico do item;

- Regressão: Dado um conjunto de itens, é a análise da dependência entre os valores de atributos e,

automaticamente, produzir um modelo que possa prever valores de atributos para novos itens;

- Classificação: Dado um conjunto de classes pré-definidas, é determinar a qual destas classes um novo

item pertence;

- Agrupamento: Dado um conjunto de itens, determina-se um conjunto de classes, nos quais os itens são

agrupados de acordo com suas características;

- Associação: Dado um conjunto de itens, é a identificação dos relacionamentos existentes entre os

atributos destes itens.

1.1 – Regras de Associação

As técnicas de regras de associação estabelecem uma correlação estatística entre certos itens de dados em um

conjunto de dados (Gobel et, al., 1999).

A regra de associação pode ser representada por: X1^...^Xn => Y[C,S], onde X1, ..., Xn são itens que prevêem

a ocorrência de Y com um grau de confiança C e com um suporte mínimo de S e ^ denota um operador de

conjunção (AND).

Um exemplo desta regra pode ser que 90% dos consumidores de chocolate, também consomem pílulas de

emagrecimento. O percentual de 90% é chamado de confiança da regra. O suporte da regra chocolate =>

pílulas de emagrecimento é o número de ocorrências deste conjunto de itens na mesma transação.

Alguns algoritmos que utilizam esta técnica são: Apriori, AprioriTid, entre outros.

1.2 – Árvores de Decisão

As árvores de decisão são representações gráficas onde os nós representam amostras e as folhas representam

categorias.

Uma árvore de decisão designa uma classe numérica (ou saída) para uma entrada padrão filtrando-se a amostra

através dos testes na árvore. Cada teste possui reciprocamente resultados exclusivos e exaustivos.

Quando a amostra de uma população está sendo estudada com o objetivo de se fazer alguma inferência





indutiva, as árvores de decisão são os modelos mais utilizados.

Em muitos exemplos vemos árvores de decisão construídas usando sua idéia apenas com resultados booleanos,

porém não estamos limitados a implementação destas funções.

Na figura 1 temos um exemplo de uma árvore de decisão para um jogo de tênis.

Figura 1

Alguns algoritmos conhecidos de árvore de decisão são: CART, CHAID, C5.0, ID3, entre outros.

1.3 – Raciocínio Baseado em Memória

O raciocínio baseado em memória combina as vantagens da recuperação da informação e do raciocínio baseado

em regras.

O fato dos programadores utilizarem a experiência de problemas anteriores para resolverem muitos dos

problemas novos, torna o raciocínio baseado em memória particularmente apropriado para sistemas de suporte.

Uma questão importante em raciocínio baseado em memória é a representação do caso (conhecimento) no

computador. Em essência, os casos devem manter a informação necessi tada pelos usuários. Kolodner

(Kolodner, 1993) descreve casos como contendo três partes principais, que seriam:

1. A descrição do caso, a qual permite sua identificação e armazenamento;

2. O caso em si, contendo as informações relevantes para o domínio de sua aplicação;

3. O estado posterior do domínio quando a solução é aplicada.

Raciocínio baseado em memória é uma tecnologia emergente para a representação e processamento de

conhecimento. Usa experiência passada, acumulando casos e tentando descobrir por analogia soluções paraoutros problemas.





Os principais algoritmos representantes dessa técnica são: BIRCH, CLARANS, CLIQUE e K-MEANS.

1.4 – Algoritmos Genéticos

Os algoritmos genéticos surgiram de uma metáfora com Teoria da Evolução das Espécies de Charles Darwin.

Os algoritmos genéticos incorporam uma solução potencial para um problema específico numa estrutura

semelhante a de um cromossomo e aplicam operadores de seleção e cross-over a essas estruturas de forma a

preservar informações críticas relativas à solução do problema.

O modelo matemático dos algoritmos genéticos ajuda a compreender melhor como ele trabalha.

Um exemplo de maximização da função f(x) = x2 pode ser útil para entendermos todo o processo.

Vamos maximizar f(x) = x2 no intervalo de zero a trinta e um. Podemos iniciar a população de cromossomos

com quatro escolhidos aleatoriamente.

x1 = 13, x2 = 24, x3 = 8, x4 = 19

Calculando a função de adaptação (no nosso exemplo o próprio f(x) = x2) para cada termo teremos:

f(x1) = 169, f(x2) = 576, f(x3) = 64, f(x4) = 361

Podemos ver que a melhor solução nesta geração é x2.

A adaptação geral é a soma de todas as adaptações de cada cromossomo, ou seja, 1170. Em percentuais

temos x1 participando com 14%, x2 com 49%, x3 com 6% e x4 com 31%. Precisamos sortear quatro números

aleatórios entre zero e cem e verificamos em que ponto da reta entre zero e cem esses números encontram-se

e então fazemos a cópia dos cromossomos. De tal forma o cromossomo x1 será copiado uma única vez, o

cromossomo x2 será reproduzido duas vezes, o cromossomo x3 não será reproduzido, pois nenhum sorteio

aleatório caiu dentro da faixa de 6% entre 64% e 69% e o cromossomo x4 será reproduzido apenas uma vez.





Gráfico 1 – Algoritmo Genético

A nova geração após a reprodução será: x1 = 13, x2 = 24, x3 = 24 e x4 = 19.

Podemos notar que x2 é igual a x3 nesta nova geração e que x3 da geração anterior por ser pouco adaptado

não se reproduziu, por isto não há nenhum representante seu nesta nova geração.

Essa nova geração representa a combinação das soluções bem-sucedidas da geração anterior que se casaram e

se reproduziram.

É possível continuar o processo de evolução, mas ele pode ser interrompido se o valor for considerado

suficiente ou até atingir o valor máximo da função f(x) no intervalo de zero a trinta e um.

1.5 – Redes Neurais

As redes neurais são uma classe especial de sistemas modelados seguindo analogia com o funcionamento do

cérebro humano e são formadas de neurônios artificiais conectados de maneira similar aos neurônios do cérebro

humano (Goebel et. al., 1999).

Um neurônio artificial é uma unidade de processamento lógica que tenta simular o comportamento e funções de

um neurônio biológico. Nessa estrutura os dendritos do modelo biológico são substituídos pelas entradas de

informação na unidade de processamento e as ligações entre o corpo celular são realizadas através de pesos,

que simulam as sinapses.

As informações captadas na entrada são processadas pela função de soma (?) e o limite de disparo do neurônio

biológico é substituído pela função de transferência.





Figura 2 – Modelo de Neurônio Artificial

A proposta de McCullok e Pitts, em 1943, para o trabalho de um neurônio pode ser resumida da seguinte forma:

1. Sinais são apresentações de entrada.

2. Cada sinal é multiplicado por um número, ou peso, que indica a sua influência na saída da unidade.

3. É feita a soma ponderada dos sinais que produz um nível de at ividade.

4. Se o nível de at ividade exceder um certo limite a unidade produz uma determinada resposta de saída.

Vamos exemplificar melhor.

Suponhamos que existam p sinais de entrada x1, x2,..., xn e pesos w1, w2, ..., wi e o l imitador t . Os sinais do

nosso exemplo serão de valores booleanos (0 e 1) e os pesos com valores reais.

No nosso caso, o nível de atividade a é dado por:

a = w1x1 + w2x2 + ... wixn

A saída y é dada por:

y = 1, se a >= t ou

y = 0, se a < t .

Boa parte dos modelos de redes neurais usados possui alguma regra de treinamento onde os pesos são

ajustados de acordo com os padrões apresentados. De maneira simplória podemos dizer que as redes neurais

aprendem através de exemplos.

Normalmente as redes neurais são apresentadas em forma de camadas, onde a primeira camada, chamada de





entrada, recebe as primeiras informações que deverão ser processadas, a segunda camada é conhecida como

camada intermediária ou camada oculta, ela pode ser formada por mais de uma camada de neurônios e nela

são feitos os processamentos da rede. Por último a camada final, denominada saída é onde o resultado é

apresentado.

A forma como essas camadas trabalham e como elas são interligadas definem a topologia de uma rede.

Algumas das principais topologias que encontramos hoje em dia são: Perceptron, Rede de Kohonem, Rede de

Hopfield, Redes ART, Redes MLP, entre diversos outros.

2 – Exemplos de Aplicações na área da Saúde

Consolidando os conceitos apresentados anteriormente, apresentamos exemplos simples e inseridos dentro da área de saúde, sem aintenção de fazer uma lista exaustiva de casos, nem efetuar uma análise detalhada sobre cada exemplo apresentado. Com os exemplos

apresentados, é demonstrado o poder das ferramentas de data mining e quanto as mesmas podem contribuir para melhorar a qualidade dos

serviços de saúde.

Para facilitar a compreensão dos exemplos foi definida uma estrutura de apresentação constituída por contexto,

metodologia, técnica utilizada, resultados e conclusão. Nenhum dos itens definidos expressa qualquer análise

ou opinião pessoal dos autores deste artigo. O conteúdo referente a cada item mantém, com exatidão, a idéia

expressa no artigo original.

No item destinado à descrição da técnica utilizada, será indicada, basicamente, a atividade do processo de

data mining, de acordo com Gobel (Gobel et al., 1999). Não são analisados os detalhes computacionais

apresentados no artigo original, pois a intenção é apenas mostrar a aplicabilidade de uma ferramenta de data

mining.

2.1 – Exemplo 01: A process-mining framework for the detection of healthcare fraud and abuse.

Contexto:

Neste trabalho (Yang, 2006), desenvolvido por pesquisadores da Universidade Changhua de Taiwan, é proposto

um processo de data mining, baseado no conceito de pathways (“Guide Lines”) para elaboração automática de

modelos para detecção de casos abusivos ou fraudulentos nos sistemas de saúde (pena no Brasil não haver

interesse nisso).

A motivação do trabalho vem da constatação do grande percentual de comportamentos abusivos e fraudulentos





ocorridos nos sistemas de seguro saúde.

O objetivo principal é aplicar técnicas de data mining e, a partir de dados de casos clínicos, construir modelos a

partir dos quais seja possível distinguir, automaticamente, comportamentos fraudulentos de atividades

normais.

Metodologia:

Os dados utilizados para a avaliação do modelo foram a base do BNHI (Bureau of National Health Insurance)

de Taiwan. Para este estudo, foram utilizados os dados referentes ao departamento de ginecologia,

especificamente sobre PID (Pelvic inflammatory disease) que é a patologia mais comum neste departamento.

Foram coletados dados de um hospital regional, provedor de serviços para o NHI. Inicialmente, foram

selecionados dados de 2543 pacientes referentes ao período de 07/2001 a 06/2002 e a partir daí preparados

dois conjuntos de dados: um contendo os casos normais e outro os fraudulentos. A preparação dos dados

ocorreu através dos seguintes passos:

- Os dados iniciais foram filtrados para eliminar os registros com itens de dados sem valores ou com

valores incoerentes. Neste processo foram eliminados 77 registros.

- Baseado nos registros restantes, as atividades médicas envolvidas do processo foram identificadas.

Nesta etapa, foram identificadas 127 atividades médicas relacionadas ao processo de diagnóstico e tratamento

de PID.

- A próxima etapa foi a identificação “manual” dos casos fraudulentos, no conjunto de dados selecionado.A identificação foi realizada por dois ginecologistas que examinaram todos os registros e identificaram 906

casos fraudulentos.

- Finalmente, os mesmos ginecologistas selecionaram 906 casos considerados normais para elaborar a

base de teste contendo 1812 registros.

Técnicas Data Mining utilizadas:

O framework proposto envolve as técnicas de Regressão e Classificação.

Inicialmente foi definido um fluxo geral que compreende todo o processo de data mining proposto, conforme a

figura 3. Neste processo, dois conjuntos de exemplos clínicos servem como entrada; um normal e um

fraudulento. A partir desta entrada, os padrões são extraídos e, consequentemente, os modelo são definidos.

Há modelos que representam casos fraudulentos e modelos que correspondem a casos normais. Com os

modelos de detecção elaborados, os registros das atividades podem ser submetidos para um mecanismo de

indução que os classificarão como normais ou fraudulentos.





Figura 03 – Data mining framework

A técnica de data mining utilizada para a representação dos modelos é baseada em grafos que determinam as

atividades envolvidas em um caso clínico e a respectiva seqüência temporal.

Figura 04 – Grafo para caso clínico

O algoritmo utilizado para indução (classificação de uma ocorrência como normal ou fraudulenta) foi o CBA(Classification Based on Associations).

Resultados:

A avaliação dos resultados referentes a indução, foi baseada nas medidas de “Sensibilidade” e “Especificidade”,

onde sensibilidade corresponde ao percentual de casos fraudulentos detectados, com base no total de casos

fraudulentos existentes e especificidade equivale ao percentual de casos normais identif icados diante do totalde casos normais.

Os melhores resultados obtidos foram 64% e 67% para sensibilidade e especificidade, respectivamente. A

figura 5 mostra a variação destes resultados, de acordo com ajustes efetuados no algoritmo de classificação.





10-07-2007pic07.jpg

Figura 05 – Sensibilidade e Especificidade.

Conclusão

Os autores concluíram que o framework desenvolvido auxiliou na descoberta das características que possuem

alto poder discriminatório para representação de casos clínicos e o mostrou-se eficiente na identif icação de

alguns casos abusivos e fraudulentos que não seriam facilmente identificados manualmente.

2.2 – Exemplo 02: Data Mining approach to policy analysis in a healh insurance domain.

Este artigo (Chae, 2001) é bem rico no emprego de técnicas de data mining, pois são aplicados métodos para regressão, previsão e

definição de regras de associação.

Contexto:

Desenvolvido por pesquisadores do Departamento de Ciência da Computação da Pohang University e Yonsei University, ambas da Coréia do

Sul.

O objetivo do trabalho é a aplicação de técnicas de data mining na base de dados KMIC (Korea Medical Insurance Corporation) visando a

descoberta de informações não triviais para auxílio no monitoramento do programa de controle de hipertensão.

Metodologia:

Para o desenvolvimento e conseqüente validação da aplicação de data mining, foram selecionados um subconjunto de dados do KMIC. Os

registros foram selecionados aleatoriamente de uma população de 127.886 beneficiários. Inicialmente foram incluídos 100% dos

beneficiários com hipertensão (9.103) e, posteriormente, foram selecionados, de forma aleatória, o mesmo número de registros para

beneficiários sem hipertensão, totalizando 18.206 registros. Os registros continham dados biométricos, coletados durante o exame f ísico

realizado bienalmente, como pressão, taxa de glicose, colesterol, altura, peso, etc . A hipertensão foi definida pelos valores da pressão





sistólica > 140 mmHg e diastólica > 90 mmHg.

Neste conjunto de dados, a idade média dos homens era de 52,1 anos e das mulheres 51,4 anos. Entre os homens, 47,7% eram fumantes e

16.5% ex-fumantes. Entre as mulheres, apenas 0.4% eram fumantes e também 0,4 % ex-fumantes. A maioria da população considerada

estava dentro do peso adequado.

Atividades do Data Mining Utilizadas:

Regressão:

A técnica de regressão foi utilizada para identificar os fatores de risco para hipertensão, através de características do paciente, seu

histórico, dados sobre o estilo de vida e resultados dos exames físicos. Estes dados correspondem às variáveis independentes, enquanto o

status da hipertensão assume o papel da variável dependente. Um dos artefatos técnicos utilizados no algoritmo para determinar aimportância das variáveis consideradas, foi a equação “maximum-likelihood ratio”.

Previsão:

Esta técnica foi implementada através de uma árvore de decisão que considera as variáveis definidas pela

técnica de regressão como fatores de risco e determina qual é a tendência de um determinado paciente para a

hipertensão. Para a árvore de decisão foram utilizados dois algoritmos, CHAID e C5.0, para efeito decomparação. O CHAID apresentou melhor resultado.

Regras de associação:

A técnica de associação foi usada para identificar a ocorrência de relações entre o resultado posi tivo de

hipertensão e as variáveis de risco, como “fumar”, “beber”, etc, na tentativa de descobrir relações entre estes

itens.

Resultados:

O resultado da técnica de regressão mostra que variáveis biomédicas são excelentes indicadores da

hipertensão, e, dentre estas variáveis destacam-se o índice de massa corpórea, proteína urinária, taxa de

glicose e colesterol.

A técnica de previsão que, através da árvore de decisão, define o percentual de probabilidade de o indivíduo

adquirir hipertensão, no algoritmo CHAID tem a sensibil idade de 76,3%.





A técnica para descobrimento de regras de associação definiu um grande número de associações entre os

fatores de riscos. A figura 6 apresenta uma visão parcial da tabela de regras de associações encontradas com

os respectivos índices de suporte e confiança; onde suporte é a probabilidade de i1 e I2 ocorrerem juntos, e

confiança é a proporção de ocorrência de i2 considerando todas as ocorrências de i1.

Conclusão:

Os autores concluíram que as técnicas de data mining foram eficientes na descoberta de padrões sobre

programas de gerenciamento de hipertensão, mesmo assumindo as limitações do conjunto de dados utilizados

no experimento.

10-07-2007pic08.jpg

Figura 06 – Exemplo de associações descobertas

2.3 – Caso 03: Association Rules and Data Mining in Hospital Infection Control and Public Health

Surveillance

Este terceiro artigo (Stephen, 1998), embora não muito recente, apresenta uma perspectiva diferente e interessante sobre a aplicação da

técnica data mining para a identificação de regras de associações.

Contexto:

Desenvolvido por pesquisadores da Alabama University em parceria com o Centro para Controle e Prevenção de Doenças dos Estados

Unidos (CDC).

O objetivo do trabalho é apresentar um processo de análise de dados capaz de identificar, automaticamente, novos e interessantes

padrões nos dados referentes a infecção hospitalar e vigilância sanitária.

Os sistemas de vigilância são essenciais para a detecção de novas ameaças de infecções na saúde pública e nos ambientes hospitalares. A

eficác ia de um sistema desta natureza é determinada pela sua habilidade de analisar, rapidamente, séries históricas de dados e detec tar

grupos de doenças não comuns.





O principal problema abordado pelos autores é que a maioria de sistemas e técnicas para análise dos dados assume que o usuário já tem

uma situação pré-definida (ex. infecções por Salmonella em uma determinada região) cuja incidência é monitorada no tempo. Isto significa

que, mudanças nas características da incidência que não estão sendo monitoradas, não são detectadas. Visando resolver este problema,

os autores propõem a utilização de técnicas de Data Mining que não restrinjam a análise apenas aos indicadores definidos pelo usuário, mas

que sejam capazes de identificar novos padrões e assoc iações que consigam detec tar mudanças na forma de incidência de uma epidemia

ou endemia ou qualquer programa de controle sanitário.

Metodologia:

A principal característica do processo de data mining aqui proposto, é a mudança de paradigma. Enquanto nos sistemas tradicionais de

vigilância prioriza-se uma alta freqüência e um alto grau de confiança nas regras de associações existentes, a proposta aqui é inversa; as

associações com uma alta freqüência e com um baixo nível de confiança são as mais utilizadas. A razão é simples: Se um fenômeno B

ocorre toda vez que um fenômeno A ocorre e o fenômeno A ocorre com muita freqüência, provavelmente trata-se de uma situação trivial

ou muito bem conhec ida. Se, por outro lado, um fenômeno B ocorre em apenas algumas situações que A ocorre, nestas condições aassociação A Þ B é uma associação de baixa confiança. Porém, se, ao longo do tempo, o grau de confiança desta associação aumentar,

isto pode indicar uma alteração na c aracterística de incidência do problema. Este fato é extremamente importante para at ividades de

prevenção e, raramente são detectados por ferramentas de análises tradicionais.

O processo geral da solução data mining proposta, é muito simples e constituído basicamente pelas seguintes etapas:

- Os dados que serão analisados são divididos em partes, seguindo uma divisão temporal, e, em cada parte são aplicadas técnicas

de data mining para descobrir todas as associações com alta freqüência;

- Para cada regra de assoc iação identificada neste conjunto de dados (que corresponde a um determinado período de tempo), o seu

grau de confiança é comparado com o grau de confiança apresentado por esta mesma regra, no conjunto de dados que corresponde ao

período anterior;

- Se o grau de confiança de uma regra sofreu um aumento significativo de um período para o outro, esta regra é sinalizada como um

evento que merece atenção;

Para validação da aplicação de data mining foram utilizados dados do UAB Hospital (University of Alabama

Birmingham). O escopo de análise foi reduzido aos casos de infecções provocadas por Pseudomonas Aeruginosa

durante o ano de 1996. Cada registro corresponde a um caso de infecção por Aeruginosa e é constituído,

basicamente, pelos atributos: data de ocorrência, localização do paciente no hospital, CEP do paciente e

resultado do teste (R = Resistente; I = Intermediário; S = suscetível) para piperacillin, ticarcil lin /

clavulanate, ceftazidime, imipenem, amikacin, gentamicin, tobramycin, e ciprofloxacin.

Para detecção de novas regras de associação, o experimento foi realizado por três vezes, considerando

diferentes divisões dos dados. Em cada divisão foi considerado um período de tempo diferente. Foram

considerados períodos de um, três e seis meses, respectivamente, para os experimentos A, B e C.

Para análise das regras de associação foi considerada uma freqüência 10 em todos os experimentos.





Técnicas Data Mining utilizadas:

Associação:

A solução proposta no trabalho, basicamente, consiste na aplicação de técnicas de associação visando a identificação de novas

correlações nos dados. Foi utilizado o algoritmo simples chi-square para a definição de regras de associação.

Resultados:

O processo de data mining descobriu e monitorou mais de 2.000 associações no experimento A, mais de 12.000 no experimento B e mais de

20.000 no C. Uma análise dos eventos descobertos mostrou que, a maioria dos eventos descobertos no experimento A não foram

detectados no experimento B e, também, não foram encontrados no C. No entanto, alguns eventos interessantes foram detectados e para

eles, ações preventivas foram sugeridas, como mostra a figura 7.

Figura 07 – Eventos descobertos e ações sugeridas

Conclusão:

Os autores definiram um novo processo de data mining para identificação e monitoramento de novos padrões e associações nos dados, o

qual se mostra eficiente e adequado para sistemas de vigilância sanitária. Os experimentos realizados validaram a eficiência do processo

para a identificação de eventos interessantes, mesmo sem conhecimento prévio, podendo, inclusive, gerar ações preventivas.

Bom, o campo de aplicação para as técnicas e ferramentas de data mining é bastante amplo. Em diversos segmentos, para diferentes

problemas, as soluções c onstruídas a partir do conceito de mineração de dados, vêm se mostrando eficientes. Na área da saúde, onde

qualquer atividade é altamente dependente de informação, a aplicabilidade deste tipo de ferramenta é ideal e, em alguns casos,

extremamente necessária.

Os sistemas de saúde de maneira geral, e os sistemas de informação em saúde em particular, têm-se benefic iado das técnicas e

instrumentos de mineração de dados já há anos, seja na recuperação de informação eventualmente ut ilizada em descobertas baseadas em

literatura, seja na extração de conhecimento de bases de dados factuais, bibliográficas e de texto completo, como as mantidas em

extranets pela industria farmacêutica.

A mineração de dados na própria web ainda é relativamente pouco realizada e, surpreendentemente, tem ocorrido com menor freqüência,





Porém é prática comum em vários domínios. [http://www.kdnuggets.com/polls/2005/data_types.htm].

Foram apresentados, neste t rabalho, alguns conceitos básicos e exemplos sobre esta tecnologia que propõem soluções a problemas

inerentes aos sistemas de saúde, que são importantes e relativamente c omuns a praticamente todos os países do mundo.

No primeiro exemplo é apresentado um dos problemas mais sérios da saúde, que em muitos casos provocam verdadeiros colapsos no

sistema. Uma solução, baseada em técnicas de data mining é apresentada através de um mecanismo de detecção de fraudes e abusos. Se

bem sucedida, a solução proposta representará uma expressiva economia em benefício do sistema de saúde.

O segundo exemplo mostra como uma ferramenta Data Mining capaz de prever a ocorrência de patologias ou simplesmente mostrar a

tendência de ocorrência baseada nas carac terísticas da população, pode aumentar a qualidade preventiva da saúde pública e auxiliar, de

maneira substancial, os programas de saúde implantados por governos ou instituições.

O terceiro exemplo reforça, de maneira brilhante, a idéia de como este t ipo de solução pode, de fato, contribuir decisivamente nas ações

preventivas destinadas à saúde pública. É apresentada uma solução, destinada à vigilância sanitária, que identifica e monitora padrões de

comportamento de problemas, como epidemias e endemias, e detec ta mudanças nas c aracterísticas destes problemas, permitindo que

ações sejam tomadas antes mesmo de um surto da situação.

Os casos apresentados mostram que é possível utilizar soluções c onstruídas a partir de técnicas de data mining para resolver problemas

existentes na gestão dos serviços de saúde e conseqüentemente beneficiar a população que recebe estes serviços.

É isso ai pessoal. Espero que tenham aproveitado, até a próxima coluna.

Referências

Berry, J.A, Linoff, Gordon S. Mastering Data Mining. New York: John Wiley & Sons; 2000.

Chae, Young Moon; Ho, Seumg Hee; Cho, Won Kyoung; Lee, Dong Ha; Ji, Sun Ha. Data Mining approach to

policy analysis in health insurance domain, International Journal of Medical Informatics, 62 (2001) 103-111.

Goebel, M, Gruenwald, L. A survey of data mining and knowledge discovery software tools. SIGKDD Explorations

1999 Jun; 1: 20-33.

Kolodner, J. Case-Based Reasoning. Florida: Morgan Kaufmann; 1993.

Stephen E. Brossette, Alan P. Sprague, J. Michael Hardin, Ken B. Waites, Warren T. Jones, Stephen A. Moser. Assoc iations Rules and Data





Mining in Hospital Infect ion Control and Public Health Surveillance, Journal of the American Medical Informatics Associat ion, V. 5 N. 4

(1998) 3713-181.

Yang, Wan-Shiou, Wang San-Yih. A process-mining framework for the detection of healthcare fraud and abuse,

Expert Systems with Applications 31 (2006) 56–68.

Vander Emiro Muniz

[email protected]

www.triscal.com.br

Vander Emiro Muniz

Vander Emiro Muniz([email protected]) é graduado em Ciência da Computação pelo Centro Universitário Adventista de São Paulo (UNASP), mestrando em informática em saúde, na

área de concentração de Bioinformática, pela Universidade Federal de São Paulo (UNIFESP). Atualmente sou consultor de Busines...

0 COMENTÁRIO

Nenhum comentário foi postado - seja o primeiro a comentar!

Administração do Firebird/InterBase

Curso de Administração do Microsoft SQL Server

Ferramentas Administrativas do MySQL

PL/SQL Oracle

Administração do Firebird/InterBase

[Ver todos]

+SQL

Publicidade

cursos relacionados últimos do autor

http://www.devmedia.com.br/banco-de-dados

http://www.devmedia.com.br/cursos

http://www.devmedia.com.br/administracao-do-firebird-interbase/4874

http://www.devmedia.com.br/pl-sql-oracle/14447

http://www.devmedia.com.br/ferramentas-administrativas-do-mysql/11676

http://www.devmedia.com.br/curso-de-administracao-do-microsoft-sql-server/6409

http://www.devmedia.com.br/administracao-do-firebird-interbase/4874

http://www.devmedia.com.br/rte3/addcomment.asp?idcomp=5945


http://www.devmedia.com.br/space.asp?id=176574

mailto:[email protected]




Serviços

Inclua um comentário

Adicionar aos Favoritos

Marcar como lido/assistido

Incluir anotação pessoal (ajuda)

Versão para impressão

DevMedia | Anuncie | Fale conosco

Hospedagem web por Porta 80 Web Hosting

2013 - Todos o s Direitos Re servados a web-03

http://www.web-03.net/

http://www.porta80.com.br/

http://www.devmedia.com.br/central/faq_fale_conosco.asp

http://www.web-03.net/devmedia.asp


http://www.web-03.net/

http://www.devmedia.com.br/articles/viewcomp_forprint.asp?comp=5945

http://www.devmedia.com.br/novo-recurso-devmedia-anotacoes-pessoais/5508

http://www.devmedia.com.br/articles/addnote.asp?idcomp=5945

http://www.devmedia.com.br/favorite/add_finished.asp?comp=5945

http://www.devmedia.com.br/favorite/addfavorite.asp?comp=5945


Data Mining_ conceitos e casos de uso na área da saúde

Documents

Transcript of Data Mining_ conceitos e casos de uso na área da saúde