Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro...

76
Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré- processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Transcript of Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro...

Page 1: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento Textual para

Extração de Informação sobre Efeitos de Doenças em

Artigos Científicos do Domínio Biomédico

Page 2: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Roteiro Introdução

Revisão Literária

Metodologia Proposta e Instanciação

Estudos de Caso

Conclusão

24/09/102/52

Page 3: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Contexto e Motivação

Quantidade imensa de

Informação disponível

Humanos não são capazes de assimilar todo esse conteúdo

Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto

Tan (1999) e Chen (2001)24/09/10

Gantz et al. (2007)

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

3/52

Page 4: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Contexto e Motivação PubMed

+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)

Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia

16.654 registros do PubMed (citações e resumos) 4.765 do PubMed Central (artigos completos)

24/09/104/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 5: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Contexto e Motivação Infinidade de meios de publicação

American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine

Leva tempo para ler e identificar as principais

informações do artigo Inviável analisar toda

a literatura relevante manualmente

24/09/105/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 6: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Contexto e Motivação Esses documentos estão em formato não estruturado

Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento

automático

24/09/106/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 7: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Objetivo Propor uma metodologia de pré-

processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico

A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4)

24/09/107/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 8: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Hipóteses Hipótese 1: É possível usar abordagens de extração de informação

para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação

Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante

Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2:

identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse

possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico

24/09/10

Todas as sentenças = +falsos positivos

Todas as seções = +falsos positivos

8/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 9: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Mineração de Textos Extrair informações úteis em documentos no formato

textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999)

24/09/10

Imamura (2001) Martins (2003)Feldman e Sanger (2007)

9/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 10: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem

Dicionário

•Casamento de padrão com informações armazenadas no dicionário

•Limitação de nomes•Variações de nome (baixa revocação)•Nomes curtos causam falsos positivos (diminui a precisão)

Regras

•Melhor precisão •Requer tempo•Restrito a um domínio•Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação)

Aprendizado de Máquina

•Independência de domínio•Alto desempenho para predição

•Grande quantidade de dados de treinamento•Retreinamento após o advento de novos dados•Classificação é prejudicada com uma classe minoritária

24/09/1010/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 11: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Trabalhos Correlatos – Resumos

24/09/1011/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 12: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Trabalhos Correlatos – Artigos Completos

24/09/1012/52

1) Abordagem de AM:- Classificação de Sentenças

2) Artigos:- Algumas Seções

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 13: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Metodologia Proposta para Extração de Informação no

Domínio Biomédico

24/09/1013/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 14: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 1: Entrada de Dados

24/09/1014/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 15: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 1: Entrada de Dados (1/2)

24/09/10

Formato TXT

Formato XML

15/52

Carosia e Ciferri (2010)

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 16: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 1: Entrada de Dados (2/2)

24/09/10

Exemplo Formato XML

Exemplo Formato TXT

16/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 17: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 2: Classificação de Sentenças

24/09/10

Seções processadas: Abstract, Results e Discussion

17/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 18: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 2: Classificação de Sentenças (1/2)

Algoritmo de AM

Saída

Treinamento

Efeito Positivo

Efeito Negativo

Outros

Teste

Diversos arquivos com sentenças de efeito negativo

Diversos arquivos com sentenças de efeito positivo

Diversos arquivos com sentenças de outros

Novo textoTXT

Conjunto desentençasclassificadas em classes

Cla

sses

24/09/1018/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Modelo Bag-of-words- Medida binária- Atributos: 1 a 3 gramas- Frequência mínima: 2

Page 19: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 2: Classificação de Sentenças (2/2)

24/09/10

Algoritmo de AM

Efeito Negativo

Efeito Positivo

Outros

19/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 20: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Ferramenta SCA-Classifier

24/09/10

API Weka

20/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 21: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 3: Identificação de Termos Relevantes

24/09/1021/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 22: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

24/09/10

Banco de Dados Biomédico

Exemplo de Sentenças

Informação Relevante

Dicionário

Termo Variação

hemorrhagecentral nervous system hemorrhageintracranial hemorrhage

painpainful episodepain crisespain crisis

22/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 23: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Remover Falso Positivo

24/09/10

Dicionário

Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.

Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html

23/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 24: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Exemplo de Sentença Etiquetada

Part-Of-Speech (POS)

24/09/10

Regras

Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas

Padrão Tag: Penn Treebank

Exemplo de Sentença

padrão JJ_NN

24/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 25: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Termos Relevantes Extraídos:

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

acute chest syndromescerebrovascular eventsosteonecrosis

mycoplasmaviral pneumoniapavovirus

1

24/09/10

Regras

Estratégia 1: Verbo e Expressão com POS

Palavra Etiquetada: III - irrelevante RRR - relevante

Exemplo

2

3

4

(JJ)?_NN_(of_IN)

25/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 26: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Palavra Etiquetada: III - irrelevante RRR - relevante

Estratégia 2: POS

24/09/10

Regras

Como identificar termos nas sentenças que não contêm verbo e expressão composta

representativos?

26/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 27: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estratégia 2: POS

24/09/10

Regras

Termo na cor turquesa não selecionado pela Estratégia 1

27/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 28: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Ferramenta SCA-Extractor

24/09/1028/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 29: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 4: Gerenciamento de Termos

24/09/1029/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 30: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 4: Gerenciamento de Termos

Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos

24/09/1030/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 31: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudos de Caso: Etapa 2 e Etapa 3

24/09/10

Classificação: Efeito Negativo, Efeito Positivo e OutrosExtração: Efeito Negativo

Classificação10-Fold Cross-Validation

Classificação e ExtraçãoHoldout (p = 2/3)

Sentenças Aleatórias

31/52

6 Algoritmos de AM-SVM e NB (Estatístico)-ID3 e J48 (Árvore de Decisão)-Prism e OneR (Regra)

3 Configurações para construir a MAV

-Sem Filtro-Balanceamento-Remoção de Ruído

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 32: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudo de Caso (1):Classificação de Sentenças (Etapa 2)

24/09/1032/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 33: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudo de Caso (1):Classificação de Sentenças (Etapa 2)

24/09/10

Medida com10-Fold Cross-Validation

Amostra601Melhor Índice

Acurácia SVM com Balanceamento 87,19%

Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16%

Medida com Holdout Amostra300 Melhor Índice

Acurácia SVM com Balan. ou Rem. 62,33%

Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81%

33/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 34: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação ManualExtração Fictícia

Classificação AutomáticaExtração Real

Matriz de Confusão: Holdout Amostra300

Prec Rev Med-F

73% 71% 71,81%

34/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 35: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Nomenclatura dos Termos Extraídos

24/09/10

Verdadeiro Positivo Termo Real Termo Extraído

Termo Completo respiratory failure respiratory failure

Termo Parcial acute hepatic sequestration hepatic sequestration

Termo Adicional chronic lung diseaseresultant chronic lung disease

Falso Positivo Exemplo

Termo que foi extraído, mas que não deveria ser extraído hydroxyurea therapy

Falso Negativo Exemplo

Termo que deveria ser extraído, mas que não foi extraído thrombocytopenia

35/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 36: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Classificação Manual e Extração Fictícia

24/09/10

Extração Fictícia36/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 37: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Classificação Automática e Extração Real

24/09/10

Extração Real

37/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 38: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Extração Fictícia versus Extração Real

24/09/10

Regra e Dicionário

38/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 39: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação ManualExtração Fictícia

Classificação AutomáticaExtração Real

Matriz de Confusão: Holdout Amostra300

39/52

Prec Rev Med-F

73% 71% 71,81%

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 40: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Conclusão Abordagens de extração de informação auxiliam na

identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação

Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante

Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico

24/09/1040/52

Hipótese 2Algumas seções = -falsos positivos

Hipótese 3Algumas sentenças = -falsos positivos

Hipótese 1

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 41: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Contribuições Contribuição teórica

Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81%

Contribuições práticas Criação e disponibilização de recursos: coleção de

documentos, dicionário e base de regras Criação e disponibilização de ferramentas:

Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager)

24/09/1041/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 42: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Trabalhos Futuros (1/2)

24/09/10

Criação de uma coleção de documentos anotada

42/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 43: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação

de outros termos: tratamento e fator de risco

Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma

Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental

Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: “The recent availability of an oral iron

chelator may render prolonged transfusion more acceptable.”24/09/10

43/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 44: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Produção Científica (1/2)

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré-processamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, 2009. p. 7-12.

24/09/10

Qualis B3

Evento Nacional

44/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 45: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ;

VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture Notes in Computer Science; v. 6096).

24/09/10

Evento Internacional

Qualis B3

45/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 46: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Produção Técnica (1/2)Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing

for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, 2010. Pôster.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 23.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15.

PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, 2009. p. 16.

24/09/1046/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 47: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool

from the biomedical domain to assist the expert in term management. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar>. Acesso em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Extractor.rar>. Acesso em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Classifier.rar>. Acesso em: 30 ago. 2010.

24/09/1047/52

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

Page 48: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Agradecimentos

Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago

Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto

24/09/1048/52

Page 49: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a

knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture Notes in Computer Science; v. 3303).

CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010. p. 40.

CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. 50 p.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.

24/09/1049/52

Page 50: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide

information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

24/09/1050/52

Page 51: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts

and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.

_______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

_______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.

24/09/1051/52

Page 52: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento Textual para

Extração de Informação sobre Efeitos de Doenças em

Artigos Científicos do Domínio Biomédico

Page 53: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Padrão POS: Estratégia 1

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

1.3 (~JJ)_(JJ_NN)_(~NN)

1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ))

1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

¹ Padrão também utilizado na Estratégia 2.

24/09/1053/52

Page 54: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Padrão POS: Estratégia 2

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN)

2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN)

3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN)

3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN)

¹ Padrão também utilizado na Estratégia 1.

24/09/1054/52

Page 55: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Baseline nas 131 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

55/52

Page 56: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Baseline nas 128 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

56/52

Page 57: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Regra e Dicionários nas 131 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

57/52

Page 58: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Regra e Dicionários nas 128 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

58/52

Page 59: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos:

parvovirus infection e infection

24/09/10

Banco de Dados Biomédico

59/52

Page 60: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudos de Caso - Considerações

24/09/10

Erro do etiquetador

1. Splenomegaly classificado como advérbio

2. Parvovirus classificado como verbo

60/52

Page 61: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Estudo de Caso (1):Classificação de Sentenças

24/09/10

Método de Particionamento: 10-Fold Cross-Validation

61/52

Page 62: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Experimento 1: Fases de Treinamento e de Teste

24/09/1062/52

Page 63: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Experimento 1: Fases de Treinamento e de Teste

24/09/1063/52

Page 64: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Experimento 2: Fase de Uso do Modelo de Classificação

24/09/10

Método de Particionamento: Holdout (p = 2/3)

64/52

Page 65: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Experimento 2: Fase de Uso do Modelo de Classificação

24/09/1065/52

Page 66: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Experimento 2: Fase de Uso do Modelo de Classificação

24/09/1066/52

Page 67: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

LET¹

Outros

blood case cohort criteria

doppler dose period study

transcranial velocities velocity

24/09/10

¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.

Tratamento

bronchoscopy hydroxyurea transfusion transplantation

Sigla

hb scd tcd

marrow e treatment não são LET:marrow depressiontreatment failure

Doença

sickle cell disease sickle cell anemia

67/52

Page 68: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Eliminar Termo com LET

24/09/10

Exemplos de Sentenças que utilizam da LET

LET

68/52

Page 69: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

LEP¹

LEP

complication different episode history

multiple ongoing other patient

patient-year previous primary recurrence

recurrent repeated risk secondary

treatment underlying

24/09/10

¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive).

treatment está sendo uma LEP:year of treatment (VN)chooosing treatment (FP)

LEP com 1000 palavras:- http://www.bckelk.ukfsn.org/words/uk1000.html

69/52

Page 70: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

LEP: Padrão (JJ)?_NN_(of_IN)

NN_(of_IN)

analysis of chance of episode of finding of

frequency of history of rate of years of

patient-years of

24/09/10

JJ_NN_(of_IN)

fatal episode of first occurrence of high risk of previous history of

past history of

Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history)

70/52

Page 71: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

LEPLEP

24/09/10

Identificar Falso Positivo

Remover Falso Positivo presente na LEP

71/52

Page 72: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Motivação

Localização no documento (%)Nº

de r

egis

tros

enc

ontr

ados

Schuemie et al. (2004)

Gene e Proteína

Corney et al. (2004)

24/09/10

Por que extrair informação de artigos completos?

Benefícios + da metade da informação

encontra-se no corpo do artigo + seção + informação a ser extraída

Problemas Conversão formato + tempo de processamento copyright

72/52

Page 73: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Etapa 2: Classificação de Sentenças (3/3)

24/09/10

Processo de Classificação de Sentenças Supervisionado

73/52

Page 74: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Classificação Manual e Extração Fictícia

24/09/10Extração Fictícia

74/52

Page 75: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Classificação Automática e Extração Real

24/09/10

Extração Real

75/52

Page 76: Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Extração Fictícia versus Extração Real

24/09/10

Dicionário

76/52