UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´...

139
UNIVERSIDADE TECNOL ´ OGICA FEDERAL DO PARAN ´ A C ˆ AMPUS CORN ´ ELIO PROC ´ OPIO DIRETORIA DE PESQUISA E P ´ OS-GRADUAC ¸ ˜ AO PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM INFORM ´ ATICA JO ˜ AO VITOR FERRARI DA SILVA F ´ ACIL BULA: SISTEMA QUE ESTRUTURA O BUL ´ ARIO ELETR ˆ ONICO DA ANVISA DISSERTAC ¸ ˜ AO DE MESTRADO CORN ´ ELIO PROC ´ OPIO 2016

Transcript of UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´...

Page 1: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANACAMPUS CORNELIO PROCOPIO

DIRETORIA DE PESQUISA E POS-GRADUACAOPROGRAMA DE POS-GRADUACAO EM INFORMATICA

JOAO VITOR FERRARI DA SILVA

FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA

DISSERTACAO DE MESTRADO

CORNELIO PROCOPIO

2016

Page 2: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 3: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

JOAO VITOR FERRARI DA SILVA

FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA

Dissertacao de Mestrado apresentada ao Programade Pos-Graduacao em Informatica da UniversidadeTecnologica Federal do Parana - UTFPR como requi-sito parcial para a obtencao do tıtulo de “Mestre emInformatica”.

Orientador: Prof. Dr. Andre Yoshiaki Kashiwabara

Coorientador: Prof. Dr. Carlos Nascimento Silla Junior

CORNELIO PROCOPIO

2016

Page 4: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Dados Internacionais de Catalogação na Publicação

S586 Silva, João Vitor Ferrari da

Fácil bula : sistema que estrutura o bulário eletrônico da ANVISA / João Vitor Ferrari da Silva . – 2016.

139 f. : il. ; 30 cm

Orientador: André Yoshiaki Kashiwabara.

Coorientador: Carlos Nascimento Silla Junior

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós- graduação em Informática. Cornélio Procópio, 2016.

Referências: p.115 -121.

1. Mineração de dados (Computação). 2. Medicamentos - Interações. 3. Farmacologia. 4.

Informática - Dissertações. I. Kashiwabara, André Yoshiaki, orient. II. Silla Junior, Carlos Nascimento, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-

Graduação em Informática. IV. Título.

CDD (22. ed.) 004

Biblioteca da UTFPR, Câmpus Cornélio Procópio

Page 5: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Ministério da Educação Universidade Tecnológica Federal do Paraná

Câmpus Cornélio Procópio Programa de Pós-Graduação em Informática

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR. Tel. +55 (43) 3520-4055 / e-mail: [email protected] / www.utfpr.edu.br/cornelioprocopio/ppgi

Título da Dissertação Nº 19:

“FÁCIL BULA: SISTEMA QUE ESTRUTURA O BULÁRIO

ELETRÔNICO DA ANVISA”.

por

João Vitor Ferrari da Silva

Orientador: Prof. Dr. André Yoshiaki Kashiwabara Esta dissertação foi apresentada como requisito parcial à obtenção do

grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 10h do dia 25 de maio de 2016. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:

__________________________________ Prof. Dr. André Yoshiaki Kashiwabara

(Presidente – UTFPR-CP)

__________________________________ Prof. Dr. Carlos Nascimento Silla Junior

(Coorientador – UTFPR-CP)

__________________________________ Prof. Dr. Alessandro Botelho Bovo

(UTFPR-LD)

__________________________________ Profa. Dra. Gabrielle Jacklin Eler

(IFPR-LD)

Visto da coordenação:

__________________________________ André Takeshi Endo

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Page 6: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 7: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

AGRADECIMENTOS

Agradeco a Deus e a MTA, por sempre me abencoarem com saude, forca e protecao.

Agradeco a toda minha famılia, em especial aos meus pais, Joao e Marli, por me

educarem e serem exemplos de dedicacao e honestidade. Agradeco a minha namorada Tatiane

por ter me apoiado e compreendido minha ausencia para elaboracao deste trabalho.

Ao professor orientador Andre Kashiwabara pelos conselhos, por toda ajuda desempe-

nhada, pela motivacao e auxılio na organizacao do trabalho, ao professor coorientador Carlos

Silla com dicas valiosas de pesquisa e conhecimento em alternativas para elaboracao dos desa-

fios do trabalho, e a todos os outros professores que contribuıram para elaboracao do presente

trabalho e aos outros colaboradores da UTFPR.

Agradeco aos meus amigos, em especial ao grupo COMBO, por serem companhia

constante em minha vida, juntamente com meus colegas de trabalho, principalmente ao Bruno,

Gabriel, Felipe, Higor, Thiago, Raul, Eduardo, Cristiano e Gustavo que contribuıram para o

desenvolvimento deste trabalho.

Page 8: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 9: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

RESUMO

DA SILVA, Joao Vitor Ferrari. FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA. 137 f. Dissertacao de Mestrado – Programa de Pos-Graduacaoem Informatica, Universidade Tecnologica Federal do Parana. Cornelio Procopio, 2016.

O trabalho desempenhado pelos profissionais da area de saude quando voltado ao cuidado daspessoas consiste, por vezes, na escolha dos melhores medicamentos para o sucesso terapeuticono tratamento de pacientes. Existem varios medicamentos disponıveis no mercado brasileiro,assim para que o profissional encontre as informacoes sobre o medicamento que pode ser melhorindicado para o paciente ha aplicativos e ferramentas que facilitam a pesquisa dos medicamentose auxiliam o trabalho deste especialista. Contudo em nossa busca nao foram encontrados siste-mas que possuem a identificacao de reacoes adversas, contraindicacoes, interacoes medicamen-tosas, advertencias e precaucoes entre a associacao conjunta de medicamentos regulamentadospela Agencia Nacional de Vigilancia Sanitaria (ANVISA). Nesse contexto, o Bulario Eletronicoda ANVISA disponibiliza um conjunto de 6.961 bulas profissionais em formato PDF, contudoas informacoes nelas contidas nao estao estruturadas. Um dos desafios deste trabalho consistiuem extrair automaticamente as informacoes presentes nesse conjunto de bulas. Este trabalhoapresenta uma metodologia semiautomatica de mineracao de textos para mapear as bulas daANVISA nas redes de interacoes entre farmacos da base de dados DrugBank, juntamente comas doencas encontradas na base SNOMED-CT. Os medicamentos, as doencas, os farmacos esuas relacoes foram estruturadas e armazenadas em um banco de dados em grafos utilizando atecnologia Neo4j. Por meio dos resultados obtidos foi desenvolvido o Facil Bula, website comobjetivo de desenvolver ferramentas que facilitem a pesquisa de medicamentos e doencas paraprofissionais da area de saude. Desse modo, teve seu projeto aceito no processo de incubacaodo Hotel Tecnologico da Incubadora de Inovacoes da Universidade Tecnologica (IUT). O portalweb do Facil Bula contabilizou acessos por todo territorio brasileiro, principalmente em gran-des capitais como Sao Paulo e Rio de Janeiro, alem de conquistar um bom posicionamento naspesquisas organicas do Google relacionadas a algumas palavras-chave de medicamentos e daClassificacao Internacional de Doencas (CID).

Palavras-chave: mineracao de textos, bulas, interacoes, farmaco, doenca

Page 10: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 11: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

ABSTRACT

DA SILVA, Joao Vitor Ferrari. FACIL BULA: SYSTEM THAT STRUCTURE TO THE AN-VISA’S “BULARIO ELETRONICO”. 137 f. Dissertacao de Mestrado – Programa de Pos-Graduacao em Informatica, Universidade Tecnologica Federal do Parana. Cornelio Procopio,2016.

The work done by health area professionals when facing the care of people consists on choo-sing the best medications for the success of the treatment of them. There are many medicationsavailable on the brazilian market, so for this professional find the information about the medi-cation which could be the best match for the pacient there is which applications and tools makeeasier the search of drugs and helps this specialist. However, none of these systems had drugadverse reaction identification, contraindications, medical interactions, warnings and precauti-ons between the overall association of drugs regulated by the “Agencia Nacional de VigilanciaSanitaria” (ANVISA). In this context, the ANVISA’s “Bulario Eletronico” offers a collectionof 6,961 professional medication guides in PDF file format. However, the information availa-ble in these guides are in an unstructured format. One of challenges of this work consisted inthe automatic retrieval of information from ANVISA’s medication guides. This paper presents asemiautomatic procedure that maps ANVISA’s medication guides to DrugBank and SNOMED-CT. The medications, the diseases, the drugs, and their relations were structured and stored ona graph database using the Neo4j technology. Facil Bula, was developed through results ofstudies, it is a website which goals to conceive tools to facilitate the medication and diseasesearch for health professionals, it hits all the brazilian territory, mainly big capitals like SaoPaulo and Rio de Janeiro, as well as gain a good position in organic Google searches related tosome keywords medicines and International Classification of Diseases (ICD).

Keywords: text mining, drug information, interactions, drug, disease

Page 12: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 13: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

LISTA DE FIGURAS

–FIGURA 1 Termo demencia de Alzheimer encontrado no topico de indicacoes domedicamento Eranz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31–FIGURA 2 Topico de contraindicacoes do medicamento Kolantyl, que e contraindi-cado para pacientes em tratamento da doenca de Alzheimer. . . . . . . . . . . . . . 32–FIGURA 3 Topico indicacao do medicamento Furp-Estreptomicina destinado ao tra-tamento de tuberculose e o topico advertencias e precaucoes do medica-mento Mud Oral que informa o cuidado para pacientes com tuberculose. . . 33–FIGURA 4 A carbamazepina interage com o cloridrato de ioimbina, princıpio ativodo Yomax. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34–FIGURA 5 O farmaco fenobarbital encontrado na composicao do medicamento Gar-denal tem reacao adversa com o medicamento Dacarbazina. . . . . . . . . . . . . . 35–FIGURA 6 Alguns topicos encontrados na bula do medicamento Cataflam. . . . . . . . . 37–FIGURA 7 Variacoes de tıtulos encontrados para o topico superdose dos medica-mentos Betnovate, Brilinta e Ozonyl. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA 8 Erro ortografico encontrado no medicamento Setronax. . . . . . . . . . . . . . . . 38–FIGURA 9 Topico do medicamento Ebastel escrito no plural, mas para o medica-mento Norfloxacino foi encontrado no singular. . . . . . . . . . . . . . . . . . . . . . . . . 39–FIGURA 10 Topico do medicamento Finagripe escrito conforme o novo acordo or-tografico da Lıngua Portuguesa, diferente do topico encontrado no medica-mento Gretivit que esta escrito segundo o antigo acordo. . . . . . . . . . . . . . . . . 39–FIGURA 11 Imagem da bula fısica do medicamento Manitol adicionado ao arquivoPDF e nao digitalizado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40–FIGURA 12 Termos relacionados a farmacos encontrados no topico composicao dabula do medicamento Cataflam. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40–FIGURA 13 Termo doenca cardıaca encontrado no medicamento Afrin que representaum conjunto de doencas relacionadas, diferente do medicamento Cefalivque apresenta o termo infarto do miocardio relacionado a uma doenca maisespecıfica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41–FIGURA 14 Sentence breaker aplicado ao topico “cuidados de armazenamento” domedicamento Amoxicilina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–FIGURA 15 Exemplo de tags utilizadas pelo Part-Of-Speech Tags usado por HeppleTagger em lıngua inglesa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–FIGURA 16 Exemplo da tecnica Stemming para obtencao do radical das palavras. . . 52–FIGURA 17 Exemplo de verificacao de similaridade entre “JONES” e “JOHNSON”. 52–FIGURA 18 Integracao ilustrada por flechas direcionais das bases de dados e o BularioEletronico da ANVISA que nao normaliza informacao alguma com as ba-ses relacionadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–FIGURA 19 Representacao grafica da relacao “e um” do SNOMED-CT. . . . . . . . . . . . 61–FIGURA 20 Organizacao da CID para demencia na doenca de Alzheimer de inıcioprecoce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63–FIGURA 21 Visao geral do workflow de processamento das bulas profissionais comas respectivas etapas que compoem o processo desenvolvido. . . . . . . . . . . . . 65–FIGURA 22 Pagina inicial do Bulario Eletronico da ANVISA e os respectivos filtrosdessa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66–FIGURA 23 Pagina de resultado da pesquisa do Bulario Eletronico. . . . . . . . . . . . . . . . 67

Page 14: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

–FIGURA 24 Conteudo da bula em imagem que esta fora do padrao. . . . . . . . . . . . . . . . 68–FIGURA 25 Etapas do processamento textual para identificacao dos topicos no medi-camento Fluconazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75–FIGURA 26 Marcacao dos respectivos topicos no texto da bula do medicamento Flu-conazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75–FIGURA 27 Exemplo de integracao das bases ao conteudo das bulas. . . . . . . . . . . . . . . 77–FIGURA 28 Termos relativos as doencas Influenza A e Influenza B, como tambem aofarmaco Oseltamivir presente na bula profissional do medicamento Tamiflu. 77–FIGURA 29 Exemplo ilustrativo do resultado da identificacao dos farmacos no medi-camento Lotanol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80–FIGURA 30 Estrutura do grafo apresentando as relacoes entre medicamento geradapela ferramenta de consulta do Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86–FIGURA 31 Exemplo do banco de dados em grafos gerada pela ferramenta de con-sulta Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87–FIGURA 32 Detalhes do medicamento Atrovex disponibilizado pelo website FacilBula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91–FIGURA 33 Medicamentos indicados para tratamento de Alzheimer. . . . . . . . . . . . . . . 96–FIGURA 34 Relacao entre os termos de doencas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96–FIGURA 35 Medicamentos que possuem aspirina em sua composicao. . . . . . . . . . . . . . 97–FIGURA 36 Medicamentos que possuem aspirina em sua composicao, porem saocontraindicados para insuficiencia renal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98–FIGURA 37 Website do Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99–FIGURA 38 Resultado da ferramenta Structured Data Testing Tool em uma pagina deCID do Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100–FIGURA 39 Pagina do aplicativo Facil Bula na App Store. . . . . . . . . . . . . . . . . . . . . . . . 102–FIGURA 40 Quantidade de downloads do aplicativo Facil Bula na App Store. . . . . . . 102–FIGURA 41 Estatısticas do Facil Bula no perıodo de junho a julho. . . . . . . . . . . . . . . . . 103–FIGURA 42 Visao geral de aquisicao no perıodo de junho a julho. . . . . . . . . . . . . . . . . . 104–FIGURA 43 Cobertura geografica de acessos por estados do Brasil entre o perıodojunho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105–FIGURA 44 Cobertura geografica de acessos por cidades brasileiras entre o perıodojunho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105–FIGURA 45 Palavras-chave de medicamentos realizadas na pesquisa do Google entreo perıodo junho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106–FIGURA 46 Anuncio criado para o website Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107–FIGURA 47 Historico de transacoes do AdWords no mes de agosto. . . . . . . . . . . . . . . . 108–FIGURA 48 Historico de transacoes do AdWords no mes de setembro. . . . . . . . . . . . . 108–FIGURA 49 Estatısticas do Facil Bula no perıodo de junho a setembro. . . . . . . . . . . . . 109–FIGURA 50 Palavras-chave com melhor desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . 110–FIGURA 51 Mapa com a localizacao de acessos realizados no website Facil Bula. . . 110

Page 15: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

LISTA DE TABELAS

–TABELA 1 Comparacao das ferramentas relacionadas pesquisadas. . . . . . . . . . . . . . . 46–TABELA 2 Listagem de banco de dados estudados para o projeto. . . . . . . . . . . . . . . . . 56–TABELA 3 Lista de variacoes e marcadores utilizados para identificacao dos topicos. 72–TABELA 4 Listagem das bases integradas em Lıngua Inglesa. . . . . . . . . . . . . . . . . . . . 78–TABELA 5 Listagem das bases integradas em Lıngua Portuguesa. . . . . . . . . . . . . . . . . 78–TABELA 6 Padroes para identificar farmacos nas bulas. . . . . . . . . . . . . . . . . . . . . . . . . . 82–TABELA 7 Exemplos de como pode ser utilizada a linguagem Cypher. . . . . . . . . . . . 88–TABELA 8 Lista com a quantidade de relacoes identificadas com medicamentos en-tre farmacos e doencas inferidas na base Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . 94

Page 16: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação
Page 17: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

LISTA DE SIGLAS

ANVISA Agencia Nacional de Vigilancia Sanitaria

API Application Programming Interface

AWS Amazon Web Services

CID Classificacao Internacional de Doencas

COSTART Coding Symbols for a Thesaurus of Adverse Reaction Terms

CPC Cost-per-click

CT Clinical Terms

CTD Comparative Toxicogenomics Database

CTR Clickthrough rate

DATASUS Departamento de Informatica do Sistema Unico de Saude

DDS Diseases Database Search

DNS Domain Name System

DO Disease Ontology

DSL Domain-Specific Languages

FDA Food and Drug Administration

HGNC HUGO Gene Nomenclature Committee

HUGO Human Genome Organisation

ICD International Classification of Diseases

IIS Internet Information Services

INPI Instituto Nacional da Propriedade Industrial

IUT Incubadora de Inovacoes da Universidade Tecnologica

KEGG Kyoto Encyclopedia of Genes and Genomes

MedDRA Medical Dictionary for Regulatory Activities

MeSH Medical Subject Headings

MER Modelo Entidade Relacionamento

MS Ministerio da Saude

NoSQL Not Only Structured Query Language

NOTIVISA Sistema Nacional de Notificacoes para a Vigilancia Sanitaria

OCR Optical Character Recognition

OMIM Online Mendelian Inheritance in Man

OMS Organizacao Mundial de Saude

PDF Portable Document Format

PLN Processamento de Linguagem Natural

Page 18: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

REST Representational State Transfer

SBSI Simposio Brasileiro de Sistemas de Informacao

SEO Search Engine Optimization

SIDER Side Effect Resource

SNOMED Systematized Nomenclature of Medicine

SQL Structured Query Language

TTD Therapeutic Target Database

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USP United States Pharmacopeial

UTFPR Universidade Tecnologica Federal do Parana

Page 19: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

SUMARIO

1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.1 CONTEXTUALIZACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.2 MOTIVACAO E JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.2 Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.4 ORGANIZACAO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 CARACTERIZACAO DOS PROBLEMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1 BULAS MEDICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.1 Contraindicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.1.2 Advertencias e precaucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.3 Interacoes medicamentosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.1.4 Reacoes adversas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2 INTEGRACAO ENTRE BASES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2.1 Organizacao do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.2.2 Dificuldades com a fonte de informacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3 Irrelevancia de termos Ontologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.2.4 Classificacao entre os termos de doencas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 REFERENCIAL TEORICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.1 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 FARMACOVIGILANCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3 AGENCIA NACIONAL DE VIGILANCIA SANITARIA (ANVISA) . . . . . . . . . . . . . 483.4 FOOD AND DRUG ADMINISTRATION (FDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.5 TECNICAS DE MINERACAO DE TEXTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6 BANCO DE DADOS EM GRAFOS: NEO4J . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.7 BANCO DE DADOS DA BIOMEDICINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.7.1 DrugBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.7.2 Comparative Toxicogenomics Database (CTD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.7.3 Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT) . . . . . . . . 603.7.4 Disease Ontology (DO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.7.5 Classificacao Internacional de Doencas (CID) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.7.6 ORPHANET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.7.7 Side Effect Resource (SIDER) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 MATERIAIS E METODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.1 VISAO GERAL DO WORKFLOW DE PROCESSAMENTO DAS BULAS PROFIS-

SIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.1.1 Aquisicao das bulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.1.2 Processamento das bulas profissionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.1.2.1 Roteiro para organizacao dos topicos da bula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.1.3 Integracao com outras bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.1.3.1 Roteiro para identificacao dos farmacos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.1.3.2 Roteiro para buscar os termos medicos referentes as doencas . . . . . . . . . . . . . . . . . . . 824.1.4 Desenvolvimento do banco de dados baseado em grafo . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2 INTEGRACAO DO BULARIO ELETRONICO DA ANVISA COM AS BASES DRUG-

BANK E SNOMED-CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Page 20: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

4.3 INFRAESTRUTURA UTILIZADA PARA O FACIL BULA . . . . . . . . . . . . . . . . . . . . . 905 RESULTADOS E DISCUSSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.1 CONJUNTO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.2 EXEMPLOS DE CONSULTAS AO BANCO EM GRAFOS . . . . . . . . . . . . . . . . . . . . . 955.3 IMPLEMENTACAO FACIL BULA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 995.3.1 Application Programming Interface (API) e Negocios . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.4 ESTATISTICAS DE ACESSO AO FACIL BULA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.5 HOTEL TECNOLOGICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1136.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115Anexo A -- ARTIGO SBSI 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123Anexo B -- E-MAIL ANVISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133Anexo C -- INSCRICAO HOTEL TECNOLOGICO - 1a ETAPA . . . . . . . . . . . . . . . . . . . 135Anexo D -- CONVOCACAO PARA BANCA - 2a ETAPA . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Anexo E -- RESULTADO HOTEL TECNOLOGICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

Page 21: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

21

1 INTRODUCAO

A Associacao Brasileira de Redes de Farmacias e Drogarias (ABRAFARMA) foi

criada pelas principais redes de farmacias do paıs para defender interesses e posicoes sobre

legislacoes referentes ao seu campo de atuacao (ABRAFARMA, 2015). Segundo a ABRA-

FARMA, as suas redes associadas, que totalizam 4.941 lojas, foram responsaveis em movi-

mentar cerca de R$ 28 bilhoes no ano de 2013 em medicamentos, um crescimento de 13,48%

quando comparado ao total de vendas realizadas em 2012, este valor em vendas analisado com

a quantidade de cupons fiscais emitidos no ano inferem como se toda a populacao brasileira ti-

vesse passado quatro vezes nas lojas da ABRAFARMA em 2013 (ABRAFARMA, 2015). Este

mercado contem inumeros medicamentos permitidos pela Agencia Nacional de Vigilancia Sa-

nitaria (ANVISA) que devem possuir bulas seguindo as normas da Resolucao-RDC No 47 (AN-

VISA, 2009), entre outras normas vigentes.

E importante que os profissionais da area de saude tenham acesso as informacoes rela-

cionadas aos medicamentos disponıveis comercialmente, para assim contribuir com eficacia no

tratamento dos pacientes.

Contudo, obter informacoes sobre medicamentos e uma tarefa que requer um certo

trabalho devido a dificuldade em acessar e relacionar estes dados divulgados pelas empresas

farmaceuticas responsaveis, visto que, por vezes, as informacoes nao estao centralizadas em

uma unica fonte de dados. Existem inumeros instrumentos que auxiliam os profissionais nesta

tarefa, como livros, aplicativos e a propria internet, na web destacam-se as ferramentas para

pesquisa de medicamentos que contribuem para o trabalho desempenhado pelos profissionais

da saude. Entretanto, muitas das ferramentas de pesquisas presentes na internet nao apresentam

dados detalhados sobre a relacao de medicamentos com outros medicamentos, principalmente

informacoes em relacao as contraindicacoes medicas, advertencias e precaucoes quanto ao seu

uso, reacoes adversas e interacoes medicamentosas, alem de informacoes em relacao a doencas.

Dessa forma, um grande desafio consiste em organizar as informacoes relativas as bulas dos

medicamentos e relacionar estes dados com outras bulas.

As bulas medicas disponıveis gratuitamente pela ANVISA, instituicao vinculada ao

Ministerio da Saude (MS), destacam-se como fonte de informacao sobre medicamentos. As

bulas aprovadas por esta agencia seguem rigorosas normas a respeito das informacoes contidas

sobre os medicamentos e sao disponibilizadas para download no formato Portable Document

Format (PDF). Porem, estes arquivos nao possuem dados estruturados, como a normalizacao

de termos para doencas e farmacos (que sao compostos quımicos utilizados nos medicamentos)

Page 22: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

22

relacionados entre os medicamentos, o que implica em uma dificuldade em realizar consultas e

associar as informacoes. A ANVISA nao disponibiliza ferramenta alguma que busque princıpio

ativo (substancia responsavel por exercer o efeito farmacologico do medicamento) ou doencas

e apresentem informacoes relacionadas a outros medicamentos. As informacoes disponıveis

nas bulas sao sobre apresentacao do medicamento, indicacoes, contraindicacoes, advertencias

e precaucoes em relacao ao uso, interacoes medicamentosas. Por vezes, as ferramentas nao

encontram todo este conteudo na bula de forma facil, usual e clara para o profissional da area

de saude.

Esta dissertacao apresenta o Facil Bula, projeto disponibilizado por meio de um web-

site e aplicativo mobile que implementa ferramentas que facilitam a busca de informacoes sobre

medicamentos.

O projeto implementou a estruturacao do conteudo das bulas da ANVISA, por meio da

mineracao textual dos documentos em formato PDF e tambem da integracao dos dados gerados

com outras fontes de informacoes, como bases de dados de farmacos e doencas. Estas bases

sao aplicadas pela identificacao de termos existentes entre farmacos e doencas encontrados no

conteudo das bulas. Assim, foi possıvel a criacao de uma rede de medicamentos-farmacos-

doencas populada na base de dados em grafos. O banco de dados em grafo permite a consulta

de questionamentos frequentemente realizados pelos profissionais da saude durante a realizacao

do trabalho de busca por medicamentos, pois possibilitou a apresentacao de dados atualizados e

interligados entre a pesquisa de varios medicamentos, ou relacao com doencas e farmacos. Este

trabalho gerou um workflow para o processamento do conteudo das bulas. Para disponibilizar

os resultados obtidos pela estruturacao e modelagem do banco de dados em grafos foi imple-

mentado um portal que e conhecido como Facil Bula (www. f acilbula.com.br). O portal do

Facil Bula e amplamente acessado e possui cerca de 5 mil acessos semanais contabilizados em

todos os estados brasileiros, mas principalmente por grandes capitais como Sao Paulo e Rio de

Janeiro. A ideia desenvolvida pelo Facil Bula foi aceita no processo de incubacao do Hotel Tec-

nologico da Incubadora de Inovacoes da Universidade Tecnologica (IUT), em que foi avaliada

por membros de diversas instituicoes, como SEBRAE, FIEP, UTFPR e Prefeitura Municipal de

Cornelio Procopio.

O Facil Bula destaca uma pesquisa com recurso de autocomplete pelo nome do remedio,

a qual desconsidera acentuacao, letras maiusculas e minusculas para encontrar os medicamen-

tos. O conteudo das bulas publicadas no projeto e organizado em topicos respectivos a cada

assunto especıfico referente ao medicamento, como composicao, contraindicacao, indicacao,

posologia, entre outros, desta forma, evita o acesso ao arquivo da bula em PDF da ANVISA para

consulta de informacoes. Desta estruturacao de topicos ha uma pesquisa de medicamentos por

Page 23: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

23

meio de farmacos ou de doencas que associam informacoes encontradas em outros remedios,

fornecendo consultas como os farmacos utilizados na composicao, para quais doencas sao in-

dicadas o tratamento com este medicamento, contraindicacoes, reacoes adversas e interacoes

entre outros medicamentos.

1.1 CONTEXTUALIZACAO

A ANVISA foi criada pela Lei no 9.782, no dia 26 de janeiro de 1999 (BRASIL,

1999). E uma autarquia federal vinculada ao MS, com campo de atuacao em atividades de

regulamentacao, normatizacao, controle e fiscalizacao na area de vigilancia sanitaria. Nestas ati-

vidades compete a ANVISA autorizar o funcionamento de empresas de fabricacao, distribuicao,

importacao e comercializacao de medicamentos.

Para os medicamentos regulamentados pela ANVISA serem comercializados ha a ne-

cessidade de que as empresas farmaceuticas elaborem um conjunto de informacoes sobre o

medicamento desenvolvido. As informacoes dizem respeito a composicao do medicamento,

indicacao, advertencias e precaucoes, contraindicacoes, interacoes medicamentosas e reacoes

adversas, e sao redigidas em um texto com caracterısticas completas sobre o medicamento, este

texto e chamado de bula.

A bula e um dos instrumentos que detalham informacoes sobre os medicamentos para

os pacientes e profissionais, ou seja, uma bula possui duas versoes disponıveis. Uma versao

e para os pacientes conhecerem o medicamento por meio de uma linguagem mais simples,

voltada para o publico em geral. A outra versao e para os profissionais das areas de saude

conhecerem todas as especificacoes do medicamento com a finalidade de ver a eficacia desse e

evitar situacoes que prejudiquem o tratamento dos pacientes. Assim, a bula torna-se uma impor-

tante fonte de informacao para estes profissionais, pois sao criadas pelas empresas responsaveis

pelo medicamento e regulamentadas pela ANVISA (mais detalhes sobre o conteudo das bulas

e encontrado no Capıtulo 2).

O conhecimento das informacoes disponibilizadas pelas bulas profissionais e impor-

tante pois o sucesso terapeutico no tratamento de pacientes pode, por vezes, envolver diferentes

profissionais da area de saude, em que cada profissional pode prescrever diversos medicamen-

tos. O uso de diversos medicamentos concomitantes pode ocasionar interacoes medicamento-

sas. Desse modo, os profissionais da saude precisam selecionar, de modo racional, medica-

mentos seguros a cada paciente, baseados em informacoes confiaveis. Em outras palavras, as

decisoes em relacao ao tratamento medicamentoso, dada a prescricao destes profissionais, sao

determinantes para o sucesso de um tratamento (BRASIL, 2012).

Page 24: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

24

E importante ressaltar que a ineficacia ou falha terapeutica em certos tratamentos pode

ter relacao com as reacoes adversas, visto que elas estao entre as causas mais comuns de morte

nos paıses industrializados. Estima-se que aproximadamente 2 milhoes de pacientes nos Esta-

dos Unidos sao afetados a cada ano por reacoes adversas graves entre medicamentos, na qual

destes resultam 100.000 mortes por ano (LEAMAN et al., 2010).

No Brasil o tamanho real do problema referente aos erros de medicacao e pouco conhe-

cido, porem dados estimados pela Fundacao Oswaldo Cruz indicam que 24 mil mortes anuais

sao ocasionadas por intoxicacao medicamentosa (CASSIANI, 2005). Ha tambem um estudo

realizado em um hospital de Minas Gerais que apresenta estatısticas consideraveis em relacao

ao tema, ou seja, afirma que em 3.177 (44,5%) dos 7.148 medicamentos de alto risco1, identifi-

cados em 4.026 prescricoes medicas, ocorreu algum tipo de erro relacionado ao medicamento.

Os erros estao relacionados a concentracao do remedio, a prescricao pouco legıvel, a taxa de

infusao duvidosa, a omissao de forma farmaceutica e da via de administracao dos medicamen-

tos (ROSA et al., 2009).

Neste contexto, para contribuir com a tomada de decisao terapeutica dos profissionais

de saude, o MS em parceria com entidades privadas e demais orgaos relacionados a saude vem

promovendo e incentivando o uso racional de medicamentos. Trata-se de um documento tecnico

que apresenta uma compilacao das condutas baseadas em evidencias sobre medicamentos utili-

zados em atencao primaria a saude, constantes no modulo de informacoes do HORUS - Sistema

Nacional de Gestao da Assistencia Farmaceutica (BRASIL, 2012). Este documento aborda a

logica da racionalidade na prescricao, dispensacao e administracao de medicamentos.

Alem desta cartilha elaborada pelo MS, existe um sistema desenvolvido pela ANVISA

que contempla uma colecao de arquivos das bulas em PDF. Este sistema conta apenas com

uma opcao simples de filtros para pesquisa de conteudo especıfico sobre o nome do medica-

mento, industria farmaceutica, data de publicacao, entre outros. O sistema de busca de bulas da

ANVISA nao possui uma opcao de pesquisa diferenciada, como, por exemplo, verificar quais

medicamentos sao indicados para tratamento de Alzheimer, ou quais os farmacos utilizados na

composicao de um determinado medicamento.

Um dos problemas com esse sistema e que a busca por informacoes em arquivos PDF

nao e usual para os profissionais conhecerem os medicamentos, pois ha a necessidade do down-

load e depois a leitura da bula em um visualizador de PDF.

Para organizar das informacoes nas bulas existem no cenario internacional bases de da-

1Medicamentos de alto risco: farmacos com risco inerente de lesar o paciente quando existe falha no processode utilizacao (ROSA et al., 2009).

Page 25: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

25

dos que contemplam informacoes estruturadas referentes aos farmacos, como e o caso do Drug-

Bank. A base DrugBank fornece informacoes sobre os farmacos aprovados e nao aprovados

pelo Food and Drug Administration (FDA), e contempla um conjunto de interacoes farmaco-

farmaco suportada pela literatura biomedica (WISHART et al., 2008). Tambem ha bases que

possuem vocabularios sobre doencas, como o Systematized Nomenclature of Medicine - Clinical

Terms (SNOMED-CT). A base SNOMED-CT possui a classificacao das doencas organizadas

utilizando uma ontologia, ou seja, disponibiliza um vocabulario comum da area biomedica or-

ganizado em um grafo dirigido acıclico (COTE; PATHOLOGISTS; ASSOCIATION, 1993).

Contudo, o DrugBank nao permite a busca por farmacos associados a doencas uti-

lizando ontologias medicas, nem por meio da utilizacao do CID (Codigo Internacional de

Doencas), enquanto que o SNOMED-CT nao apresenta os medicamentos que tratam cada uma

das doencas.

1.2 MOTIVACAO E JUSTIFICATIVA

As ferramentas nacionais para consulta de bulas dos medicamentos dao suporte ao

trabalho relacionado a saude executado por profissionais brasileiros, mas nenhuma dessas fer-

ramentas pesquisadas durante a elaboracao deste trabalho apresentam mecanismos de consultas

satisfatorios, pois nao fornecem informacoes relevantes com relacao aos medicamentos permiti-

dos pela ANVISA no sentido de detalhar as associacoes com outros medicamentos, mostrando

a ocorrencia de reacoes adversas, interacoes medicamentosas, contraindicacoes medicas, ad-

vertencias e precaucoes entre eles.

1.3 OBJETIVOS

1.3.1 Objetivo geral

Desenvolver uma metodologia computacional baseada em tecnicas de mineracao de

textos para analisar as bulas disponibilizadas no site da ANVISA, tambem implementar um

sistema web que facilite a busca por medicamentos registrados neste orgao regulador e as

informacoes associadas a eles, como por exemplo, interacoes medicamentosas e contraindicacoes

condicionadas a restricoes de pesquisa dos usuarios.

Page 26: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

26

1.3.2 Objetivos especıficos

Os objetivos especıficos deste trabalho sao:

• estudar e utilizar processos para obtencao das bulas dos medicamentos;

• tratamento dos arquivos das bulas, conversao de PDF em arquivo texto e tratar imagens

deste arquivo;

• organizacao dos topicos no texto da bula profissional;

• identificacao de termos relevantes entre os topicos dos medicamentos;

• mapeamento das ontologias biomedicas do SNOMED-CT (COTE; PATHOLOGISTS;

ASSOCIATION, 1993);

• tratamento das redes de interacoes entre farmacos do DrugBank (WISHART et al., 2008);

• elaboracao do modelo de banco de dados baseado em grafos, em que utiliza-se a ferra-

menta Neo4j (NEO4J, 2014).

1.4 ORGANIZACAO DO TRABALHO

Este trabalho esta organizado em 6 capıtulos, sendo que o primeiro capıtulo remete-se

a introducao que apresenta a contextualizacao, motivacao e justificativa, objetivos e organizacao

do trabalho. Os proximos capıtulos estao conforme a seguinte estrutura:

• Caracterizacao dos problemas: neste capıtulo sao apresentados detalhadamente os pro-

blemas e os desafios computacionais deste trabalho. Sao detalhados os problemas en-

contrados ao utilizar bula como fonte de informacao e a integracao de informacoes entre

diferentes bases de dados;

• Referencial teorico: neste capıtulo sao apresentados os estudos e as tecnologias utiliza-

das. Os vocabularios e ferramentas da area de saude, tecnicas de mineracao de textos,

bases de dados da biomedicina e tecnologia aplicada para banco de dados baseado em

grafo;

• Materiais e metodos: neste capıtulo sao apresentadas as etapas do workflow implemen-

tado para a estruturacao das bulas medicas da ANVISA e a integracao dessas com outras

bases de dados;

Page 27: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

27

• Resultados e discussao: neste capıtulo sao apresentados os resultados obtidos e a analise

das estatısticas contabilizadas pelos usuarios que utilizaram as ferramentas disponibiliza-

das no Facil Bula;

• Consideracoes finais: neste capıtulo detalham-se as consideracoes finais do trabalho

desenvolvido e os trabalhos futuros planejados para continuidade do projeto Facil Bula.

Page 28: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

28

Page 29: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

29

2 CARACTERIZACAO DOS PROBLEMAS

Este capıtulo apresenta como a bula medica publicada na ANVISA esta redigida e

organizada seguindo um conjunto de normas tecnicas. A bula e um meio de disponibilizar

informacoes consideradas essenciais sobre os medicamentos tanto para os profissionais quanto

para os pacientes leigos. Nas bulas estao presentes, por exemplo, informacoes que dizem res-

peito aos cuidados sobre contraindicacoes, advertencias e precaucoes, interacoes medicamen-

tosas e reacoes adversas.

O presente capıtulo tambem descreve os problemas que foram abordados, como:

• o processamento textual das bulas;

• a integracao do conteudo das bulas com outras bases de informacoes;

• as dificuldades encontradas por meio da utilizacao da bula profissional como fonte de

informacao.

2.1 BULAS MEDICAS

A bula medica esta disponıvel na ANVISA em duas versoes: (i) paciente e (ii) pro-

fissional. A versao direcionada ao paciente possui uma escrita mais simples voltada para o

entendimento do publico em geral. Para a versao profissional, sao apresentadas informacoes

mais completas e termos mais especıficos da area de saude.

A elaboracao da bula segue varias regras definidas em leis e resolucoes que sao elabo-

radas pelo Governo com participacao dos seus orgaos relacionados. Destacam-se as normas pre-

sentes na Resolucao-RDC No 47, de 8 de setembro de 2009 da ANVISA, criadas para auxiliar

na elaboracao e publicacao da bula medica (ANVISA, 2009). Nestas normas sao apresentadas

as estruturas do conteudo da bula organizadas em topicos, como: composicao, indicacao, resul-

tados de eficacia, caracterısticas farmacologicas, contraindicacao, advertencias e precaucoes,

interacoes medicamentosas, cuidados de armazenamento do medicamento, reacoes adversas,

posologia e superdose. Os topicos da bula tem o objetivo de informar os pacientes quanto ao

medicamento e evitar possıveis riscos que o seu uso incorreto pode ocasionar, informar aos pro-

fissionais a forma de apresentacao do medicamento e as possıveis interacoes deste com outros

medicamentos, alimentos e ate mesmo cuidados relacionados a idade, genero e doencas. Con-

tudo, a quantidade de informacoes disponibilizadas e volumosa e todo este conteudo e de difıcil

Page 30: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

30

consulta, ou seja, torna a analise deste conhecimento um processo trabalhoso.

No proprio sıtio web da ANVISA e disponibilizado uma pagina conhecida por Bulario

Eletronico1, em que sao encontrados os arquivos das bulas profissionais dos medicamentos

disponibilizados pelas empresas responsaveis, permitindo o acesso a informacoes sobre os me-

dicamentos ao publico em geral. Apesar do Bulario Eletronico da ANVISA disponibilizar as

bulas profissionais dos medicamentos distribuıdos no Brasil, estas infelizmente possuem pouca

padronizacao. Por exemplo, algumas bulas possuem um determinado padrao de topicos, ja ou-

tras que seguem diferentes padronizacoes, alem de existirem apenas imagens digitalizadas da

versao fısica da bula. Obter conhecimento destas fontes de dados torna-se uma tarefa trabalhosa,

visto os obstaculos gerados pela falta de padronizacao das bulas, por erros ortograficos nos tex-

tos, pluralizacao de palavras ou pelo uso do novo acordo ortografico da Lıngua Portuguesa por

algumas empresas que apresentam alteracoes no nome do topico e pelo uso de imagens da bula

em sua versao fısica, dificultando assim o acesso a informacao.

Alem dos problemas estruturais no arquivo das bulas, e importante conhecer que o

uso concomitante de medicamentos podem causar interacoes medicamentosas (EDWARDS;

ARONSON, 2000). Dessa forma, entende-se, como por exemplo, que a administracao de

um medicamento pode minimizar a eficacia de um outro medicamento, gerando assim uma

possıvel demora no tratamento, alem de poder ocasionar outros problemas como: reacoes

adversas, alergias, agravamento de doencas ja existentes, intoxicacoes, podendo ate levar a

morte (EDWARDS; ARONSON, 2000).

Nesse cenario, ha outras complexidades existentes como a identificacao dos topicos

das bulas, na qual a segmentacao destas informacoes permite identificar possıveis interacoes

medicamentosas alem de informacoes quanto a cuidados especiais na administracao do medi-

camento a alguns pacientes, como para gravidas, criancas, entre outros.

Um dos problemas aqui abordado pode ser exemplificado da seguinte maneira: ima-

gine que uma determinada pessoa de idade avancada utiliza um conjunto de medicamentos,

cada qual responsavel por controlar e/ou tratar determinada(s) doenca(s), ou ainda suprir a falta

de alguma substancia para o organismo. Considerando que esta pessoa seja diagnosticada com

uma nova doenca, como por exemplo, a doenca de Alzheirmer. Como saber se o medicamento

prescrito para essa doenca recem diagnosticada nao afeta ou e afetada pela medicacao ja pres-

crita e sendo utilizada pelo paciente? Como o profissional da area de saude identificara essas

informacoes? Um dos procedimentos mais usuais utilizados por estes profissionais e conhecer

as informacoes presentes nas bulas profissionais dos medicamentos.

1htt p : //www.anvisa.gov.br/ f ila bula/

Page 31: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

31

Os topicos contraindicacoes, advertencias e precaucoes, interacoes medicamentosas,

reacoes adversas encontrados nas bulas profissionais do medicamento serao detalhados nas

subsecoes seguintes.

2.1.1 Contraindicacoes

Na redacao da bula ha um topico especıfico para apresentar as contraindicacoes do

medicamento seguindo norma estabelecida pela Resolucao-RDC No 47 da ANVISA. De acordo

com a Secao III, Artigo 4o, Inciso VIII dessa resolucao o topico contraindicacoes tem o objetivo

de mostrar condicoes ou situacoes em que se deve evitar o uso do medicamento, em que caso

estas condicoes nao sejam observadas podera acarretar efeitos a saude do usuario ou mesmo

leva-lo a obito (ANVISA, 2009).

A fim de exemplificar a importancia do topico contraindicacao, da mesma forma que o

conhecimento do conteudo deste e tambem de outros topicos, foram selecionadas as Figuras 1 e

2. Estas figuras apresentam uma situacao em que a utilizacao do medicamento Eranz (indicado

para doenca de Alzheimer) junto ao medicamento Kolantyl (indicado para alıvio de azia e ma

digestao) e contraindicada.

Figura 1 – Termo demencia de Alzheimer encontrado no topico de indicacoes do me-dicamento Eranz.Fonte: Adaptado de (ANVISA, 2013).

Dessa forma, a Figura 1 mostra o topico indicacoes do medicamento Eranz, disponibi-

lizado pela empresa farmaceutica Wyeth Industria Farmaceutica Ltda. Este topico informa para

qual doenca o medicamento e indicado e pela figura identifica-se que o medicamento Eranz e

indicado para tratamento da doenca de Alzheimer.

A identificacao e o conhecimento dos respectivos termos de cada topico da bula medica

dao suporte a criacao do banco de dados baseado em grafos, por serem informacoes altamente

interligadas conforme visualiza-se pela Figura 2.

A Figura 2 apresenta o topico de contraindicacoes do medicamento Kolantyl, disponi-

Page 32: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

32

Figura 2 – Topico de contraindicacoes do medicamento Kolantyl, que e contraindi-cado para pacientes em tratamento da doenca de Alzheimer.Fonte: Adaptado de (ANVISA, 2013).

bilizado pela Medley Industria Farmaceutica Ltda. Na Figura 2 identifica-se que o medicamento

Kolantyl e contraindicado para todos que tenham doenca de Alzheimer, por causa do alumınio

que pode agravar a doenca.

Por fim, conclui-se pela analise das informacoes presentes nas Figuras 1 e 2 que nao

se pode administrar o medicamento Kolantyl em qualquer pessoa que tenha Alzheimer, visto o

grifo em azul sobre a contraindicacao do Kolantyl apresentada na Figura 2.

2.1.2 Advertencias e precaucoes

Pela Resolucao-RDC No 47 da ANVISA e indicado a obrigatoriedade do topico ad-

vertencias e precaucoes na redacao das bulas. Conforme diz a Secao III, Artigo 4o, Inciso I desta

resolucao, este topico apresenta cuidados na utilizacao do medicamento para prevenir agravos

a saude e tambem indicar a limitacao do uso desse medicamento, mas que nao o contraindi-

que (ANVISA, 2009).

A Figura 3 apresenta o texto do topico indicacoes do medicamento Furp-Estreptomicina,

disponibilizado pela Fundacao para o Remedio Popular, e o conteudo do topico advertencias e

precaucoes do medicamento Mud Oral, fornecido pela Eurofarma Laboratorios S/A. A Figura 3

Page 33: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

33

Figura 3 – Topico indicacao do medicamento Furp-Estreptomicina destinado ao tra-tamento de tuberculose e o topico advertencias e precaucoes do medicamento MudOral que informa o cuidado para pacientes com tuberculose.Fonte: Adaptado de (ANVISA, 2013).

destaca em vermelho que o medicamento Furp-Estreptomicina e indicado para tratamento da

tuberculose, entretanto o termo tuberculose e encontrado no topico advertencias e precaucoes

do medicamento Mud Oral.

Nota-se pelo exemplo da Figura 3 que ha uma limitacao do medicamento Mud Oral

para quem tem tuberculose. Isso porque o Mud Oral tem um corticoide em sua formulacao,

que pode diminuir as defesas do organismo contra os microrganismos, e assim pode favorecer

o desenvolvimento da tuberculose. O uso de Mud Oral deve ser cauteloso em pacientes com

tuberculose, que facam, por exemplo, uso do Furp-Estreptomicina.

2.1.3 Interacoes medicamentosas

Segundo a Resolucao-RDC No 47 da ANVISA, consoante ao que rege a Secao III, Ar-

tigo 4o, Inciso XXVIII, o topico interacoes medicamentosas define um resposta farmacologica

ou clınica causada pela interacao de: (i) medicamento-medicamento; (ii) medicamento-alimento;

Page 34: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

34

(iii) medicamento-substancia quımica; (iv) medicamento-exame laboratorial e nao laboratorial;

(v) medicamento-planta medicinal; e (vi) medicamento-doenca, cujo resultado final pode ser

a alteracao dos efeitos desejados pela utilizacao do medicamento ou a ocorrencia de eventos

adversos (ANVISA, 2009).

Desse modo, atende-se que estabelecida a consulta por certos medicamentos para

administracao de um paciente, existe a importancia em verificar se a administracao de um novo

medicamento pode levar a uma interacao medicamentosa, em um paciente que ja faz o uso de

varios medicamentos.

Figura 4 – A carbamazepina interage com o cloridrato de ioimbina, princıpio ativo doYomax.Fonte: Adaptado de (ANVISA, 2013).

O cuidado na administracao de medicamentos e tambem para o tratamento de paci-

entes e exemplificado pela Figura 4 que destaca em vermelho a carbamazepina encontrado na

formula do medicamento Carbamazepina disponibilizado pela Uniao Quımica Farmaceutica

Nacional S/A, que possui interacoes medicamentosas com o medicamento Yomax da Apsen

Farmaceutica S/A. Pela Figura 4 conclui-se que o uso destes medicamentos concomitantemente

nao e indicado, visto as informacoes da bula do medicamento Yomax.

Page 35: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

35

2.1.4 Reacoes adversas

Em concordancia a Secao III, Artigo 4o, Inciso XXXI presente na Resolucao-RDC

No 47 da ANVISA, o topico reacoes adversas e destinado a informar sobre respostas a um

medicamento que seja prejudicial ou nao-intencional e que ocorra nas doses normalmente utili-

zadas (ANVISA, 2009).

Com a finalidade de exemplificar o topico reacoes adversas, a Figura 5 destaca em

vermelho o farmaco fenobarbital encontrado no topico composicao do medicamento Gardenal

disponibilizado pela Sanofi-aventis Farmaceutica Ltda., porem este farmaco foi encontrado no

topico de reacoes adversas do medicamento Dacarbazina do Laboratorio Quımico Farmaceutico

Bergamo Ltda.

Figura 5 – O farmaco fenobarbital encontrado na composicao do medicamento Gar-denal tem reacao adversa com o medicamento Dacarbazina.Fonte: Adaptado de (ANVISA, 2013).

Desse modo, identifica-se pela Figura 5 que o uso de fenobarbital em quem faz uso de

dacarbazina, ajuda a diminuir os sintomas de vomito.

2.2 INTEGRACAO ENTRE BASES

O Bulario Eletronico da ANVISA nao disponibiliza a organizacao dos farmacos, nem

das doencas que as bulas informam de uma maneira que facilite a pesquisa pelos profissionais

da area de saude. Dessa forma, ha a necessidade da pesquisa por outras fontes de dados que

Page 36: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

36

fornecam termos referentes aos farmacos e tambem as doencas que sao encontrados nas bulas

medicas. O estudo das bases internacionais utilizadas para integracao do Bulario Eletronico

esta presente na Secao 3.7.

Ha diversas dificuldades vinculadas para integracao de outras bases com as bulas do

Bulario Eletronico, como:

• organizacao do texto da bula nao possui uma padronizacao das informacoes disponibi-

lizadas. Algumas empresas farmaceuticas redigem o texto do seu medicamento de uma

maneira diferente do que e exigido pelas normas vigentes da ANVISA;

• dificuldades existentes nos arquivos das bulas em PDF geradas por meio dos erros or-

tograficos, nao adequacao ao novo acordo ortografico da Lıngua Portuguesa, entre outros;

• irrelevancia de termos Ontologicos presentes no conteudo da bula. O texto e composto

por diversas palavras, porem ha muitas que estao no conteudo do texto para dar sentido

ao leitor e nao referenciam termos de doencas, farmacos ou medicamentos;

• classificacao entre os termos de doencas. Identificar desde o termo mais generico ate o

mais especıfico.

Estas dificuldades listadas serao exemplificadas nas subsecoes seguintes.

2.2.1 Organizacao do texto

As bulas possuem informacoes completas sobre os medicamentos fabricados pelas em-

presas farmaceuticas, porem o texto disponibilizado consta num unico arquivo PDF respectivo

a cada medicamento. Os dados presentes nestes arquivos nao estao normalizados, desse modo,

ha na bula varios topicos que dizem respeito a cada assunto especıfico dos medicamentos.

A Figura 6 apresenta a divisao de alguns topicos encontrados no arquivo PDF da bula

profissional do medicamento Cataflam, que e disponibilizado pela empresa farmaceutica No-

vartis Biociencias Ltda. Pela figura, cujo medicamento foi encontrado no Bulario Eletronico da

ANVISA, os seguintes topicos foram identificados e destacados em vermelho: (i) Apresentacao,

(ii) Composicao, e (iii) Indicacoes, que informam respectivamente sobre o nome do medica-

mento e sua forma farmaceutica, sobre quais princıpios ativo e excipientes estao presentes no

medicamento, e sobre para qual tratamento o medicamento e indicado.

Page 37: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

37

Figura 6 – Alguns topicos encontrados na bula do medicamento Cataflam.Fonte: Adaptado de (ANVISA, 2013).

2.2.2 Dificuldades com a fonte de informacao

A redacao e publicacao das bulas pelas empresas farmaceuticas devem seguir as leis e

resolucoes criadas pelo governo e pela ANVISA. Estas empresas nao disponibilizam um docu-

mento estruturado e uniforme de suas bulas, dado a quantidade de problemas encontrados com

o processamento desta fonte de informacao, como: falta de padronizacao na nomenclatura dos

topicos, erros ortograficos, pluralizacao dos topicos, novo acordo ortografico da Lıngua Portu-

guesa e disponibilizacao da imagem fısica da bula, ao inves da digitalizacao do documento.

Um exemplo sobre a falta de padronizacao entre os topicos das bulas e apresentada na

Figura 7 e destacada em vermelho. A Figura 7 mostra as diferentes formas de escrita referentes

ao topico de superdosagem encontrada nos medicamentos Betnovate N da GlaxoSmithKline

Brasil Ltda., Brilinta da Astrazeneca do Brasil Ltda. e Ozonyl do Laboratorio Gross S/A. Na

bula Betnovate N, o topico e escrito de maneira enumerada com o tıtulo superdose, ja o me-

dicamento Brilinta possui tambem uma enumeracao de topico, porem o tıtulo e escrito como

superdose, e por fim, em Ozonyl nao e encontrada nenhuma enumeracao e o tıtulo descreve o

significado da palavras superdosagem de maneira interrogativa. Na Figura 7, tambem pode ser

verificada a diferenca na forma de escrita, atrelada a fonte utilizada e no tamanho da letra, como

tambem pelo espacamento utilizado na redacao de cada bula.

Outro problema encontrado e descrito por incoerencias na escrita das bulas do Bulario

Eletronico da ANVISA, conforme visualiza-se pela Figura 8. A Figura 8 mostra um erro or-

Page 38: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

38

Figura 7 – Variacoes de tıtulos encontrados para o topico superdose dos medicamentosBetnovate, Brilinta e Ozonyl.Fonte: Adaptado de (ANVISA, 2013).

Figura 8 – Erro ortografico encontrado no medicamento Setronax.Fonte: Adaptado de (ANVISA, 2013).

tografico destacado em vermelho no topico de identificacao do medicamento Setronax elabo-

rado pela Aspen Pharma Industria Farmaceutica Ltda., na qual a palavra medicamento contem

erro em sua escrita.

A Figura 9 exibe em vermelho as diferentes maneiras de escrita do topico de formas

Page 39: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

39

Figura 9 – Topico do medicamento Ebastel escrito no plural, mas para o medicamentoNorfloxacino foi encontrado no singular.Fonte: Adaptado de (ANVISA, 2013).

farmaceuticas e apresentacao dos medicamentos Ebastel da Eurofarma Laboratorios S/A e o

Norfloxacino da Uniao Quımica Farmaceutica Nacional S/A, em que respectivamente o topico

e encontrado escrito no plural e para o outro medicamento esta no singular.

Figura 10 – Topico do medicamento Finagripe escrito conforme o novo acordo or-tografico da Lıngua Portuguesa, diferente do topico encontrado no medicamento Gre-tivit que esta escrito segundo o antigo acordo.Fonte: Adaptado de (ANVISA, 2013).

Tambem ha como problema a relacao de algumas empresas utilizarem o novo acordo

ortografico da Lıngua Portuguesa para redacao das bulas, mas em contrapartida por outras em-

presas ainda e aplicado o antigo acordo. Dessa forma, a Figura 10 destaca em vermelho o

topico contraindicacao do medicamento Finagripe da Medquımica Industria Farmaceutica S/A,

Page 40: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

40

que esta escrito conforme o novo acordo ortografico, porem no medicamento Gretivit disponi-

bilizado pela Belfar Ltda. esta em conformidade com as regras do antigo acordo.

Figura 11 – Imagem da bula fısica do medicamento Manitol adicionado ao arquivoPDF e nao digitalizado.Fonte: Adaptado de (ANVISA, 2013).

A Figura 11 apresenta a imagem da bula fısica do medicamento Manitol disponibi-

lizado pela Beker Produtos Farmaco Hospitalares Ltda. encontrado no Bulario Eletronico da

ANVISA. Pela Figura 11 verifica-se que apenas a imagem da bula fısica foi adicionada ao ar-

quivo PDF, ao inves desta ser digitalizada, conforme esta disponıvel em outras bulas. Desse

modo, visualiza-se a baixa qualidade para leitura das informacoes deste medicamento, com

letras pequenas de difıcil visualizacao e a falta de alinhamento do texto, alem de requerer a

realizacao de um processo de reconhecimento de caracteres a partir da imagem desta bula para

identificacao de todo o conteudo do medicamento.

2.2.3 Irrelevancia de termos Ontologicos

Figura 12 – Termos relacionados a farmacos encontrados no topico composicao dabula do medicamento Cataflam.Fonte: Adaptado de (ANVISA, 2013).

Identificar os termos relevantes de cada topico da bula profissional do medicamento,

como por exemplo, mapear os farmacos encontrados no topico composicao, e tambem encontrar

termos referentes as doencas, bem como a classificacao destas nesses topicos sao tarefas que

contribuem com a identificacao de termos realmente importantes presentes no texto. Ha no

texto das bulas muitas palavras, como: artigos, adjetivos, adverbios, conjuncoes, numerais,

Page 41: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

41

preposicoes, pronomes e verbos, que sao importantes para dar contexto e entendimento para

leitura do conteudo das informacoes do medicamento, porem para a identificacao de termos

relevantes nao e importante que sejam utilizadas estas palavras. O mapeamento dos termos e

tambem util para guiar as consultas aos bancos de dados (MEIJ et al., 2011), pois apresenta a

normalizacao de dados e assim auxilia na estrutura desenvolvida para a base de dados.

A importancia de conhecer os termos relevantes de cada topico e apresentado na Fi-

gura 12 que exemplifica a identificacao de farmacos no topico composicao do medicamento

Cataflam, desenvolvido pela Novartis Biociencias Ltda. Nesta figura encontra-se o farmaco di-

clofenaco acido indicado como princıpio ativo, e informacoes sobre seu farmaco equivalente,

que no caso e o diclofenaco potassico. Tambem sao encontradas informacoes sobre os excipien-

tes, que sao componentes sem acao farmacologica, e que sao utilizadas como veıculo para acao

do princıpio ativo, sendo estes: celulose microcristalina, amidoglicolato de sodio, laurilsulfato

de sodio, dioxido de silıcio, acido estearico e talco.

2.2.4 Classificacao entre os termos de doencas

Figura 13 – Termo doenca cardıaca encontrado no medicamento Afrin que repre-senta um conjunto de doencas relacionadas, diferente do medicamento Cefaliv queapresenta o termo infarto do miocardio relacionado a uma doenca mais especıfica.Fonte: Adaptado de (ANVISA, 2013).

O vocabulario da area de saude e vasto, sendo composto por varios termos medicos

e pela comunicacao dos consumidores em geral (ZENG-TREITLER et al., 2008). Ha nes-

tes termos medicos a especializacao de vocabularios relacionados as doencas que, por vezes,

Page 42: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

42

especificam um grupo de doencas relacionadas. Ou seja, quando um termo esta associado a

doenca do sistema respiratorio entende-se que este engloba outras doencas como: pneumonia,

bronquite, asma entre outros.

E identificado que, como por exemplo, se em uma determinada bula conter no topico de

contraindicacao problemas relacionadas as doencas cardıacas, um certo paciente que tenha in-

farto do miocardio nao podera ter este medicamento prescrito em seu historico clınico. Tambem

ha de se identificar nas bulas caso um determinado farmaco possa potencializar a acao de outro

ou minimizar sua eficacia (BIGUETTI; ANDRADE, 2014).

Dessa maneira, a Figura 13 destaca em vermelho os diferentes termos relacionados

as doencas que foram encontrados no medicamento Afrin da Hypermarcas S/A e Cefaliv da

Ache Laboratorios Farmaceuticos S/A. Pela Figura 13 visualiza-se que o medicamento Afrin

e contraindicado para uso por pacientes com doencas cardıacas, este termo tem relacao com

um conjunto de doencas especıficas que e o caso do termo infarto do miocardio, encontrado no

medicamento Cefaliv. Entende-se assim que no caso de um paciente com infarto do miocardio

o uso do medicamento Afrin e contraindicado, pois este termo faz parte do conjunto de doencas

cardıacas.

Page 43: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

43

3 REFERENCIAL TEORICO

Este capıtulo apresenta alguns conceitos utilizados para a execucao deste trabalho.

Todas as secoes estao organizadas em:

• na Secao 3.1 sao apresentados os trabalhos relacionados com o projeto desenvolvido;

• na Secao 3.2 sao apresentados os conceitos de farmacia para facilitar o entendimento do

Bulario Eletronico e do conteudo das bulas profissionais;

• as Secoes 3.3 e 3.4 apresentam o estudo sobre os orgaos reguladores de medicamentos dos

Estados Unidos (FDA) e do Brasil (ANVISA). Serao apresentadas as responsabilidades

desses e alguns programas disponibilizados por cada organizacao;

• na Secao 3.5 sao apresentadas as tecnicas de mineracao de textos para o processamento

das bulas profissionais da ANVISA;

• na Secao 3.6 sao apresentadas referencias sobre a aplicacao de banco de dados baseado

em grafos e as caracterısticas da tecnologia Neo4j;

• a Secao 3.7 detalhamento sobre variados bancos de dados da biomedicina, a fim de inte-

grar estas bases com as informacoes processadas das bulas profissionais.

3.1 TRABALHOS RELACIONADOS

O estudo sobre os medicamentos e suas interacoes e relevante, visto que o medica-

mento pode ter tanto o efeito desejavel (benefico), quanto respostas desfavoraveis ou inde-

sejados (efeitos adversos), ou apresentar um pequeno significado clınico para o quadro dos

pacientes (SECOLI, 2001). A importancia do tema interacoes entre medicamentos para o de-

senvolvimento do trabalho e justificado por trabalhos (SEHN et al., 2003; MOURA; RIBEIRO;

STARLING, 2007; JUNIOR et al., 2009; BUENO et al., 2010) que apresentam os problemas

relacionados com a saude e tambem medidas para reducao destes problemas.

Assim, ha dois trabalhos publicados no comeco do ano de 2015 (WALLACE; PA-

AUW, 2015; SUN, 2015), que demonstram o interesse e importancia em relacao ao estudo de

redes de interacoes entre medicamentos. O primeiro apresenta o problema da utilizacao de

varios medicamentos em idosos e aponta a importancia das redes de interacoes entre drogas e

doencas. Este trabalho demonstrou que a quantidade de efeitos adversos aumenta de forma nao

Page 44: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

44

linear a medida que novos medicamentos sao adicionados no tratamento (WALLACE; PAAUW,

2015). O segundo descreve uma metodologia para a construcao de uma rede de interacoes

com multiplos nıveis incluindo farmacos, doencas e genes (SUN, 2015), e mostrou algumas

propriedades, como genes relacionados a doencas e a resposta dos medicamentos a determina-

dos genes, na qual a compreensao de conceitos da area de redes complexas representada por

farmacos-doencas-genes influencia na aplicacao farmaceutica e no tratamento de doencas.

Existem tambem alguns trabalhos que fundamentam o uso de tecnicas para mineracao

de dados em aplicacoes voltadas para area de saude, como a abordagem de (YOON et al.,

2012), em que os autores propuseram um roteiro quantitativo para deteccao de reacoes adver-

sas a medicamentos por meio de registros eletronicos de saude dos pacientes. Ja no trabalho

de (LIU et al., 2012), e utilizado um algoritmo de mineracao de dados para identificar regras de

associacoes entre os medicamentos encontrados em conjunto de registros medicos eletronicos.

Definidas estas associacoes sao aplicadas metodologias computacionais para interacoes en-

tre as regras, sendo possıvel descobrir falhas na administracao concomitante de determinados

farmacos. Uma solucao proxima a apresentada em (LIU et al., 2012) e encontrada no trabalho

de (RHO et al., 2013), em que os autores propoem tecnicas de mineracao em banco de dados

de contraindicacoes medicas para apresentar regras de associacoes entre os medicamentos.

Seguindo estas abordagens destacam-se os artigos do PharmGKB1, ambiente web que

disponibiliza varios recursos sobre o impacto de variacoes geneticas humanas em resposta aos

farmacos para conhecimento de clınicos e pesquisadores. Entre as publicacoes apresentadas

pela pagina, detalha-se o trabalho de (COULET et al., 2010), que utiliza Processamento de Lin-

guagem Natural (PLN) para extrair domınios especıficos das publicacoes de uma base de dados

relacionada ao tema Farmacogenomica. O tema Farmacogenomica e o estudo da disposicao e

efeitos dos farmacos em que fornece uma base cientıfica mais solida para otimizar a terapia des-

ses com base na constituicao genetica de cada paciente (EVANS; RELLING, 1999), utilizando

regras definidas a mao e ontologias de domınios especıficos para melhorar o desempenho do

PLN.

Neste contexto, ha o trabalho de (DAVIS et al., 2009) que apresenta uma base gratuita

e curada de nome Comparative Toxicogenomics Database2 (CTD), que fornece a compreensao

de efeitos quımicos na saude humana, mediante interacoes quımicas de genes e os relaciona-

mentos as doencas com base na literatura, todo o conhecimento gerado nesta publicacao forma

uma rede quımica-gene-doenca. Dessa forma, relaciona-se a FDA3, que e um orgao governa-

mental dos Estados Unidos da America responsavel pelo controle de alimentos, medicamentos,1htt ps : //www.pharmgkb.org/2htt p : //ctdbase.org/downloads/3htt p : //www. f da.gov/

Page 45: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

45

equipamentos medicos, entre outros. Este orgao oferece uma base de dados de reacoes adversas

concebida por meio do FDA Adverse Event Reporting System (FAERS) (FAERS, 2015).

Por ser uma fonte de informacao brasileira e pouco conhecida internacionalmente, e

pouco provavel que estes projetos utilizem as bulas medicas disponıveis no sıtio web da AN-

VISA. Durante a escrita desta dissertacao nao foram encontrados trabalhos que abordassem

tecnicas para identificar regras de associacoes entre medicamentos utilizando as reacoes ad-

versas, advertencias e precaucoes, contraindicacoes e interacoes medicamentosas constantes no

conteudo destas bulas.

As bulas da ANVISA disponıveis no Bulario Eletronico apresentam informacoes rela-

cionadas ao FDA, porem nao seguem igualmente a organizacao de informacoes sobre farmacos

e doencas entre medicamentos em forma de cruzamento de informacoes. A fim de organi-

zar as informacoes disponibilizadas no Bulario Eletronico, o foco deste projeto estrutura as

informacoes dos medicamentos comercializados e permitidos pela ANVISA por meio de bases

consolidadas (DrugBank e SNOMED-CT) e confiaveis utilizadas pelas ferramentas pesquisa-

das, juntamente com trabalhos estudados, e assim busca atender o trabalho dos profissionais de

saude brasileiros.

Page 46: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

46Tabela 1 – Comparacao das ferramentas relacionadas pesquisadas.

Aplicabilidade das ferramentas pesquisadas

NomeInteracoesmedicamentosaspor cruzamentode informacoes

Detalhes demedicamentos

Busca dedoencas

Apresentapreco

Informacoes demedicamentoscomercializadosno Brasil

Informacoes dereacoes adversaspor cruzamentode informacoes

Filtro porclassesterapeuticas

Filtro porprincıpioativo

Indicamedicamentogenericona busca

Multifarmas X X X X

Drugs.com X X X X X

WebMD X X X X

CVS Pharmacy X X X X

SIDER X

Bulario Eletronicoda ANVISA X X

Wikibula X X

iPhone Guiados Remedios X X X X

Netfarma X X X X

Memed X X X X X

BulasMed X X X X

Bulario X X X X X

MedicinaNET X X

Tua Saude X X X

Minha Vida X X X

Localdoc Bulas X X

Alergia aMedicamentos X

InteracoesMedicamentosas.com.br X X

MedSUS X X

Page 47: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

47

No contexto comercial, existem varios aplicativos e ferramentas que auxiliam no tra-

balho do profissional da area da saude e tambem na vida dos pacientes. A Tabela 1 elenca

algumas destas ferramentas relacionadas com a busca por medicamentos e possıveis interacoes,

juntamente com reacoes adversas, presentes no mercado. Por meio da Tabela 1 apresentam-se

em nıvel internacional as seguintes ferramentas: (i) Drugs.com4; (ii) WebMD5; (iii) CVS Phar-

macy6; e (iv) SIDER7, que permitem o usuario pesquisar medicamentos e verificar possıveis

interacoes medicamentosas, reacoes adversas e contraindicacoes, porem elas nao atendem ao

publico brasileiro pois nao apresentam informacoes sobre os medicamentos em Lıngua Portu-

guesa.

Ja em ambito nacional exibem-se as ferramentas: (i) Multifarmas8; (ii) Wikibula9;

(iii) Bulario Eletronico da ANVISA; (iv) Guia dos Remedios10; (v) Netfarma11; (vi) Memed12;

(vii) BulasMed13; (viii) Bulario14; (ix) MedicinaNET15; (x) Tua Saude16; (xi) Minha Vida17;

(xii) Localdoc Bulas18; (xiii) Alergia a Medicamentos19; e (xiv) MedSUS 20, na qual permitem

que os usuarios pesquisem pelos nomes dos medicamentos, porem nao apresentam interacoes

medicamentosas, nem contraindicacoes ou reacoes adversas que esses possam ter com outros

medicamentos ou doencas relacionadas por meio de cruzamento de informacoes. A ferramenta

Interacoes Medicamentosas.com.br21 apresenta uma pesquisa de interacoes entre medicamentos

com pouca usabilidade sobre a funcionalidade, alem de que os resultados apresentados nao

mostram as informacoes retiradas do trecho do arquivo da bula para que os usuarios visualizem

com mais detalhes.

Dentre estas ferramentas destaca-se o Drugs.com que apresenta uma busca por medi-

camentos e informa possıveis reacoes adversas com outros medicamentos, porem uma desvan-

tagem deste sistema e que nao atende o publico brasileiro, ja que se trata de uma ferramenta em

4htt p : //drugs.com5htt p : //www.webmd.com/interaction− checker6htt ps : //www.cvs.com/drug/interaction− checker7htt p : //sidee f f ects.embl.de8htt p : //multi f armas.com.br9htt p : //wikibula.com.br

10htt p : //med phone.com.br11htt p : //net f arma.com.br12htt p : //memed.com.br/home13htt p : //www.bulas.med.br/14htt p : //bulario.net/15htt p : //www.medicinanet.com.br/16htt p : //www.tuasaude.com/c/bulas/17htt p : //www.minhavida.com.br/saude/bulas18htt p : //localdoc.com.br/19htt p : //www.imabrasil.com.br/20htt p : //www.datasus.gov.br/21htt p : //interacoesmedicamentosas.com.br/

Page 48: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

48

ambito internacional e nao contempla uma base de informacoes sobre medicamentos em Lıngua

Portuguesa. Nesse caso, quem pesquisasse neste website teria que traduzir o princıpio ativo para

ingles, pois os medicamentos usados em outros paıses tem apenas o nome comercial diferente,

mas o princıpio ativo muitas vezes e o mesmo. Diferente do que apresenta o Drugs.com, o

Bulario Eletronico da ANVISA possui informacoes sobre os medicamentos utilizados no Paıs,

mas nao realiza uma pesquisa tao completa e especializada como a ferramenta do Drugs.com.

3.2 FARMACOVIGILANCIA

O termo Farmacovigilancia define o conjunto de atividades que possuem as seguintes

finalidades: (i) identificacao de reacoes adversas previamente desconhecidas; (ii) encontro de

riscos entre estas reacoes; (iii) administracao de medidas reguladoras a respeito das reacoes

adversas; e (vi) informacao aos profissionais de saude e ao publico sobre estas questoes (LA-

PORTE; BAKSAAS; LUNDE, 1993).

Conhecer todas as reacoes adversas de um determinado medicamento e uma tarefa

complexa, visto a quantidade variada de circunstancias que podem ocasiona-las, tanto pela

alteracao de substancias, quanto por um determinado caso isolado de um historico de paci-

ente. Entretanto, registra-las em forma de ocorrencia por meio de um sistema de coleta de

dados, que resulte na organizacao, avaliacao e posterior divulgacao das informacoes adquiridas

e de extrema relevancia para area de saude (CAPASSO et al., 2000).

No Brasil, foi criado o Sistema Nacional de Notificacoes para a Vigilancia Sanitaria

(NOTIVISA), que tem a finalidade de receber informacoes sobre reacoes adversas, cuja estru-

tura representa um banco de dados constituıdo por notificacoes de eventos adversos descritos

por profissionais de saude ou de usuarios cadastrados, por meio de formularios de notificacao

disponıveis no proprio sıtio da ANVISA (NOTIVISA, 2014).

3.3 AGENCIA NACIONAL DE VIGILANCIA SANITARIA (ANVISA)

A ANVISA e uma autarquia Federal sob regime especial criada pela Lei no 9.782, de

26 de janeiro 1999 (BRASIL, 1999), que atua como agencia reguladora que controla efeitos

adversos de medicamentos no Brasil (ANVISA, 2015). Ela esta vinculada ao Ministerio da

Saude e integra o Sistema Unico de Saude (SUS), e tem seu campo de atuacao voltado a todos

os setores relacionados a produtos e servicos que possam afetar a saude da populacao brasi-

leira (ANVISA, 2015). A agencia e responsavel por realizar parcerias com outras instituicoes

a fim de melhorar processos e ferramentas ligadas a saude da populacao brasileira. Uma destas

Page 49: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

49

parcerias e apresentada no trabalho de (NEVES et al., 2006) que mostra a concepcao do projeto

“Bulas”.

O Projeto Bulas foi realizado por meio de uma parceria entre a ANVISA, a Organizacao

Pan-Americana da Saude22 (OPAS), o Centro Latino-Americano e do Caribe da Informacao em

Ciencias da Saude23 (BIREME) e a Organizacao Mundial da Saude24 (OMS). Estas entida-

des estiveram envolvidas no mapeamento dos processos de elaboracao, submissao, validacao

e publicacao dos textos de bulas dos medicamentos comercializados no Brasil. Neste traba-

lho, as entidades analisaram crıticas e aperfeicoamento destes processos dentro de um modelo

de gestao de informacao, alem do conhecimento dos respectivos atores responsaveis em cada

processo. Como resultado do Projeto Bulas listam-se tres produtos (NEVES et al., 2006):

• E-Bulas - Sistema de Gerenciamento Eletronico de Bulas: responsavel pela gestao, pro-

cessamento e disponibilizacao dos textos de bula, realizada por meio das industrias far-

maceuticas que submetem seus textos a analise da ANVISA (NEVES et al., 2006);

• Bulario Eletronico da ANVISA: sistema web que apresenta informacoes contidas nos tex-

tos de bula dos medicamentos registrados e comercializados no Brasil para profissionais

de saude e a populacao, inclusive portadores de deficiencia visual (NEVES et al., 2006);

• Compendio de Bulas de Medicamentos (CBN): versao impressa do Bulario Eletronico da

ANVISA (NEVES et al., 2006).

A bula e utilizada como uma das principais fontes de informacao sobre medicamen-

tos. Ela e alterada diversas vezes seguindo as normas elaboradas pelo Governo. Assim, o teu

conteudo possui uma forte evolucao historica, que por vezes, esta vinculada a globalizacao das

informacoes, ao desenvolvimento cientıfico e as diferentes polıticas relacionadas a saude (CAL-

DEIRA; NEVES; PERINI, 2008).

A elaboracao destas normas para alteracao do modelo da bula esta voltado a problemas

relacionados ao tamanho reduzido da letra, a linguagem muito cientıfica e a excessiva quanti-

dade de informacoes utilizadas, alem de outros fatores que dificultam a leitura e interpretacao

da mesma (DA SILVA et al., 2006). Em sıntese e preciso que a bula disponibilize informacoes

mais simples, que permitam ao paciente vislumbrar a importancia do conhecimento de todo o

conteudo do medicamento, assim possibilitando a detectacao de problemas advindos do uso e

sua imediata solucao, promovendo o uso racional do medicamento (DA SILVA et al., 2006).

22htt p : //www.paho.org/23htt p : //www.bireme.br/24htt p : //www.who.int/

Page 50: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

50

3.4 FOOD AND DRUG ADMINISTRATION (FDA)

A FDA e um orgao governamental dos Estados Unidos relacionado ao Departamento

de Saude e Servicos Humanos. Ela e responsavel por proteger a saude publica, assegurando a

eficacia e a seguranca dos medicamentos humanos e veterinarios, dos produtos biologicos, dos

dispositivos medicos, do abastecimento alimentar, dos cosmeticos e dos produtos que emitem

radiacao (FDA, 2015). A FDA tambem e responsavel pelo avanco da saude publica, em que

contribui para velocidade de inovacoes que tornam os medicamentos mais eficazes, seguros e

acessıveis. Dessa forma, o trabalho desenvolvido pela FDA ajuda o publico a obter informacoes

precisas e com base cientıfica de quais medicamentos e alimentos precisam utilizar para manter

e melhorar a saude (FDA, 2015).

O trabalho realizado pela FDA para promover a qualidade e a seguranca de medi-

camentos, suplementos alimentares e alimentos e executado juntamente com a United States

Pharmacopeial (USP). A parceria entre a FDA e a USP tem como objetivo estabelecer padroes

para identidade destes produtos e normas para medicamentos, as quais sao impostas pela FDA

de acordo com a Lei Federal de Alimentos, Medicamentos e Cosmeticos dos Estados Uni-

dos (USP, 2015).

Por fim, a FDA garante a seguranca no abastecimento de alimentos e fomenta o desen-

volvimento de produtos medicos, a fim de responder prontamente a deliberadas e emergentes

ameacas a saude publica (FDA, 2015).

3.5 TECNICAS DE MINERACAO DE TEXTOS

A mineracao de textos e o processo de descoberta de informacoes em colecoes de tex-

tos grandes, juntamente com a identificacao automatica de padroes e relacoes em dados textuais

interessantes (FELDMAN; SANGER, 2007). Esta area procura resolver o problema de sobre-

carga de texto por meio da combinacao de tecnicas de mineracao de dados, aprendizado de

maquina, processamento de linguagem natural, recuperacao de informacao e gestao de conhe-

cimento (FELDMAN; SANGER, 2007).

Por meio da mineracao de textos, alguns metodos foram estudados para o desenvolvi-

mento dos algoritmos utilizados no trabalho, os quais tinham a finalidade de auxiliar no proces-

samento das informacoes contidas nas bulas profissionais dos medicamentos.

Uma das diversas tecnicas aplicadas na mineracao de textos e chamada de Sentence

breaker (PIAO, 2014), que consiste na quebra de espaco e pontuacao aplicado em cada conteudo

Page 51: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

51

Figura 14 – Sentence breaker aplicado ao topico “cuidados de armazenamento” domedicamento Amoxicilina.Fonte: Autoria propria.

da bula, da qual o texto foi dividido em frases geradas por meio de um separador de sentencas,

responsavel pela divisao do texto por quebras de linhas (\r\n) ou pontuacao (exclamacao,

perguntas e ponto final). A Figura 14 apresenta um exemplo dessa tecnica aplicada ao texto

do topico “cuidados de armazenamento” do medicamento Amoxicilina, em que visualiza-se o

resultado na quebra das sentencas de todo o conteudo.

Figura 15 – Exemplo de tags utilizadas pelo Part-Of-Speech Tags usado por HeppleTagger em lıngua inglesa.Fonte: Adaptado de (CUNNINGHAM et al., 2014).

Em outra abordagem, a tecnica Part-Of-Speech Tags (HEPPLE, 2000) tem a finalidade

Page 52: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

52

de verificar classes de palavras. Na Figura 15 sao exibidas as tags utilizadas para identificacao

das classes de palavras, o exemplo esta em lıngua inglesa, porem percebe-se que palavras como

and, but e or, logo na primeira linha do texto da figura, identificam ser classes que quando

traduzidas em lıngua portuguesa representam conjuncoes.

O uso de Stop-words (FOX, 1989) e importante apos a separacao do texto em varias

partes de conteudo (tokens), e importante que a tecnica de palavras eliminadas seja aplicada

a essas partes para remocao de itens nao importantes para texto. Um exemplo para aplicacao

desta tecnica seria no caso de que palavras como doenca, paciente e medico poderiam ser acres-

centadas na lista de stop-words, ja que sao textos que se repetem nos arquivos das bulas.

Figura 16 – Exemplo da tecnica Stemming para obtencao do radical das palavras.Fonte: Autoria propria.

Ja a tecnica Stemming (AGICHTEIN; GRAVANO, 2000) e voltada para obtencao

do radical das palavras (PORTER2, 2014). A Figura 16 exemplifica o uso de Stemming, na

qual entende-se que as derivacoes encontradas para as palavras: quımica, quımicas, quımico e

quımicos, foram iguais para todas as palavras, ou seja, o radical destas palavras foi o mesmo

para todas.

A aplicacao da tecnica Jaro-Winkler (WINKLER, 1999) verifica-se pelo controle de

erros ortograficos e a sequencia de similaridade entre as palavras. A Figura 17 exibe um exem-

plo para verificacao de similaridade entre as palavras “Jones” e “Johson”.

Figura 17 – Exemplo de verificacao de similaridade entre “JONES” e “JOHNSON”.Fonte: Adaptado de (WINKLER, 1999).

Alem das tecnicas Sentence breaker, Part-Of-Speech Tags, Stop-words, Stemming e

Jaro-Winkler, aplica-se o uso de expressao regular para resolucao de problemas relacionados

Page 53: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

53

a mineracao sequencial de padroes (GAROFALAKIS; RASTOGI; KYUSEOK, 2002). A ex-

pressao regular no processo de mineracao fornece, por meio de uma simples sintaxe natural

resumida, um termo que especifica uma famılia de sequencia de padroes e tambem uma am-

pla gama de interesses, que, por vezes, representam restricoes de padroes nao-triviais (GA-

ROFALAKIS; RASTOGI; KYUSEOK, 2002). Destaca-se tambem na mineracao de textos a

aplicacao de “Spell Check” responsavel pela correcao de problemas nos textos (RAMASU-

BRAMANIAN; RAMYA, 2013), contribuindo para normalizacao do conteudo desses.

Por fim, no trabalho de (HAN; KAMBER, 2006), o termo mineracao de dados foi con-

siderado improprio, pois nao e feita extracao de dados, mas sim a extracao de conhecimento.

O termo extracao de conhecimento esta ligado ao processo de transformacao de dados bru-

tos em informacoes potencialmente uteis, validas e compreensıveis (FAYYAD; PIATETSKY-

SHAPIRO; SMYTH, 1996). Dessa forma, o sistema desenvolvido gera, pelas tecnicas de

mineracao apresentadas, conhecimento por meio do processamento textual das bulas profis-

sionais da ANVISA.

3.6 BANCO DE DADOS EM GRAFOS: NEO4J

Durante todo o processo de elaboracao de solucoes, verifica-se que, com o passar do

desenvolvimento e a evolucao da complexibilidade das aplicacoes, os dados tendem a ficar cada

vez mais conectados, ate um nıvel que nao se enxergue um dado separado de outro, dificultando

o uso de um modelo especıfico de modelagem de dados (CHERVEN, 2013).

Um destes modelos de dados conceituais mais aceitos e o Modelo Entidade Relaciona-

mento (MER) (ELMASRI; WEELDREYER; HEVNER, 1985). O MER e uma proposta sim-

ples de representacao de dados, que possui uma rica teoria fundamentada em dados dependentes

e normalizados (ELMASRI; WEELDREYER; HEVNER, 1985). No entanto, o MER pode nao

atender totalmente, ou atender de uma maneira menos eficiente aplicacoes que necessitem de

diversas solucoes diferentes e especıficas para um determinado fim (STONEBRAKER, 2010).

Nesse contexto, uma das tendencias na pesquisa de banco de dados e voltada para sistemas que

possam atender a aplicacoes cada vez mais complexas, que vao alem do MER (ATKINSON et

al., 1989).

Dessa forma, surge a utilizacao de modelos de dados nao relacionais, conhecidos por

Not Only Structured Query Language (NoSQL) (HAN et al., 2011). Esses modelos sao capazes

de armazenar e processar grandes conjuntos de dados e desempenham alto poder de leitura e

escrita, sendo eles um desafio para os bancos de dados relacionais (HAN et al., 2011). As

principais vantagens do NoSQL sao a rapida leitura e escrita dos dados, armazenamento em

Page 54: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

54

massa dos registros, facilidade de expansao, e baixo custo (HAN et al., 2011).

Ha varios modelos de banco de dados nao relacionais, porem e necessario encontrar o

mais adequado. Devido as diversas relacoes entre os farmacos e doencas, os estudos foram di-

recionados para bancos de dados baseados em grafos. Um grafo descreve relacoes entre varios

conjuntos de entidades simbolizadas por nos interligados pelas arestas que representam dife-

rentes propriedades. Ele pode descrever propriedades, tanto para conjunto de entidades, quanto

para a relacao entre os nos. Este modelo aparece muito em domınios entre remedios (WILLI-

AMS; HUAN; WANG, 2007). O modelo de grafo e de facil entendimento, pois tentam superar

as limitacoes impostas pelos modelos tradicionais por meio da representacao dos dados em

estrutura de conjuntos, tornando-se assim uma modelagem de dados mais flexıvel (ANGLES;

GUTIERREZ, 2008).

Desse modo, o conteudo das bulas segue o modelo de dados em grafos para armazena-

mento dos registros, pois necessita retornar uma resposta rapida e o uso deste modelo de banco

permite manter e reutilizar ricos vetores de comparacao (HARRIS, 2013).

As estruturas de dados numa base de dados em grafos sao mais alinhadas com os for-

matos nativos de dados vinculados. O banco de dados em grafo tambem fornece um repositorio

muito rapido para a recuperacao de dados, como ao contrario de um banco de dados relacional

nao existem ındices ou ligacoes (joins) que sao computacionalmente caros (HARRIS, 2013).

O Neo4j e amplamente utilizado no mercado de banco de dados em grafos (HARRIS,

2013). Os bancos de dados NoSQL cresceram em popularidade por causa da facilidade de

acesso, a velocidade e escalabilidade (LI; MANOHARAN, 2013). A ferramenta Neo4j permite

o armazenamento de registros que sejam interligados em vertices relacionados por arestas, alem

de que, por se tratar de dados semanticos sao facilmente representados em grafos.

Um banco de dados em grafos prove uma abstracao mais natural em relacao ao mo-

delo de banco de dados relacional, pois dao suporte a conectividade de dados (KIVIKANGAS;

ISHIZUKA, 2012). A base em grafo modela dados por meio de nos e arestas. Dessa maneira,

facilita a modelagem de cenarios complexos constantes pelas relacoes entre os dados desta

base (KIVIKANGAS; ISHIZUKA, 2012).

Os bancos de dados em grafo ainda nao tem uma padronizacao de linguagem para

transacao e insercao de registros. Dessa forma, a falta de padronizacao levou o desenvolvimento

de varios implementacoes de interacao de dados (MILLER, 2013). Neste contexto, o Neo4j

disponibiliza um servico Application Programming Interface (API) desenvolvido em Java que

e consumido por meio uma interface Representational State Transfer (REST) disponıvel com

o uso de uma linguagem domain-specific languages (DSL) nomeada Gremlin, e outra chamada

Page 55: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

55

Cypher (MILLER, 2013).

De todos estes servicos destaca-se para implementacao do projeto o uso da API para

integracao de informacoes entre as ferramentas Neo4j e o sistema desenvolvido utilizando o

Cypher, que e uma linguagem de consulta em grafo inspirada no SQL (MILLER, 2013). O

Cypher possui suporte aos algoritmos importantes, como o caminho mais curto e reconheci-

mento de padroes entre consultas (MAHDIRAJI; BAUMANN, 2013).

3.7 BANCO DE DADOS DA BIOMEDICINA

Para agregar mais informacoes e opcoes de busca ao sistema Facil Bula, foram estuda-

dos alguns bancos de dados da biomedicina. A Tabela 2 apresenta alguns dos muitos bancos de

dados encontrados, em que as colunas se organizam por nome e referencia do banco de dados,

tipo de informacao que diz respeito (base de farmacos, doencas, genes ou reacoes adversas) e

como foi utilizada ou estudada no projeto.

Page 56: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

56Tabela 2 – Listagem de banco de dados estudados para o projeto.Base e referencia Tipo Utilizacao

DrugBank (WISHART et al., 2008) FarmacoTermos relacionados a farmacos encontrados no topico composicao e

interacoes das bulas medicas.

TTD (ZHU et al., 2010) FarmacoBanco de dados que fornece informacoes sobre as proteınas

terapeuticas, a doenca associada, referencia de vias metabolicas, aeficacia dos alvos e os farmacos relacionados.

OMIM (HAMOSH et al., 2005) GenesDestaca uma base de genes humanos e fenotipos geneticos, conteminformacoes sobre desordens mendelianas e mais de 15.000 genes.

KEGG (KANEHISA; GOTO, 2000) Genes

Compreende funcoes de alto nıvel e utilidades do sistema biologico, talcomo a celula, o organismo e o ecossistema, a partir da informacao anıvel molecular, em especial os conjuntos de dados moleculares em

larga escala geradas por sequenciamento do genoma.

CTD (DAVIS et al., 2015)Farmaco, Doenca e

GenesRelacao entre farmacos e doencas encontrados em varios topicos das

bulas de medicamentos.SNOMED-CT (COTE; PATHOLOGISTS;

ASSOCIATION, 1993)Doenca

Termos medicos, procedimentos cirurgicos, doencas entre outrosencontrados nos textos dos topicos do arquivo da bula.

DO (SCHRIML et al., 2012) DoencaOntologia de doencas, disponıvel em Lıngua Inglesa, referente as

informacoes dos medicamentos.DDS (BROWN, 2001) Doenca Pesquisa informacoes sobre doencas, sintomas, entre outros.

ORPHANET (RATH et al., 2012) DoencaDoencas raras, disponıvel em Lıngua Portuguesa, encontrada no topico

indicacao, contraindicacao, precaucoes das bulas.

CID (WHO, 2015a) DoencaClassificacao de doencas vinculadas ao conteudo da bula de

medicamento.

COSTART (HEALTH; SERVICES et al.,1995)

Reacoes adversasUtilizado para codificacao, arquivamento e recuperacao para

pos-comercializacao de reacoes adversas e relatorio de experienciasbiologicas.

SIDER (KUHN et al., 2010) Reacoes adversasTermos que dizem respeito a efeitos colaterais possıveis ou esperados

dos medicamentos.

MeSH (LIPSCOMB, 2000) DoencasApresenta amplo vocabulario de informacoes biomedicas em Lıngua

Inglesa.Fonte: Autoria propria.

Page 57: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

57

Pela Tabela 2 visualizam-se as bases especıficas de farmacos DrugBank25 (WISHART

et al., 2008) e Therapeutic Target Database26 (TTD) (ZHU et al., 2010), os termos destas bases

sao utilizados para pesquisa de vocabularios relacionados aos topicos das bulas profissionais,

em especial aos topicos composicao e interacoes de cada medicamento. Ha bases que organizam

informacoes relacionadas a genes, como Online Mendelian Inheritance in Man27 (OMIM) (HA-

MOSH et al., 2005), Kyoto Encyclopedia of Genes and Genomes28 (KEGG) (KANEHISA;

GOTO, 2000) e Comparative Toxicogenomics Database29 (CTD) (DAVIS et al., 2015). A base

CTD se destaca das demais bases de genes pois tambem mantem informacoes de farmacos e

doencas, pois apresenta a relacao entre eles, na qual estes termos sao encontrados em varios

topicos das bulas de medicamentos.

A Tabela 2 lista tambem bases de doencas, como as bases Diseases Database Se-

arch30 (DDS) (BROWN, 2001), Medical Subject Headings31 (MeSH) (LIPSCOMB, 2000) e

Systematized Nomenclature of Medicine - Clinical Terms32 (SNOMED-CT) (COTE; PATHO-

LOGISTS; ASSOCIATION, 1993) que organizam termos medicos, procedimentos cirurgicos,

doencas entre outros que sao vinculados aos textos dos topicos do arquivo da bula profissional.

Outra e base Disease Ontology33 (DO) (SCHRIML et al., 2012) que diz respeito a ontologia

de doencas, disponıvel em Lıngua Inglesa, referente as informacoes dos remedios, enquanto

que a base de Classificacao Internacional de Doencas34 (CID) (WHO, 2015a) representa a

classificacao de doencas vinculadas ao conteudo da bula de medicamento. Do mesmo modo

que a base ORPHANET35 (RATH et al., 2012) apresenta a classificacao de doencas raras, dis-

ponıvel em Lıngua Portuguesa, encontrada no topico indicacao, contraindicacao, advertencias

e precaucoes das bulas.

Por fim, pela Tabela 2 encontram-se a base Side Effect Resource36 (SIDER) (KUHN

et al., 2010) e a base Coding Symbols for a Thesaurus of Adverse Reaction Terms37 (COS-

TART) (HEALTH; SERVICES et al., 1995) que organizam termos que dizem respeito a efeitos

colaterais possıveis ou esperados dos medicamentos encontrados no topico reacoes adversas.

25htt p : //www.drugbank.ca/26htt p : //bidd.nus.edu.sg/group/ttd/T T DDownload.asp27htt p : //www.omim.org/api28htt p : //www.kegg. jp/29htt p : //ctdbase.org/30htt p : //www.diseasesdatabase.com/begin.asp31htt ps : //www.nlm.nih.gov/mesh/32htt p : //www.nlm.nih.gov/snomed/33htt p : //disease−ontology.org/34htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm35htt p : //www.orpha.net/consor/cgi−bin/index.php36htt p : //sidee f f ects.embl.de/37htt p : //www.nlm.nih.gov/research/umls/sourcereleasedocs/current/CST/

Page 58: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

58

As bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG, SNOMED-CT,

MeSH, DO, ORPHANET e CID oferecem uma quantidade de termos organizados e curados

por especialistas, alem de serem conhecidas internacionalmente tanto pelo meio academico

quanto pelo comercial (software para area de saude). Estas bases sao publicadas em seus res-

pectivos websites a fim de contribuir com estudo, pesquisa e tambem para desenvolvimento de

ferramentas. Contudo, apenas em algumas bases estes termos sao disponibilizados em Lıngua

Portuguesa, como e o caso das bases ORPHANET e CID. As demais bases estao com todo

seu conteudo em Lıngua Inglesa. Os termos disponıveis em lıngua estrangeira dificultam as

relacoes de estruturacao das informacoes presentes nas bulas medicas encontradas no Bulario

Eletronico da ANVISA, visto que o conteudo descrito na bula encontra-se em Lıngua Portu-

guesa tornando-se um problema para assimilar os termos de farmacos e doencas disponıveis em

outro idioma, ocasionada pela diferenca de vocabularios existentes entre cada lıngua.

Figura 18 – Integracao ilustrada por flechas direcionais das bases de dados e o BularioEletronico da ANVISA que nao normaliza informacao alguma com as bases relacio-nadas.Fonte: Autoria propria.

Na Figura 18 visualizam-se as integracoes que as bases possuem elaboradas por meio

das informacoes que cada uma disponibiliza, na qual listam-se algumas relacoes entre as bases

ilustradas:

• SIDER: utiliza os farmacos da base DrugBank e as reacoes adversas da base COSTART;

• CTD: relaciona os farmacos da base DrugBank, juntamente com os genes das bases

KEGG e OMIM com os termos de doencas da base MeSH;

Page 59: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

59

• DO: organiza as informacoes de doencas das bases MeSH, SNOMED-CT e CID;

• ORPHANET: associa as doencas da base CID e com os genes da base OMIM;

A Figura 18 mostra que o Bulario Eletronico da ANVISA nao possue informacoes

estruturadas com relacao as bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG,

SNOMED-CT, MeSH, DO, ORPHANET e CID.

Para o projeto as bases TTD, OMIM, KEGG, DDS, COSTART e SIDER foram uti-

lizadas como meio de estudo para visualizar as relacoes delas com outras bases e analisar a

viabilidade destas para integracao de novos vocabularios para vinculacao do conteudo das bulas

profissionais do Bulario Eletronico da ANVISA. Ja as bases DrugBank, CTD, SNOMED-CT,

DO, CID e ORPHANET foram utilizadas no desenvolvimento do trabalho de processamento

das bulas e mapeamento de termos ontologicos.

As bases DrugBank, CTD, SNOMED-CT, DO, CID, ORPHANET e SIDER serao

detalhadas nas secoes seguintes.

3.7.1 DrugBank

O DrugBank refere-se a um banco de dados de farmacos, que apresenta informacoes

sobre as moleculas das drogas, alvos de drogas e as consequencias biologicas ou fisiologicas

das acoes destas drogas. Neste banco existem muitas ferramentas embutidas para visualizacao,

classificacao, pesquisa e extracao de dados de texto, imagem, sequencia ou estrutura (WISHART

et al., 2008).

As associacoes apresentadas pela base do DrugBank sao compostas por algumas li-

teraturas medicas ja consolidadas, como: PubMed38, e-Therapeutics39 e STAT!Ref40 (AHFS),

porem nao ha uma representacao sistematica das indicacoes de medicamento que permita iden-

tificar as relacoes de droga-doenca (VALENTINI; RE, 2013).

3.7.2 Comparative Toxicogenomics Database (CTD)

A primeira versao da base CTD foi desenvolvida pelo Laboratorio Biologico Mount

Desert Island41 com a finalidade de ser um recurso para comunidade genomica dedicada a com-

preender o significado de genes e proteınas no sistema humano (MATTINGLY et al., 2003). A38htt p : //www.ncbi.nlm.nih.gov/pubmed39htt p : //www.etherapeutics.co.uk/40htt p : //www.statre f .com/41htt ps : //mdibl.org/

Page 60: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

60

CTD oferece uma combinacao de caracterısticas para facilitar as comparacoes inter-especies

do significado toxicologico42 de genes e proteınas, dessa forma, promove a compreensao da

evolucao molecular, o significado das sequencias conservadas, a base genetica da sensibili-

dade variavel aos agentes ambientas e as complexas interacoes entre o ambiente e a saude

humana (MATTINGLY et al., 2003).

A CTD entende que a etiologia de muitas doencas cronicas envolve interacoes entre

fatores ambientais e genes (DAVIS et al., 2008). Estes fatores modulam processos fisiologicos,

em que o estudo dessas entre as substancias quımicas ambientais, e genes ou proteınas, forne-

cem conhecimento sobre os mecanismos de acao de produtos quımicos, sensibilidade a doenca,

toxicidade e interacoes medicamentosas terapeuticas (DAVIS et al., 2008).

Por fim, a CTD representa uma rede referente a relacao quımica-gene, quımico-doenca

e interacoes gene-doenca. Essa rede utiliza dados que estao curados manualmente a partir da

literatura cientıfica apresentada por co-autores profissionais que utilizam vocabularios contro-

lados, ontologias e notacao estruturada para sua organizacao, que juntos facilitam a construcao

das redes de quımica-gene-doenca desta base (DAVIS et al., 2015).

3.7.3 Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT)

O SNOMED-CT e uma biblioteca de terminologias clınicas padronizadas, licenciada

pela National Library of Medicine, a qual inclui uma cobertura abrangente de termos relaci-

onados as doencas, achados clınicos, terapias, procedimentos e resultados, alem de fornecer

terminologias fundamentais para codificar um registro de saude eletronico (ELEVITCH, 2005).

A base SNOMED-CT simplifica a pesquisa de doencas e sintomas, no entanto para uti-

liza-la e necessario identificar a representacao dos dados disponibilizados por meio das relacoes

fornecidas pelos codigos do SNOMED-CT. Estas hierarquias representam somente a organizacao

logica dos dados, um exemplo desta apresentacao dos dados esta presente na Figura 19. Nao

existe indicacao sobre qual seria o melhor caminho para um paciente em uma determinada

situacao atual, ou correlacao entre nıvel superior de codigos do SNOMED-CT (CIOLKO; LU;

JOSHI, 2010).

42Toxicologia: estudo sobre o efeito nocivo proporcionado pela interacao de um agente toxico em um sistemabiologico (MATTINGLY et al., 2003).

Page 61: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

61

Figura 19 – Representacao grafica da relacao “e um” do SNOMED-CT.Fonte: Adaptado de (DONNELLY, 2006).

3.7.4 Disease Ontology (DO)

Ontologia e uma tecnica de classificacao e organizacao de informacoes, cujo objetivo

principal diz respeito a representacao formal de conhecimento (GUARINO, 1998). Geralmente

sao criadas por especialistas do respectivo assunto em questao, tendo sua estrutura baseada na

descricao de conceitos e dos relacionamentos semanticos entre eles, as ontologias geram uma

especificacao formal e explıcita de um conceito compartilhado (BERNERS-LEE et al., 2001).

Nesse contexto, a DO43 e uma base de conhecimento sobre doencas humanas, que inte-

gra o significado destas e vocabularios medicos por meio de mapeamento cruzado de termos de

doencas especıficos e codigos identificadores relacionados na integracao entre as bases MeSH,

CID, do NCI thesaurus, SNOMED-CT e OMIM (SCHRIML et al., 2012).

A DO e utilizada por bancos de dados biomedicos para anotacao sobre doencas, na

qual destaca-se como um padrao de base para representacao da doenca humana em ontologias

biomedicas (SCHRIML et al., 2012).

A versao atual da DO possui uma comunidade de pesquisa ampliada e membros que

fornecem orientacao para curadoria especialista da base. Dessa forma, a DO expande sua uti-

lidade em ontologias para ter seu uso vinculado a exames e comparacoes de variacao genetica,

fenotipo, proteına, dados de farmacos e de epıtopos por meio das doencas humanas (KIBBE et

al., 2014).

43htt p : //disease−ontology.org/

Page 62: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

62

3.7.5 Classificacao Internacional de Doencas (CID)

A CID e uma ferramenta que prove o diagnostico padrao sobre epidemiologia, gestao

da saude e fins clınicos, atrelado a analise da situacao geral de saude dos grupos populacionais.

Dessa forma exibe a situacao geral de saude dos paıses e populacoes, com a finalidade de

monitorar a incidencia e prevalencia de doencas e outros problemas de saude (WHO, 2015a).

A CID e utilizada por diversos profissionais da area de saude, e tambem por pesquisa-

dores, gestores de informacao e programadores, profissionais de tecnologia da informacao, para

a classificacao de doencas e outros problemas de saude, incluindo certidoes de obito e registros

de saude, a fim de fornecer a base para a elaboracao de estatısticas de mortalidade e morbilidade

nacionais por Estados Membros da OMS (WHO, 2015a).

A classificacao utilizada pela CID esta dividida em 22 capıtulos, nomeados pelo sis-

tema de numeracao romana. Alguns capıtulos representam as seguintes relacoes, conforme

definicao da OMS (WHO, 2015b):

• Capıtulos I ate XVII: referem-se a doencas e outras condicoes morbidas;

• Capıtulo XIX: diz respeito a lesoes, envenenamento e algumas outras consequencias de

causas externas;

• Capıtulo XVIII: abrange sintomas, sinais, achados clınicos e laboratoriais anormais, nao

classificados em outra parte;

• Capıtulo XX: usado para causas externas de morbidade e mortalidade;

• Capıtulo XXI: ligado a fatores que influenciam o estado de saude e o contato com servicos

de saude.

Cada capıtulo mantem um conjunto de doencas especıficas que sao organizadas em

grupos e possuem relacao com o tema abordado pelo capıtulo. Cada doenca dispoe de um

codigo CID unico, que e simbolizado por caracteres, sendo o primeiro caracter uma letra e o

resto uma sequencia numerica (WHO, 2015b). Dessa forma, os registros sao organizados em

termos amplos ate nomes de doencas mais especıficas. Como por exemplo, os registros disponi-

bilizados referente a “demencia na doenca de Alzheimer de inıcio precoce” que e exemplificada

pelo DATASUS44 como sendo uma doenca pertencente ao Capıtulo V, que abrange os Transtor-

nos mentais e comportamentais, dentro do Grupo F00 - F09, que diz respeito aos Transtornos

44htt p : //www.datasus.gov.br/cid10/V 2008/WebHel p/cid10.htm

Page 63: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

63

mentais organicos, inclusive os sintomaticos, e por fim e um termo do Codigo F00 que relaci-

onada a Demencia na doenca de Alzheimer. A organizacao destas informacoes e ilustrada pela

Figura 20.

Figura 20 – Organizacao da CID para demencia na doenca de Alzheimer de inıcioprecoce.Fonte: Autoria propria.

No Brasil, o Departamento de Informatica do Sistema Unico de Saude (DATASUS),

orgao que integra a Secretaria de Gestao Estrategica e Participativa do Ministerio da Saude,

que tem como responsabilidade disponibilizar sistemas de informacao e suporte de informatica,

necessarios ao processo de planejamento, operacao e controle aos orgaos do SUS (DATASUS,

2015).

O DATASUS disponibiliza uma pagina referente a CID45 com informacoes atualizadas

em sua 10a Revisao. Esta pagina prove dados normalizados sobre doencas que sao organiza-

dos por capıtulos, grupos e doencas, e tambem possibilita o download de uma ferramenta que

permite a partir de um nome, parte do nome ou codigo, localizar as informacoes sobre a CID.

Nesse contexto, e estabelecido pela Resolucao-RDC No 140, de 29 de maio de 2003 da

ANVISA, a adocao da CID ao se referir a sinais, sintomas e doencas para elaboracao do texto

das bulas (ANVISA, 2003).

3.7.6 ORPHANET

A ORPHANET e um portal46 web multilıngue, constituıdo por um consorcio de cerca

de 40 paıses europeus, que fornece informacoes sobre doencas raras e medicamentos. Possui

uma base de representacao de doencas raras mapeadas por meio de dados da CID, SNOMED-

CT, MeSH, MedDRA e UMLS, alem de cruzar informacoes de genes publicados por meio das

bases especialistas como HUGO que disponibiliza o HUGO Gene Nomenclature Committee, o

UniProt, o OMIM e o GenAtlas (RATH et al., 2012).

A ORPHANET permite a extracao de volumosos conjuntos de dados que geram dife-

rentes pontos de vista, e podem ser usados em bioinformatica para responder questoes comple-45htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm46htt p : //www.orpha.net

Page 64: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

64

xas, com o objetivo de servir as necessidades de pesquisadores e da industria farmaceutica no

desenvolvimento de medicamentos para doencas raras (RATH et al., 2012).

Doencas raras sao pouco representadas em classificacoes internacionais, porem a base

ORPHANET disponibiliza dados para uma das principais necessidades presentes nos sistemas

de informacao de saude e de investigacao, cujo interesse esta voltado ao compartilhamento

e integracao de dados provenientes de maneira heterogenea, com diversas terminologias de

referencia (RATH et al., 2012).

3.7.7 Side Effect Resource (SIDER)

O entendimento das moleculas dos fenotipos causados por farmacos em humanos e

essencial para elucidar os mecanismos de acao e o desenvolvimento de medicamentos persona-

lizados, de modo que os efeitos colaterais sao respostas fenotıpicas do organismo humano ao

tratamento com farmacos (KUHN et al., 2010).

Os efeitos colaterais dos medicamentos (tambem conhecidos como reacoes adversas

a medicamentos) sao uma importante fonte de informacao fenotıpica do organismo humano,

porem o conhecimento de toda as informacoes necessarias para pesquisa e dificultada pela aces-

sibilidade insuficiente de dados (KUHN et al., 2010).

A base SIDER contem 62.269 efeitos adversos relacionados a farmacos, conectados

por meio de 888 farmacos vinculados a 1.450 termos relacionados a efeitos colaterais, obti-

dos da mineracao de textos das bulas de medicamentos disponibilizadas pelo FDA e cruzados

com termos de efeitos adversos disponibilizados pelo banco de dados Coding Symbols for a

Thesaurus of Adverse Reaction Terms (COSTART) (KUHN et al., 2010).

Page 65: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

65

4 MATERIAIS E METODOS

Este capıtulo apresenta os metodos desenvolvidos para os problemas apresentados no

Capıtulo 2 utilizando tecnicas e modelos que foram descritos no Capıtulo 3. Os seguintes

assuntos serao abordados:

• visao geral do workflow de processamento das bulas profissionais;

• metodo para aquisicao das bulas profissionais disponıveis no Bulario Eletronico da AN-

VISA;

• processamento do arquivo PDF da bula profissional e tratamento do texto nele contido;

• identificacao e segmentacao dos topicos de cada bula;

• identificacao de termos relevantes no texto de cada regiao segmentada da bula;

• integracao da bula profissional com outras bases de dados;

• construcao da base de dados baseada em grafo.

4.1 VISAO GERAL DO WORKFLOW DE PROCESSAMENTO DAS BULAS PROFISSIO-

NAIS

Figura 21 – Visao geral do workflow de processamento das bulas profissionais com asrespectivas etapas que compoem o processo desenvolvido.Fonte: Autoria propria.

Page 66: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

66

A Figura 21 apresenta uma visao geral da metodologia utilizada. O workflow imple-

mentado possui quatro etapas principais, sao elas: (i) obtencao das bulas profissionais do sıtio

web da ANVISA; (ii) pre-processamento, extracao, normalizacao das informacoes das bulas e

seu armazenamento em um banco de dados relacional; (iii) integracao com outras bases para

identificacao do conteudo relevante obtido da normalizacao do texto das bulas e (iv) desenvol-

vimento do banco de dados baseado em grafos.

Nas subsecoes seguintes sao detalhadas as etapas deste workflow.

4.1.1 Aquisicao das bulas

O Bulario Eletronico e um sistema disponıvel no sıtio web da ANVISA responsavel

pela pesquisa de medicamentos comercializados no Brasil e que sao regulamentados por este

orgao federal vinculado ao MS. A Figura 22 apresenta a pagina inicial do Bulario Eletronico

da ANVISA e os filtros permitidos para pesquisa. Estes permitem a busca pelo nome do medi-

camento, empresa responsavel pelo medicamento, numero de expediente para controle da AN-

VISA, perıodo de publicacao da bula e a quantidade de registros por pagina que serao exibidos

apos realizar a pesquisa.

Figura 22 – Pagina inicial do Bulario Eletronico da ANVISA e os respectivos filtrosdessa.Fonte: Adaptado de (ANVISA, 2013).

O retorno de uma pesquisa realizada no Bulario Eletronico da ANVISA disponibi-

liza informacoes para conhecimento do medicamento, como seu respectivo nome, empresa res-

ponsavel, numero de expediente, data de publicacao e arquivos PDF das bulas nas versoes para

o paciente e profissional da area de saude. Um exemplo do resultado da aplicacao do filtro para

Page 67: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

67

pesquisa de medicamento na pagina do Bulario Eletronico e apresentado na Figura 23.

Figura 23 – Pagina de resultado da pesquisa do Bulario Eletronico.Fonte: Adaptado de (ANVISA, 2013).

As bulas disponibilizadas pelo Bulario Eletronico da ANVISA sao responsaveis por

informar aos pacientes e aos profissionais da saude sobre as caracterısticas dos medicamentos,

qual a maneira de utiliza-los, para quais tratamentos sao indicados, quais sao suas interacoes,

reacoes, precaucoes, entre outras informacoes organizadas em topicos (conforme a Secao 2.1).

Em uma consulta realizada pelo Bulario Eletronico da ANVISA no dia 22 de outubro

de 2015 foram encontradas 6.961 registros de medicamentos. Com base na Figura 23 visualiza-

se que obter um unico arquivo PDF da bula profissional nao requer muito esforco, visto que

para tal acao basta o clique no link de download do PDF. Porem fazer esta acao para todos os

registros de medicamentos disponıveis na ANVISA e uma tarefa que requer tempo, caso seja

realizada manualmente.

Neste contexto, para obter as bulas profissionais disponıveis no Bulario Eletronico

da ANVISA foi implementado um robo de busca (web crawler (THELWALL, 2001)) para

automatizar a obtencao dos arquivos. O desenvolvimento deste robo foi elaborado na plataforma

Microsoft Windows, em linguagem C Sharp (C#), com a ferramenta IDE Visual Studio 2013

devidamente licenciada. Ele tambem foi responsavel em capturar o nome do medicamento,

Page 68: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

68

a empresa responsavel e outras informacoes presentes no HTML. O funcionamento do robo e

visualizado pelo vıdeo1 intitulado “Automatizacao Download Bulas ANVISA”, disponibilizado

no YouTube.

4.1.2 Processamento das bulas profissionais

Esta etapa consistiu em transformar o conjunto de arquivos PDF das bulas em arquivos

no formato de somente texto (“.txt”). Assim, a bula em formato de texto tem o objetivo de

facilitar o processamento e estruturacao do conteudo para possibilitar a execucao das proximas

etapas do workflow.

As bulas em formato texto sao documentos que nao estao estruturados. Isso torna

a busca por alguma informacao uma tarefa trabalhosa, o que requer o processamento para

organizacao das informacoes junto a interpretacao do texto das bulas, algo computacionalmente

custoso (RILOFF; LEHNERT, 1994).

Os problemas encontrados nos arquivos das bulas medicas, versao publicada para pro-

fissionais da area de saude, sao apresentados no Capıtulo 2 e sao destacados como:

Figura 24 – Conteudo da bula em imagem que esta fora do padrao.Fonte: Adaptado de (ANVISA, 2013).

1htt p : //www.youtube.com/watch?v = HdyUJwG9GG0

Page 69: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

69

1. Problemas na extracao de texto do arquivo PDF, definido pela falta de formatacao;

2. Topicos das bulas estao diferentes do padrao estabelecido pela ANVISA (ANVISA,

2009);

3. Erros ortograficos no conteudo da bula;

4. PDF com a imagem da foto da versao fısica encontrada na caixa do remedio (ver exemplo

na Figura 24).

Para cada um destes problemas, foi desenvolvida uma solucao ad hoc. Desse modo,

para solucionar estes desafios encontrados nos arquivos PDF da bula profissional, disponibiliza-

dos pelo Bulario Eletronico da ANVISA, foi utilizado para a correcao dos problemas referentes

aos erros ortograficos e tambem sobre a divergencia de escrita nos topicos um verificador or-

tografico (Spell Checking) configurado para o idioma Portugues do Brasil. Isso foi necessario

pois alem dos erros gramaticais, algumas bulas seguiam o novo acordo ortografico da Lıngua

Portuguesa enquanto outras seguiam o antigo acordo ortografico. O Spell Checks foi utilizado

com o arquivo de dicionario do idioma Portugues do Brasil que e disponibilizado pela plata-

forma LibreOffice.

As informacoes corrigidas das bulas e seus respectivos conteudos, como empresa res-

ponsavel, data de publicacao, numero de expediente, foram organizados num banco de dados re-

lacional. Tambem foi necessario organizar o conteudo da bula profissional pelos topicos presen-

tes no texto. Assim, foi desenvolvido um algoritmo (exibido na Subsecao 4.1.2.1) responsavel

por identificar cada topico da bula definido pelas normas da Resolucao-RDC No 47 (ANVISA,

2009). Mesmo com as normas para redacao das bulas, as empresas farmaceuticas nao redigem

seus topicos seguindo o padrao regulamentado por completo, visto que disponibilizam uma lista

de variacoes de nomes que foram encontrados em diferentes topicos dos medicamentos. Estes

topicos sao agrupados em listas de variacoes e utilizados para auxiliar a identificacao de cada

topico da bula profissional.

Por fim, para solucionar o problema elencado de numero 4, exemplificado pela Fi-

gura 24 foi criada uma rotina para recuperar as imagens do PDF, junta-las e alinha-las corre-

tamente, alem de aplicar um tratamento de qualidade nas imagens, ou seja, tornar a imagem

do texto mais nıtida. Finalmente, uma ferramenta de Optical Character Recognition (OCR)

foi utilizada para recuperar o texto. A ferramenta de codigo aberto para OCR utilizada foi o

Tesseract (TESSERACT, 2014).

Com o uso de OCR disponbilizado pelo Tesseract muito do conteudo pode ser iden-

tificado, porem o processo nao garantiu que todas as informacoes fossem detectadas. Por esse

Page 70: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

70

motivo nessa etapa foi necessaria a intervencao humana, para que assim todo o conteudo da

bula fosse identificado e pudesse ser utilizado no processo desenvolvido.

O trabalho realizado com estas imagens das bulas e tambem com o tratamento do

conteudo tem o objetivo de alcancar o maior numero de bulas profissionais para construcao das

redes de relacoes entre medicamentos, farmacos e doencas.

4.1.2.1 Roteiro para organizacao dos topicos da bula

A bula medica e descrita pela Secao 2.1 e apresenta informacoes importantes sobre

cada medicamento, sendo composta por varios topicos que auxiliam na busca de medicamentos

por profissionais de saude. De acordo com a Resolucao-RDC No 47 (ANVISA, 2009) os topicos

presentes na bula profissional sao:

• Apresentacao: apresenta o medicamento e a empresa responsavel por sua elaboracao;

• Composicao: mostra os elementos utilizados para composicao do medicamento;

• Indicacao: para que este medicamento e indicado;

• Caracterısticas Farmacologicas: mostra como o medicamento funciona;

• Contraindicacoes: quando nao se pode usar o medicamento;

• Advertencias e precaucoes: o que deve ser sabido antes de usar o medicamento;

• Interacoes medicamentosas: sao alteracoes dos efeitos desejados ou ocorrencias de

eventos adversos;

• Posologia e modo de usar: como deve ser usado o medicamento, onde, como e por

quanto tempo pode-se guardar o medicamento;

• Reacoes adversas: quais os males que este medicamento pode causar;

• Superdose: o que deve ser feito se usar uma quantidade maior do que a indicada pelo

medicamento.

Porem a nomenclatura de topicos apresentada pela Resolucao-RDC No 47 (ANVISA,

2009) nao e seguida na redacao da bula por todas as empresa farmaceuticas, ou seja, um mesmo

topico pode ter diferentes nomes em variados textos das bulas profissionais. Assim, foi ne-

cessario que o roteiro desenvolvido tivesse capacidade de informar sobre novas variacoes de

Page 71: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

71

topicos para organizar o texto da bula profissional processado. Na Tabela 3 mostra-se a lista de

topicos e suas variacoes, juntamente com o marcador utilizado para definir o inıcio do topico

no texto da bula.

Page 72: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

72

Tabela 3 – Lista de variacoes e marcadores utilizados para identificacao dos topicos.

Ordem Topico Variacoes Marcador

1 Identificacao do medicamento,Apresentacoes

IDENTIFICACAO DO MEDICAMENTO,APRESENTACOES, APRESENTACAO, FORMAS

FARMACEUTICAS E APRESENTACOES, FORMAFARMACEUTICA E APRESENTACAO

=[TOPICO]=[INDE]

2 Composicao COMPOSICAO, COMPOSICOES =[TOPICO]=[COMP]

3 Informacoes ao profissional de saudeINFORMACOES AO PROFISSIONAL DE SAUDE,

INFORMACOES TECNICAS AOS PROFISSIONAIS DESAUDE

=[TOPICO]=[INFO]

4 Indicacoes INDICACOES, INDICACAO =[TOPICO]=[INDI]5 Resultados de eficacia RESULTADOS DE EFICACIA =[TOPICO]=[RESU]

6 Caracterıstica FarmacologicasCARACTERISTICAS FARMACOLOGICAS,CARACTERISTICAS FARMACOLOGICAS,CARACTERISTICAS FARMACOLOGICAS

=[TOPICO]=[CARA]

7 Contraindicacoes CONTRAINDICACOES, CONTRA-INDICACOES =[TOPICO]=[CONT]8 Advertencias e precaucoes ADVERTENCIAS E PRECAUCOES =[TOPICO]=[ADVE]

9 Interacoes medicamentosasINTERACOES MEDICAMENTOSAS, INTERACOES

MEDICAMENTOSAS E OUTRAS FORMAS DEINTERACAO

=[TOPICO]=[INTE]

10 Cuidados de armazenamento domedicamento

CUIDADOS DE ARMAZENAMENTO DOMEDICAMENTO, ONDE, COMO E POR QUANTO TEMPO

POSSO GUARDAR ESTE MEDICAMENTO?=[TOPICO]=[CUID]

11 Posologia e modo de usar POSOLOGIA E MODO DE USAR =[TOPICO]=[POSO]

12 Reacoes adversas REACOES ADVERSAS A MEDICAMENTOS, REACOESADVERSAS, REACOES ADVERSAS

=[TOPICO]=[RECA]

13 Superdose SUPERDOSE, SUPERDOSE OU INGESTAO ACIDENTAL,SUPERDOSAGEM

=[TOPICO]=[SUPE]

Page 73: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

73

Nesse contexto, o pseudocodigo apresentado pelo Algoritmo 1 exemplifica o roteiro

que identifica e marca a posicao dos topicos no texto da bula profissional. Este roteiro possui

as seguintes etapas: (i) inicializar a lista de variacoes de cada topico; (ii) buscar por expressao

regular pela lista de variacoes; (iii) aplicar um tratamento de texto; e (iv) realizar a marcacao do

topico.

Algoritmo 1: Algoritmo sobre as etapas do processo de segmentacao dos topicos.Entrada: Texto do medicamento e os topicos com suas as respectivas variacoesSaıda: Segmentacao dos topicos do medicamento

1 Inıcio2 textoMedicamento← texto do medicamento obtido por meio do PDF da bula;3 topico← topico do medicamento;4 variacoes← variacoes do respectivo topico;

//=[TOPIC]=[marca]5 marcaTopico← marca que referencia o respectivo topico do medicamento;

padraoBusca← expressao regular gerado por meio do topico e as variacoes deste;6 se padraoBusca encontrado no textoMedicamento entao7 retornoBusca← texto encontrado;8 qtdRetorno← quantidade de caracteres do texto encontrado;9 qtdSequencia← contador da sequencia de letras;

10 respeitouPadraoTopico← inicia com valor falso;11 Para contadorCaracter← 1 ate qtdRetorno faca12 caracter = retornoBusca[contadorCaracter]← caracter do texto

encontrado;13 se caracter for letra maiuscula entao

//incrementa o contador de sequencia14 qtdSequencia++;15 fim16 se qtdSequencia == 5 entao17 respeitouPadraoTopico← verdadeiro;18 finaliza o contador Para;19 fim20 Fim21 se respeitouPadraoTopico for verdadeiro entao22 indiceQuebraLinha← primeira quebra de linha (\r\n) do retornoBusca se

indiceQuebraLinha >−1 entao23 textoQuebra← parte do texto retornoBusca delimitado pelo

indiceQuebraLinha se padraoBusca encontrado no textoQuebra entao24 acrescenta o texto marcaTopico ao termo textoQuebra e o substitui

por todo texto pesquisado25 fim26 fim27 fim28 fim

//texto respectivamente identificado com a marcacao dotopico

29 Retorne textoMedicamento;30 Fim

Page 74: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

74

A etapa de “processamento das bulas profissionais” (visualizada na Secao 4.1.2) tem

a finalidade de retirar os textos desnecessarios, deixando apenas o conteudo de cada topico.

Este processo foi realizado por meio de variacoes identificadas pelos padroes de pesquisa por

expressao regular, que sao selecionados um a um na seguinte sequencia:

1. listagem de cada caractere do texto para verificacao de sequencia de letra maiusculas,

quando os topicos seguem este padrao, o limite definido para esta regra e de 5 caracteres

em sequencia e com letra em caixa alta ja sao identificados como topico;

2. procura pelo ındice do termo identificado na pesquisa por expressao regular, ao encontra-

lo e retornado uma parte do conteudo da bula ate o inıcio do termo achado, por meio desta

parte e pesquisado o valor do ındice ate a ultima quebra de linha;

3. por meio do ındice da quebra de linha e retornado uma nova parte do conteudo da bula,

porem agora com inıcio sendo este ındice;

4. dessa parte do conteudo e procurado um ındice de quebra de linha mais proximo para

corte do texto, assim para encontra-lo e realizado uma verificacao que so para ate satisfa-

zer esta condicao;

5. definido o termo e a sua linha de quebra, uma nova parte e criada em que realiza-se uma

limpeza de caracteres em branco do inıcio e do fim no texto;

6. a parte identificada e submetida a uma verificacao na lista de variacoes para que seja

visualizada se apesar de todo o processo o topico ainda esta contido nesta parte do texto;

7. por fim, a parte e acrescida do respectivo marcador referente ao topico pesquisado, uma

operacao de substituir texto e aplicado no conteudo do medicamento, modificando a parte

encontrada para o termo marcado.

A Figura 25 apresenta um exemplo de marcacao realizada no medicamento Fluconazol

para o topico composicao, na qual elenca-se todas as etapas realizadas pelo algoritmo desen-

volvido. Por meio do tratamento de texto da bula do Fluconazol foi possıvel a identificacao

e marcacao do respectivo topico em que utilizou-se a pesquisa por expressoes regulares para

encontrar o inıcio e termino do texto referente ao topico.

Como resultado final do processo listado, exemplificado pela Figura 25, obtem-se a

marcacao de cada topico respectivo no conteudo da bula profissional dos medicamentos do

Bulario Eletronico da ANVISA. Por este motivo, a Figura 26 mostra a marcacao de alguns

Page 75: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

75

Figura 25 – Etapas do processamento textual para identificacao dos topicos no medi-camento Fluconazol.Fonte: Autoria propria.

topicos no texto da bula do medicamento Fluconazol, a fim de demonstrar tambem o processo

realizado pelo Algoritmo 1.

Visualiza-se pela Figura 26 que os topicos presentes no texto da bula do Fluconazol

foram apresentacao, composicao e informacoes tecnicas aos profissionais de saude, em que

estes iniciam pelos prefixos em negrito marcados respectivamente por “=[TOPICO]=[INDE]”,

“=[TOPICO]=[COMP]” e “=[TOPICO]=[INFO]” (conforme Tabela 3).

Figura 26 – Marcacao dos respectivos topicos no texto da bula do medicamento Flu-conazol.Fonte: Autoria propria.

Dessa forma, o processamento textual do conteudo das bulas para identificacao de cada

topico e auxiliada pelo processo de marcacao apresentado pelo Algoritmo 1, pois estrutura os

textos dos topicos das bulas profissionais dos medicamentos encontrados no Bulario Eletronico

da ANVISA.

Page 76: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

76

4.1.3 Integracao com outras bases

Um medicamento e formado por um conjunto de farmacos e tem a finalidade de tra-

tar uma ou mais doencas. As bulas representam os remedios, em que o topico referente a

composicao, como por exemplo, apresenta o conjunto de farmacos utilizado para elaboracao do

medicamento. Porem este conjunto de farmacos e suas relacoes estao no DrugBank, que e uma

base de dados para bioinformatica e apresenta informacoes detalhadas sobre drogas (DRUG-

BANK, 2014). Ja a base SNOMED-CT padroniza e facilita a busca por termos medicos e

doencas (IHTSDO, 2014), assim podem-se associa-los ao conteudo das bulas profissionais de

medicamento.

Com a finalidade de encontrar vocabularios referentes aos farmacos e as doencas no

meio do vasto conteudo textual apresentado pelas bulas dos medicamentos foi desenvolvido um

processo de integracao de bases. Nesta etapa foram utilizadas as seguintes bases: (i) DrugBank

e (ii) SNOMED-CT (relacionado com as bases DO, CTD, ORPHANET e CID). Estas bases

possuem informacoes estruturadas com relacao aos farmacos e as doencas. Desse modo, foram

elaborados dois metodos para integracao das bulas da ANVISA com outras bases de dados: (1)

mapeamento da bula com os farmacos do DrugBank; (2) mapeamento de termos SNOMED-CT

com a bula. Os farmacos identificados foram mapeados com seus respectivos drugbank id’s

(codigo chave da base DrugBank), enquanto que as doencas sao associadas aos respectivos

concept id’s (codigo identificador dos termos utilizado pela base SNOMED-CT).

Para realizar a associacao entre os termos do Drugbank e do SNOMED-CT (com as bu-

las profissionais da ANVISA) foi necessario realizar a traducao (automatica) das informacoes

do DrugBank e do SNOMED-CT. Para isso foi utilizada a ferramenta Microsoft Translator,

que e a aplicacao de traducao da plataforma Microsoft Azure Marketplace e permite tradu-

zir 2.000.000 (dois milhoes) de caracteres por mes gratuitamente. Essa aplicacao nao possui

tempo limite para o uso do servico, possibilitando um tempo maior de teste para o processo de

desenvolvimento, alem de que a quantidade de caracteres de traducao disponibilizados de forma

gratuita foi superior a quantidade realmente utilizada pelo processo.

Apos a traducao e possıvel relacionar o conteudo dos textos dos topicos com os vo-

cabularios do DrugBank e SNOMED-CT por meio da uma pesquisa por termos na bula e as-

sim definindo os respectivos drugbank id e concept id para cada topico da bula. Essas

informacoes sao utilizadas para construir a rede de interacoes entre farmacos, doencas e medi-

camentos, exemplificada pela Figura 27.

Ressalta-se pela Figura 27 que os termos Influenza A (concept id C442696006) e

Influenza B (concept id C407480007) presentes na base SNOMED-CT estao relacionados

Page 77: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

77

Figura 27 – Exemplo de integracao das bases ao conteudo das bulas.Fonte: Autoria propria.

as doencas, e o termo respectivo ao farmaco Oseltamivir (drugbank id DB00198) constante

na base DrugBank foram retirados do conteudo da bula profissional do medicamento Tami-

flu, disponibilizado pela empresa Produtos Roche Quımicos e Farmaceuticos S/A. A Figura 28

apresenta o texto da bula profissional com destaque em azul para os respectivos termos iden-

tificados pela integracao das bases DrugBank e SNOMED-CT junto ao Bulario Eletronico da

ANVISA.

Figura 28 – Termos relativos as doencas Influenza A e Influenza B, como tambem aofarmaco Oseltamivir presente na bula profissional do medicamento Tamiflu.Fonte: Adaptado de (ANVISA, 2013).

A fim de ampliar o vocabularios de termos utilizados para pesquisa no conteudo dos

topicos das bulas profissionais, outras bases foram integradas ao sistema desenvolvido. As

outras bases utilizadas foram DO2, CTD3, Orphanet4 e a CID5 publicada pela Organizacao

Mundial de Saude6 (OMS). As Tabelas 4 e 5 organizam os bancos pela lıngua que sao disponi-

bilizados e apresentam uma sıntese de cada base integrada no trabalho.

2htt p : //disease−ontology.org/3htt p : //ctdbase.org/4htt p : //www.orpha.net/consor/cgi−bin/index.php5htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm6htt p : //www.who.int/eportuguese/publications/pt/

Page 78: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

78

Tabela 4 – Listagem das bases integradas em Lıngua Inglesa.Nome Descricao

DrugBankCombina dados detalhados sobre drogas, informacoes

quımicas, farmacologicas e farmaceuticas.

SNOMED-CT - UMLS

Colecao de termos medicos que fornecem codigos, termossinonimos e definicoes sobre anatomia, doencas,

descobertas, procedimentos, microrganismos, substancias,entre outros.

DOOntologias de variados termos de doencas que sao

semelhantes e/ou hierarquizados.

CTD

Base de dados que explora informacoes sobre exposicoesambientais que afetam a saude humana, fornece dadoscurados manualmente sobre interacoes genes, doencas,

farmacos e respectivos relacionamentos entre eles.Fonte: Autoria propria.

Tabela 5 – Listagem das bases integradas em Lıngua Portuguesa.Nome Descricao

OrphanetConsorcio formado pela Uniao Europeia e outros paıses

que disponibiliza uma base de doencas raras emedicamentos.

CID - OMS

Conjunto de codigos relativos a classificacao de doencas ede uma variedade de sinais, sintomas, aspectos anormais,

queixas, circunstancias sociais e causas externas paraferimentos ou doencas.

Fonte: Autoria propria.

Entre as bases apresentadas nas Tabelas 4 e 5, destaca-se o uso das doencas disponi-

bilizadas pelo Orphanet e CID que foram utilizados pelo roteiro desenvolvido responsavel por

encontrar medicamentos indicados a determinadas doencas. A escolha destas bases ocorreu

principalmente pela publicacao das informacoes em Lıngua Portuguesa, algo que facilitou a

analise da vinculacao dos registros para validacao da eficacia do roteiro.

Ja as bases DO e CTD integradas sao disponibilizadas em Lıngua Inglesa (ver Tabela 4)

e estruturam informacoes sobre interacoes de genes, sequenciamento do genoma, proteınas

terapeuticas, entre outras. So o uso de termos em Lıngua Inglesa ja encarece o processamento

de inferir termos de doencas nas bulas medicas, pois ha necessidade de traducao dos termos

e validacao desses. Este processo ja e conhecido pelo trabalho relacionado ao uso da base

DrugBank e SNOMED-CT.

Detalha-se uso da base do SNOMED-CT para solucao do problema de inferir termos

no conteudo das bulas, pois imagina-se que em uma determinada bula existe o seguinte texto

“contraindicado para pacientes com problemas cardıacos”, problemas cardıacos e um termo ge-

ral quando comparado a diferentes termos mais especıficos como infarto do miocardio, tumor

Page 79: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

79

cardıaco, estenose mitral, angina estavel, entre outros. Para identificacao destes termos foi so-

lucionado por meio do uso de ontologias medicas implementadas pelos registros do SNOMED-

CT relacionado os termos de doencas das bases DO, CTD, ORPHANET e CID.

Por meio das ontologias pode-se pesquisar diferentes termos entre as bulas que po-

dem ser sinonimos ou ter influencia sobre uma mesma contraindicacao, indicacao e ate mesmo

reacao adversa, o que pode ser visto pelo projeto DO (SCHRIML et al., 2012), na qual os au-

tores criam uma estrutura unica para classificacao de doencas a fim de unificar a representacao

da doenca entre muitas e variadas terminologias e vocabularios, juntamente com as relacoes

existente entre as doencas.

Como, por exemplo, imagine uma determinada bula em que sua indicacao e pres-

crita para melhorar a sobrevida apos infarto do miocardio em pacientes clinicamente estaveis.

Porem este medicamento e contraindicado seu uso concomitante e frequente a um outro medi-

camento que deve ser usado com cautela em pessoas com doencas cardiovasculares. Desse

modo, entende-se que infarto do miocardio e uma doenca cardiovascular o que resulta na

contraindicacao do uso concomitante destes medicamentos exemplificados. A ontologia para

doencas visa fornecer uma definicao clara para cada doenca dentro de uma baseada classificacao

etiologica dessa (SCHRIML et al., 2012).

4.1.3.1 Roteiro para identificacao dos farmacos

No topico “composicao”, verificam-se dois tipos de substancias: (i) princıpios ati-

vos - PA; (ii) excipiente - EXP. Entende-se pelo princıpio ativo o principal farmaco utilizado

na composicao do medicamento, esse responsavel pelo efeito farmacologico do remedio. Os

excipientes sao substancias utilizadas como veıculo para o princıpio ativo (BIGUETTI; AN-

DRADE, 2014). E possıvel encontrar substancias que sao farmacos na lista de produtos excipi-

entes, mas, em geral, essas substancias (por exemplo, farinha) nao sao farmacos.

O roteiro de identificacao de farmacos foi desenvolvido para analisar o conteudo do

texto referente a composicao do medicamento para identificar aqueles que sao princıpio ativo

ou excipiente. O Algoritmo 2 apresenta o pseudocodigo das etapas que o roteiro realiza para

identificacao dos farmacos, que sao: (i) leitura do conteudo da composicao do medicamento

realizado pela quebra de linha do texto (\r\n); (ii) pesquisa por princıpio ativo e excipiente de-

terminada por respectivos termos que indicam a qual tipo o termo identificado sera vinculado;

(iii) tratamento no termo encontrado para evitar retornar palavras que sao utilizadas apenas na

escrita do texto e nao representam um farmaco necessariamente; (iv) procurar o termo iden-

tificado nas drogas da base DrugBank, traducao da droga e dos sinonimos para pesquisa nos

Page 80: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

80

termos; e (v) criar arquivo texto com o mapeamento dos termos identificados com seus respec-

tivos tipos e codigo identificador do DrugBank caso seja encontrado.

Figura 29 – Exemplo ilustrativo do resultado da identificacao dos farmacos no medi-camento Lotanol.Fonte: Autoria propria.

A Figura 29 apresenta um exemplo do processo de identificacao de farmacos realizada

no topico composicao do medicamento Lotanol, em que elenca-se todas as etapas realizadas.

Destaca-se pela Figura 29 a presenca do marcador =[COMP] em vermelho que indica o inıcio

do texto referente a composicao da bula, em que todo o conteudo e separado por meio das

quebras de linhas (\r\n).

O roteiro desenvolvido realiza a leitura linha a linha ate encontrar palavras que indicam

inıcio de um prıncipio ativo ou excipiente, que respectivamente estao exemplicados na figura

pela palavra “CONTEM” na cor azul e “EXCIPIENTES” na cor laranja, e limitados pelos ca-

racteres “....” sombreado em amarelo, quando identificado um prıncipio ativo, e para excipiente

delimitado pelo conjunto de caracteres “:”, “,”, “\” e “E” apresentada na cor roxa. A Tabela 6

apresenta os padroes encontrados por meio da analise realizada no texto das composicoes das

bulas, responsavel por identificar somente os termos referentes aos farmacos.

Detalha-se pela Tabela 6 que a coluna respectiva a palavras quebras serve para encon-

trar parametros de recorte de conteudo no texto, ou seja, tem a finalidade de encontrar palavras

Page 81: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

81

Algoritmo 2: Algoritmo referente as etapas do processo de identificacao dos farmacos.Entrada: Texto do topico composicao da bula medicaSaıda: Identificacao dos termos referentes a princıpio ativo e excipiente

1 Inıcio2 textoComposicao← texto do topico composicao identificado na bula;3 linhas← textoComposicao dividido pelas quebras de linha (\r\n);4 totalLinhas← quantidade de linhas divididas;5 termos← lista com os termos identificados, separados pelas propriedades PA e EXP;6 conter← lista: CONTEM e CONTEM;7 quebrasPA← lista: ..., . . . ., -;8 quebraFimPA← valor: MG de;9 encontrouPA← f also;//salva se encontrou princıpio ativo

10 excipiente← lista: EXCIPIENTES, EXCIPIENTE, VEICULOS e VEICULO;11 quebrasEXP← lista: ,, :, (, ), CADA, *, E, +;12 quebraFimEXP← valor: CADA;13 marcarEXP← f also;//salva para marcar excipiente14 Para contadorLinha← 1 ate totalLinhas faca15 linha← linhas[contadorLinha];16 indice← variavel utilizada para armazenar posicao de recorte no texto;17 se nao encontrouPA entao18 encontrouPA← verifica se algo da lista conter acha em linha;19 encontrouEXP← se marcarEXP ou algo da lista excipiente acha em linha;20 se encontrouPA entao21 indice← posicao da letra do item de quebrasPA acha em linha;22 se indice >−1 e nao encontrouEXP entao23 linha← recorte do texto de linha na posicao de indice;24 tratar linha e salva-lo em lista termos com PA;25 fim26 se encontrouEXP entao27 encontrouPA← f also;28 indice← posicao da letra do item quebrasEXP acha em linha;29 se indice >−1 entao30 marcarEXP← verdadeiro;31 fim32 fim33 se indice ==−1 e nao PA em termos entao34 valor← divide linha por , ate quebraFimAP;35 se encontrou valor entao36 tratar valor e salva-lo em lista termos com PA;37 fim38 fim39 fim40 fim41 leitura linha ate quebraFimEXP e para salvar termos em lista termos com EXP;42 pesquisa dos termos na base DrugBank para possıvel vinculacao entre bases;43 Fim44 Retorne termos;//termos identificados

45 Fim

Page 82: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

82

Tabela 6 – Padroes para identificar farmacos nas bulas.Tipo Palavras quebras Caracteres

Princıpio ativo CONTEM, CONTEM ..., . . . ., -, MG de

ExcipienteEXCIPIENTES,

EXCIPIENTE, VEICULOS,VEICULO

,, :, (, ), CADA, *, E, +

Fonte: Autoria propria.

que aparecem antes do farmaco. Encontrar o item da linha que apresenta algumas destas pa-

lavras significa que ela podera ser princıpio ativo ou se trata de um excipiente. Ja a coluna

referente aos caracteres, sao padroes responsaveis para verificar o fim do farmaco e ate mesmo

divisao de farmacos que aparecem juntos em um item da lista.

Por fim, entende-se pela Figura 29 que os valores sombreados em cinza representam os

termos identificados no texto como princıpio ativo e excipente, desta maneira exclui-se palavras

que nao sao necessarias para identificacao dos farmacos na base DrugBank.

4.1.3.2 Roteiro para buscar os termos medicos referentes as doencas

A base SNOMED-CT disponibilizou varios termos relacionados as doencas, porem

estes termos nao estavam organizados conforme a CID, nem possuiam sinonimos de doencas

e a organizacao de informacoes disponibilizadas pelas bases DO, CTD e ORPHANET. Os vo-

cabularios de doencas das bases DO, CTD, ORPHANET e CID foram relacionados com os

termos ja presentes no SNOMED-CT, a fim de formalizar a classificacao de doencas e ampliar

os termos relacionados a essas, assim contribuindo para integracao da bula com os registros de

doencas.

Para ampliar o vocabulario disponıvel na base SNOMED-CT foi realizado um relacio-

namento para integrar novas informacoes constantes nas bases DO, CTD, ORPHANET e CID.

Esta integracao ocorreu por meio dos seguintes processos:

1. os termos da base DO foram relacionados com a base SNOMED-CT por meio do codigo

identificador concept id presente em ambas as bases. A base DO disponibiliza as

ontologias referente ao vocabulario de doencas;

2. a relacao das informacoes presentes na base CTD foi relacionada por meio do codigo

identificador da base MeSH que esta presente na base DO ja relacionada com a base

SNOMED-CT. A base CTD agrega varios termos relacionados as doencas e tambem

apresenta registros que relacionam doencas com farmacos, esses identificados pelo codigo

drugbank id respectivo da base DrugBank;

Page 83: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

83

3. a base CID organiza os termos de doencas conforme uma classificacao conhecida pela

area de saude, alem de disponibilizar informacoes em Lıngua Portuguesa. O banco de da-

dos do SNOMED-CT possui o respectivo codigo da CID mas nao organiza as informacoes

por capıtulos, grupos e doencas do mesmo jeito a base CID apresenta;

4. a base ORPHANET disponibiliza termos de doencas em Lıngua Portuguesa e organiza

sinonimos de variadas doencas. Essa base e relacionada com a base SNOMED-CT por

meio do respectivo codigo CID, presente em ambas as bases.

Para integrar os termos medicos do SNOMED-CT foi necessario utilizar uma ferra-

menta de traducao, pois os termos constantes nesta base se encontravam em lıngua inglesa o

que dificultava sua vinculacao com o texto as bulas.

Apos a traducao dos termos foi realizada uma etapa para tratamento destes junto a

busca nos topicos das bulas. Para o tratamento da busca foi utilizado o Sentence breaker e Stop-

words7 da Lıngua Portuguesa, assim, foi responsavel pela segmentacao e remocao de palavras

desnecessarias de todo o texto da bula. Por fim, tem-se a busca destes termos medicos com

os topicos dos medicamentos, que ao serem encontrados, neste texto, foram mapeados aos

respectivos concept id’s.

4.1.4 Desenvolvimento do banco de dados baseado em grafo

A informacao em relacao ao mapeamento dos termos medicos concept id e ao

mapeamento dos drugbank id foram armazenadas num banco de dados baseado em grafos.

O gerenciador de banco de dados escolhido para esta tarefa foi o Neo4j.

Para visualizar os remedios e suas relacoes foi escolhida uma ferramenta disponibili-

zada pelo proprio Neo4j que apresenta o resultado das consultas em grafo. A estruturacao do

grafo Neo4j e composta por nos e arestas que sao apresentados na Figura 30 e descritas como:

• nos: representam os elementos utilizados como fontes de informacoes para o sistema

desenvolvido. Definidos como:

1. empresas: industrias farmaceuticas responsaveis pela elaboracao dos medicamen-

tos;

2. medicamentos: bula profissional encontrada no Bulario Eletronico da ANVISA;

7htt p : //www.ranks.nl/stopwords/portugese

Page 84: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

84

3. farmacos: termos de farmacos identificados pelo drugbank id da base Drug-

Bank;

4. doencas: termos de doencas identificados pelo concept id da base SNOMED-

CT.

• arestas: simbolizam as relacoes estabelecidas entre os nos, representadas como:

1. fornece: relacao estabelecida entre as empresas e os medicamentos disponibilizados

por essas. Por exemplo, o medicamento Kolantyl fornecido pela empresa Medley

Industria Farmaceutica Ltda.;

2. interacoes: interacoes entre os farmacos do DrugBank. Como o farmaco Phenobar-

bital (drugbank id DB01174) que possui interacao com o Dextroamphetamine

(drugbank id DB01576);

3. pertence: classificacao entre doencas que representam as ontologias medicas do

SNOMED-CT. Como a doenca Pneumonia (concept id C0032285) pertencente

ao conjunto de doencas abrangidas por Respiratory System Disease (concept id

C0029582);

4. semelhante: semelhancas encontradas entre os significados dos termos de doencas

do SNOMED-CT. Como por exemplo, os sinonimos Loeffler’s pneumonia e Lof-

fler’s syndrome encontrados na doenca Loeffler syndrome (concept idC0242459);

5. indicacoes: informa o objetivo terapeutico do medicamento, ou seja, indica que o

remedio e destinado para o tratamento, diagnostico, auxılio ou prevencao de de-

terminadas doencas. Como o medicamento Eranz, fornecido pela empresa Wyeth

Industria Farmaceutica Ltda., que e indicado para tratamento de Alzheimer’s disease

(concept id C0002395);

6. composicao: descreve os farmacos que sao utilizados como prıncipio ativo defini-

dos na formula do medicamento, tambem apresenta a composicao dos excipientes.

Como o farmaco Carbamazepine (drugbank id DB00564) presente no topico

composicao do medicamento Carbamazepina, disponibilizado pela empresa Uniao

Quımica Farmaceutica Nacional S/A;

7. resultados de eficacia: informa sobre o resultado do grupo tratado pelo medica-

mento com referencias bibliograficas, assim apresenta maior visualizacao da re-

levancia do tratamento deste remedio. Por exemplo, o medicamento Glimepirida

da empresa farmaceutica EMS S/A possui resultados de eficacia para a doenca Dia-

betes mellitus (concept id C0011849);

Page 85: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

85

8. contraindicacoes: condicao relativa a uma doenca, a um farmaco ou a uma interacao

medicamentosa, que implique a nao utilizacao do medicamento. Por exemplo, o me-

dicamento Kolantyl , disponibilizado pela empresa Medley Industria Farmaceutica

Ltda., que e contraindicado para pacientes com Alzheimer’s disease (concept id

C0002395);

9. interacoes medicamentosas: respostas farmacologicas ou clınicas causadas pelas

interacoes entre medicamentos com outros que sao encontrados nas bulas, farmacos

ou doencas, cujo resultado final pode ser a alteracao dos efeitos desejados ou a

ocorrencia de eventos adversos. Por exemplo, o medicamento Yomax da Apsen

Farmaceutica S/A que possui interacoes medicamentosas com o farmaco Carbama-

zepine (drugbank id DB00564);

10. advertencias e precaucoes: instrui sobre medidas antecipadas ou avisos que favo-

recem o uso correto do medicamento, ou seja, previne agravos a saude e que possam

indicar a limitacao do uso do remedio, porem que nao o contra-indique. Por exem-

plo, o medicamento Mud Oral, disponibilizado pela Eurofarma Laboratorios S/A,

que possui advertencias e precaucoes para pacientes com a doenca Tuberculosis

(concept id C0041295);

11. reacoes adversas: qualquer resposta a um medicamento que seja prejudicial, nao-

intencional que altere o tratamento de doencas ou modifique uma funcao fisiologica

do remedio. Como o medicamento Dacarbazina, fornecido pelo Laboratorio Quımico

Farmaceutico Bergamo Ltda. tem reacoes adversas com o farmaco Phenobarbital

(drugbank id DB01174).

Page 86: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

86

Figura 30 – Estrutura do grafo apresentando as relacoes entre medicamento geradapela ferramenta de consulta do Neo4j.Fonte: Autoria propria.

Page 87: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

87

A base Neo4j facilita a busca de medicamentos, pois possibilita a pesquisa de remedios

por meio de farmacos, por exemplo, os remedios que possuem um determinado farmaco em

sua composicao, ou de doencas, como, os remedios que sao indicados para o tratamento de

uma certa doenca. O Neo4j viabiliza tambem consultas por medicamentos que sejam rela-

cionados a um conjunto de doencas, como por exemplo, medicamentos contraindicados para

pacientes em tratamento de doencas cardıacas. Esta base concede aos profissionais da area

de saude informacoes detalhadas sobre os medicamentos, como doencas que o medicamento e

contraindicado, farmacos que causem reacoes adversas, advertencias e precaucoes, e interacoes

medicamentosas a outros remedios.

Figura 31 – Exemplo do banco de dados em grafos gerada pela ferramenta de consultaNeo4j.Fonte: Autoria propria.

Dessa forma, um remedio e composto por farmacos (termos DrugBank) e trata um

conjunto de doencas (termos SNOMED-CT), alem de que ha farmacos que interagem com

outros farmacos, como tambem medicamentos nao indicados para tratamento de certas doencas.

A Figura 31 mostra como as informacoes entre as bulas estao interligadas e apresenta o retorno

de uma consulta no Neo4j que foi desenvolvida pelos dados processados nas etapas anteriores.

Para exemplificar o funcionamento do sistema, foi realizada uma consulta sobre me-

dicamentos, farmacos e doencas. Na Figura 31 e possıvel perceber que o medicamento Para-

cetamol e composto pelo farmaco Paracetamol, mesmo farmaco que possui interacao com o

medicamento Varfarina Sodica, por este motivo entende-se que o uso concomitante de Para-

cetamol e Varfarina Sodica possui interacao medicamentosa. Estas interacoes podem trazer a

perda de eficacia de algum composto, agravamento de alguma doenca, entre outros possıveis

problemas (SEAN, 2002).

O Cypher e a linguagem de consulta inspirada no SQL para descrever padroes em gra-

Page 88: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

88

fos utilizada no Neo4j. Ele permite descrever o que usuario deseja selecionar, inserir, atualizar

ou excluir de um banco de dados em grafo do Neo4j sem a necessidade de descrever exata-

mente como faze-lo (NEO4J, 2014). Dessa forma, entende-se que a linguagem Cypher auxilia

nas pesquisas realizadas no banco de dados do Neo4j, pois colabora com a simplificacao de

comandos e rotinas complexas encontradas nesta base.

Tabela 7 – Exemplos de como pode ser utilizada a linguagem Cypher.Pergunta Consulta em Cypher

Ao utilizar o medicamento Euphyllin,quais os medicamentos possuem

contraindicacao a composicao destemedicamento?

MATCH (med:Medicamento{Nome:”EUPHYLLIN”})-[:‘COMPOSICAO‘]-¿(m)¡-

[:‘CONTRAINDICACAO‘]-(contraMeds)RETURN contraMeds

Todos os medicamentos que possuemrelacao com um determinado elemento,

por exemplo Anfetamina?

MATCH(med:Medicamento)-[relacaoCom]-(:Elemento{Conteudo: ”ANFETAMINA”}) RETURN

med, Type(relatedTo), relacaoCom

Todos os medicamentos que saocontraindicados a um determinado

elemento, por exemplo Anfetamina?

MATCH(med:Medicamento)-[relacaoCom]-(:Elemento{Conteudo: ”ANFETAMINA”}) WHERE

Type(relatedTo) =”CONTRAINDICACAO”RETURN med,

Type(relacaoCom), relatedToFonte: Autoria propria.

Algumas perguntas foram realizadas e as respectivas respostas foram exemplificadas

por meio da linguagem Cypher. Os exemplos destas consultas sao visualizadas na Tabela 7 que

apresenta na primeira coluna a pergunta interessada e a segunda coluna demonstra a consulta

Cypher desenvolvida com relacao a pergunta que foi inferida na base Neo4j.

4.2 INTEGRACAO DO BULARIO ELETRONICO DA ANVISA COM AS BASES DRUG-

BANK E SNOMED-CT

O Bulario Eletronico (NEVES et al., 2006) e um importante recurso de informacao,

pois por este sistema sao apresentados os medicamentos comercializados no Brasil, que sao

de interesse dos profissionais da saude pois sao remedios regulamentados pela ANVISA. Pelo

Bulario Eletronico da ANVISA sao disponibilizados um conjunto de arquivos em formato PDF

das bulas com informacoes atualizadas e controladas por esta autarquia federal vinculada ao

MS (BRASIL, 1999). As bulas profissionais sao fontes de informacoes importantes para o

sistema desenvolvido, pois trazem dados completos e atualizados dos medicamentos para os

profissionais da area de saude com a seguranca que a ANVISA proporciona (ANVISA, 2009).

Page 89: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

89

Porem, os arquivos PDF das bulas profissionais nao estao estruturados, assim, para

que as informacoes do Bulario Eletronico da ANVISA sejam normalizadas ha a necessidade de

outras fontes de informacoes estruturadas que contribuam para a integracao desses dados.

Dessa forma, destaca-se a base DrugBank (WISHART et al., 2008), banco de da-

dos sobre farmacos aprovados e nao aprovados pela FDA (FDA, 2015). Esta base apresenta

informacoes farmacologicas detalhadas sobre cada farmaco e tambem as interacoes entre ou-

tros farmacos ou alimentos. O DrugBank normaliza termos que sao encontrados nas bulas dos

medicamentos, cujas estruturas sao elaboradas utilizando um conjunto de farmacos.

Outra fonte importante de dados e disponibilizada pela base SNOMED-CT (COTE;

PATHOLOGISTS; ASSOCIATION, 1993), que possui uma lista de procedimentos medicos,

doencas e suas classificacoes. A base fornece um vasto vocabulario de termos relacionados as

doencas, assim, disponibiliza os dados em ontologias medicas que sao encontradas nos topicos

do conteudo da bula profissional.

As informacoes estruturadas disponibilizadas pelo DrugBank e SNOMED-CT propor-

cionam uma facilidade na pesquisa pelos termos organizados por estas bases. Em ambas as

bases sao fornecidos vocabularios especıficos que estao presentes no texto da bula profissional

encontrada no Bulario Eletronico, ou seja, elas possibilitam a normalizacao dos arquivos PDF

das bulas da ANVISA.

Nesse contexto, a integracao do Bulario Eletronico da ANVISA com as bases Drug-

Bank e SNOMED-CT ocorre primeiramente pelo processamento dos arquivos PDF das bulas

profissionais, assim, facilita o tratamento do texto para padronizacao das informacoes obtidas

destes medicamentos.

Logo em seguida, organizam-se as informacoes processadas dos arquivos PDF em

topicos, que sao utilizados para redacao da bula presente em normas da Resolucao-RDC No

47 (ANVISA, 2009). Os topicos das bulas descrevem em textos as caracterısticas dos medi-

camentos, como o tratamento indicado, a composicao do remedio e tambem a contraindicacao

desse. E por meio da organizacao destes textos dos topicos que sao vinculados os vocabularios

presentes nas bases DrugBank e SNOMED-CT. Termos relacionados aos farmacos e as doencas

sao pesquisados nos topicos dos medicamentos a fim de estruturar os dados da bula profissional

com estas bases.

As relacoes obtidas por meio dos topicos das bulas profissionais com as bases Drug-

Bank e SNOMED-CT foram armazenadas em um banco de dados baseado em grafo por meio da

tecnologia Neo4j (NEO4J, 2014). A base Neo4j criada disponibilizou uma rede de medicamento-

farmaco-doenca, em que as informacoes estruturadas desta base fornecem pesquisas que facili-

Page 90: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

90

tam a busca de medicamentos por farmacos ou doencas e apresentam informacoes relacionadas

a outros medicamentos, doencas ou farmacos.

4.3 INFRAESTRUTURA UTILIZADA PARA O FACIL BULA

Pelo desenvolvimento do banco de dados baseado em grafo do Neo4j realizado a par-

tir da estruturacao das informacoes disponibilizadas pelas bulas profissionais encontradas no

Bulario Eletronico, juntamente com a integracao entre outras bases de farmacos e doencas, foi

suficiente para disponibilizacao de ferramentas que facilitassem a pesquisa por medicamentos.

Desse modo, o website Facil Bula8 foi criado com o objetivo de desenvolver ferramentas que

auxiliem no trabalho dos profissionais de saude e facilitem a apresentacao de informacoes dos

medicamentos para os pacientes.

O Facil Bula permite uma pesquisa por nome do medicamento e pela empresa res-

ponsavel, a pesquisa por nome do remedio e facilitada por meio de um campo aberto com

autocomplete. A pesquisa ignora acentos e tambem se o nome do medicamento esta em letras

maiusculas ou minusculas, nao ha a necessidade de escrever o nome completo do remedio, basta

informar uma pequena parte do texto para que a pesquisa seja realizada.

A apresentacao do conteudo da bula disponibilizada pelo Facil Bula facilita a pesquisa

por informacoes especıficas de interesses dos profissionais e pacientes, pois organiza todo o

texto da bula em topicos definidos pela Resolucao-RDC No 47 (ANVISA, 2009). Na mesma

pagina referente aos detalhes do medicamento sao apresentadas informacoes como nome do

medicamento, empresa responsavel, data de publicacao e acesso para as duas versoes (paciente

e profissional) de bulas disponıveis em PDF.

A Figura 32 apresenta a organizacao das informacoes do medicamento Atrovex9, dis-

ponibilizado pela Medquımica Industria Farmaceutica S/A, encontrada no website Facil Bula.

Nota-se que a apresentacao do medicamento publicada pelo Facil Bula proporciona melhor usa-

bilidade do que o modo de visualizacao do Bulario Eletronico da ANVISA (ver Figura 23), pois

pelo sistema desenvolvido o profissional ou o paciente nao tem necessidade de abrir o PDF e

pesquisar as informacoes de dentro deste arquivo, basta que ele navegue pela opcao de versao

da bula desejada e escolha os respectivos topicos de seu interesse.

Para o desenvolvimento do website Facil Bula foi utilizada a plataforma ASP.NET

MVC (model-view-controller) e a linguagem de programacao C# (C Sharp), juntamente com

a IDE Visual Studio 2013, da Microsoft, devidamente licenciada para uso. A organizacao dos8htt p : //www. f acilbula.com.br/9htt p : //www. f acilbula.com.br/medicamento/561/atrovex

Page 91: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

91

Figura 32 – Detalhes do medicamento Atrovex disponibilizado pelo website Facil Bula.Fonte: Autoria propria.

topicos fornecida pelo processamento das bulas foi armazenada no banco de dados relacional

MySQL.

Como hospedagem para o sistema desenvolvido foi utilizada a infraestrutura forne-

cida pela Amazon Web Services10 (AWS). A AWS possui uma estrutura totalmente escalavel e

fornece um conjunto de servicos de computacao remotos oferecidos pela internet que formam

uma plataforma de computacao em nuvem (AWS, 2015). Os servicos utilizados para gerir a

infraestrutura do Facil Bula sao:

• Amazon EC2: fornece acesso para instancias de servidores, permite que sejam criadas

varias imagens de servidores pelos usuarios. No projeto foi utilizada uma instancia Win-

dows Server para instalacao do Internet Information Services (IIS) responsavel por hos-

pedar o website e configuracao do Elastic IP da AWS para que a instancia tivesse um IP

fixo, assim facilitando as configuracoes de DNS e rotas para o site;

• Amazon S3: permite armazenar grandes quantidades de dados, que no projeto foi utili-

zado para armazenar os arquivos PDF das bulas da ANVISA;

• Amazon RDS: e um servico de banco de dados que fornece acesso ao MySQL. Base

relacional utilizada para armazenar todas as informacoes dos medicamentos e o resultado

10htt p : //aws.amazon.com/pt/

Page 92: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

92

do processamento destes;

• Amazon Route 53: e um servico web de Domain Name System (DNS). Este servico

conecta as solicitacoes de usuarios a instancia Windows Server do Amazon EC2 com

IIS que hospeda o website Facil Bula.

Desde a primeira versao publicada do website Facil Bula a ferramenta Google Analy-

tics11 ja havia sido configurada. Esta ferramenta e responsavel por colher informacoes relacio-

nadas a navegacao dos usuarios, termos de pesquisa utilizados, local, tempo e forma de acesso,

tecnologia usada, entre outras, sobre o sıtio da web ou aplicativo associado.

As metricas geradas pelo Google Analytics sao importantes para o desenvolvimento

das paginas do Facil Bula, pois durante toda a programacao do site algumas tecnicas de Search

Engine Optimization (SEO) foram analisadas e aplicas, como Uniform Resource Locator (URL)

amigavel, estruturacao do HTML, uso de meta tags, entre outras praticas que contribuem para

a elevacao do numero de acessos relacionados com a pesquisa organica dos motores de buscas,

como Google, Bing e Yahoo.

11htt ps : //www.google.com/analytics/

Page 93: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

93

5 RESULTADOS E DISCUSSAO

Este capıtulo descreve os resultados obtidos por meio do processamento realizado no

texto das bulas profissionais do Bulario Eletronico da ANVISA e a integracao desses com os ter-

mos relacionados aos farmacos do DrugBank e doencas do SNOMED-CT. Apresenta tambem

os registros encontrados nas bases DO, CTD, ORPHANET e CID utilizados para auxılio na

classificacao de doencas e no vocabulario de sinonimos dessas. Outros resultados listam-se por:

• conjunto e integracao de dados responsaveis pela criacao de uma base de dados baseada

em grafos, utilizando a tecnologia fornecida pelo Neo4j;

• exemplos de consultas inferidas na base Neo4j utilizando a linguagem Cypher;

• implementacao do website Facil Bula, juntamente com a analise de acessos desse, a

disponibilizacao de ferramentas e o aplicativo mobile desenvolvido;

• processo de incubacao do Facil Bula no Hotel Tecnologico da Incubadora de Inovacoes

da Universidade Tecnologica (IUT).

Alem destes resultados, o trabalho tambem apresenta resultados de carater social, pois

o projeto desenvolvido contribui com o trabalho do profissional da area de saude e disponibiliza

informacoes importantes para os pacientes. Neste contexto, estas pessoas poderao consultar

se um determinado medicamento pode ser prescrito juntamente com outros, dadas as restricoes

informadas sobre a situacao de cada tratamento, desse modo, auxilia o trabalho destes profissio-

nais para tomada de decisao. Aperfeicoara, assim, os custos com tratamento de saude e mitigara

as possıveis interacoes entre medicamentos que gerem reacoes adversas, alergias, agravamento

de doencas ja existentes, que causem intoxicacoes, podendo ate levar a morte.

A tecnologia empenhada neste projeto se resume na utilizacao de fontes de dados nao

estruturados de medicamentos da ANVISA, que passam por um processo de organizacao de

informacao e identificacao de termos relevantes, a fim de estruturar este processo em banco de

dados baseado em grafo, visto que os medicamentos possuem informacoes interligadas entre o

texto de cada bula medica, com isto foi possıvel obter os resultados apresentados.

5.1 CONJUNTO DE DADOS

Foram obtidos do banco de dados DrugBank 7.758 farmacos, com um total de 13.367

sinonimos e 24.059 registros de interacoes entre eles. Do SNOMED-CT foram adquiridos

Page 94: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

94

1.521.854 termos medicos, processos cirurgicos, doencas entre outros textos relacionados a

saude, em que estes termos estao interligados em 4.658.377 relacoes apresentadas por esta

base. Ja na base DO foram encontrados 8.782 doencas, com 16.756 sinonimos. A estrutura do

CID contabilizou 22 capıtulos, 276 grupos de doencas e 12.489 termos relacionados a doencas.

Ja a base ORPHANET classificou 12.034 termos relacionados a doencas e seus respectivos

sinonimos em Lıngua Portuguesa. Por fim, pela base CTD foram mapeados 13.749 relacoes

farmaco-doenca.

Todos estes registros foram obtidos respectivamente pelo download das bases de dados

realizado entre os meses de janeiro ate maio de 2015. Os termos identificados nestas bases

foram utilizados para formar os vocabularios direcionados para identificacao de farmacos e

doencas.

Por meio do Bulario Eletronico da ANVISA foram adquiridos 6.961 arquivos PDF

das bulas profissionais. Estas bulas foram processadas e relacionadas aos termos de farmacos e

doencas obtidos dos bancos de dados que foram integrados para desenvolvimento de uma base

baseada em grafos, chamada Neo4j, em que foi possıvel demonstrar a rede entre medicamentos-

farmacos-doencas.

Pelo processo de elaboracao da base no Neo4j destaca-se a quantidade de relacoes

realizadas entre medicamentos, farmacos e doencas, totalizando 74.026 associacoes que sao

distribuıdas entre os seguintes topicos das bulas profissionais: composicao, indicacoes, ad-

vertencias e precaucoes, contraindicacoes, interacoes medicamentosas e resultados de eficacia.

A distribuicao destes valores e visualizada na Tabela 8 que apresenta os topicos das bulas pro-

fissionais e a quantidade de relacoes identificadas respectivamente divididas entre termos de

farmacos e doencas.

Tabela 8 – Lista com a quantidade de relacoes identificadas com medicamentos entre farmacos edoencas inferidas na base Neo4j.

Topico Relacao Farmaco DoencaComposicao 14.917 14.486 431Indicacoes 27.242 713 26.529

Advertencias eprecaucoes

4.085 371 3.714

Contraindicacoes 11.726 1.309 10.417Interacoes

medicamentosas5.659 3.639 2.020

Resultados de eficacia 3.970 1.197 2.773Fonte: Autoria propria.

Na Tabela 8, visualiza-se que o topico composicao da bula profissional deveria ser

composto apenas com informacoes relacionadas aos farmacos, porem dos 14.917 relaciona-

Page 95: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

95

mentos identificados, 431 desses foram encontrados em termos que dizem respeito a doencas.

Tambem mostra-se pelo topico indicacoes, que diz respeito ao tratamento de doencas que o

medicamento esta associado, das 27.242 relacoes encontrados, 713 foram relacionadas com

termos de farmacos. Desse modo, entende-se que ha termos de farmacos que sao similares ao

vocabulario de doencas, igualmente como ha doencas que tambem estao constantes nos termos

relacionados aos farmacos.

5.2 EXEMPLOS DE CONSULTAS AO BANCO EM GRAFOS

Para testar a base de dados baseada em grafos do Neo4j, que foi desenvolvida para

relacionar as bulas profissionais com termos de farmacos e doencas, foram analisadas e elabo-

radas algumas perguntas. Estas perguntas tinham o objetivo de verificar a eficacia do modelo

criado, em que as respectivas respostas destas questoes foram obtidas por meio de consultas

realizadas na base Neo4j. As consultas foram elaborados pela linguagem Cypher que tem ca-

racterısticas diferentes de uma linguagem de consulta estruturada, porem quando comparada

com o formato de uma consulta em sintaxe SQL de um banco relacional se mostrou de facil

compreensao (NEO4J, 2014).

Para ilustrar algumas das funcionalidades do sistema, juntamente com as consultas

inferidas por meio da linguagem Cypher, algumas perguntas foram realizadas e os respectivos

exemplos serao descritos a seguir:

1. Quais medicamentos sao indicados para tratamento da doenca de Alzheimer?;

2. A qual tipo de doencas o Alzheimer pertence?;

3. Quais medicamentos possuem aspirina em sua composicao?;

4. Quais medicamentos possuem aspirina em sua composicao, porem sao contraindicados a

pacientes com insuficiencia renal?.

Com base na primeira pergunta foi elaborada a consulta em linguagem Cypher que

mostra os medicamentos indicados para tratamento da doenca de Alzheimer. A Figura 33 apre-

senta a estrutura da consulta desenvolvida em Cypher e o grafo que retornou 20 medicamentos

indicados para o tratamento de Alzheimer, que no exemplo elenca-se por: Exelon, Reminyl,

Hazol, entre outros.

Ja para a segunda pergunta foi resolvida por meio de uma consulta que apresentou a

relacao sobre termos entre as doencas inferidas na base Neo4j desenvolvida. A Figura 34 apre-

Page 96: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

96

Figura 33 – Medicamentos indicados para tratamento de Alzheimer.Fonte: Autoria propria.

Figura 34 – Relacao entre os termos de doencas.Fonte: Autoria propria.

senta a consulta e o resultado das hierarquias entre os termos referentes a doenca de Alzhei-

mer. Pela Figura 34 visualiza-se que Alzheimer’s disease (concept id C26929004) per-

tence aos termos medicos tauopathy (concept id C111479008) e dementia (concept id

C52448006).

Para a terceira questao elaborada foi desenvolvida uma consulta que representa os me-

Page 97: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

97

Figura 35 – Medicamentos que possuem aspirina em sua composicao.Fonte: Autoria propria.

dicamentos que utilizam aspirina em sua composicao. Na Figura 35 exibe-se o resultado da

consulta realizada utilizando como pesquisa o codigo do drugbank id ao inves de pesqui-

sar pelo nome do farmaco, que no caso da aspirina seria Acetylsalicylic acid (drugbank id

DB00945). Por meio da Figura 35 percebe-se que a consulta retornou 32 medicamentos que se

encaixavam na condicao especificada.

Por fim, a quarta e ultima pergunta foi realizada com relacao a consulta apresenta na

Figura 35, a qual imagina-se que um determinado paciente que possui insuficiencia renal ne-

cessite tomar um medicamento com aspirina em sua composicao. A solucao para esta pergunta

esta representada pela consulta Cypher descrita na Figura 36.

A Figura 36 mostra os medicamentos que possuem aspirina em sua composicao, mas

que sao contraindicados para pessoas que tenham insuficiencia renal, referente ao termo kidney

failure (concept id C192789001) da base SNOMED-CT. Comparando-se o retorno apre-

sentado pela Figura 36 com a Figura 35 visualiza-se que a consulta retornou apenas 13 medi-

camentos, e nao 32 como foi apresentado pela Figura 35. Dessa forma, percebe-se que quanto

mais condicoes sejam inferidas, medicamentos mais especıficos podem ser encontrados pelas

consultas.

Page 98: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

98

Figura 36 – Medicamentos que possuem aspirina em sua composicao, porem sao con-traindicados para insuficiencia renal.Fonte: Autoria propria.

Com o banco de dados Neo4j, por meio da linguagem Cypher, possibilitou de ma-

neira simplificada diferentes consultas com varios tipos de cruzamento de informacoes. A

estruturacao de todos esses dados resulta em uma contribuicao para o trabalho dos profissi-

onais brasileiros, pois retorna as interacoes entre medicamentos, possıveis contraindicacoes,

reacoes adversas, medicamentos por doenca, entre outras questoes, o qual oferece informacoes

bem mais completas do que o Bulario Eletronico da ANVISA apresenta atualmente para os

usuarios.

As consultas quando comparadas com a sintaxe SQL de um banco relacional se mos-

traram de compreensao facil e desempenho superior, pois o Neo4j pode ser utilizado como um

substituto de alto desempenho para bases de dados relacionais, especialmente para manipulacao

de dados altamente interligados (HOLZSCHUHER; PEINL, 2013).

Por meio do resultado obtido pelos testes realizados pode-se esclarecer que as simples

consultas desenvolvidas pelo Cypher puderam retornar relacoes complexas entre medicamentos.

As perguntas realizadas puderam exemplificar os questionamentos diarios dos profissionais da

area da saude, que poderao ser auxiliados durante a prescricao medica pelo presente trabalho.

Page 99: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

99

5.3 IMPLEMENTACAO FACIL BULA

Figura 37 – Website do Facil Bula.Fonte: Autoria propria.

O website do Facil Bula, representado pela Figura 37, foi desenvolvido na arquitetura

ASP.NET MVC, com linguagem C# e .NET Framework 4.5, na plataforma Microsoft. Utilizou-

se para layout o Bootstrap1 em sua versao 3.0, este arcabouco computacional propoe facilidades

para etapa de implementacao pois possui uma documentacao simples e bem intuitiva, e otimi-

zado para paginas responsivas, e tambem e compatıvel com os principais navegadores utilizados

atualmente, como: Chrome, Safari, Firefox, Internet Explorer e Opera.

As tecnicas de SEO aplicadas nas paginas do Facil Bula contribuem para melhorar o

posicionamento do website nos mecanismos de buscas globais. Destaque para o uso de URLs

amigaveis em todas as paginas do portal, juntamente com a definicao de tıtulos diferenciados

entre estas, a fim de que palavras-chave possam constar no tıtulo, na URL e tambem no conteudo

da pagina.

Tambem foram aplicadas tecnicas de redirecionamento WWW e de canonicalizacao

de IP, que respectivamente direciona www.facilbula.com.br e facilbula.com.br para a mesma

URL, e encaminha o IP do website para o nome do domınio facilbula.com.br. Dessa maneira,

redirecionar solicitacoes de um domınio nao preferencial e importante, pois os motores de busca

1htt p : //getbootstrap.com/

Page 100: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

100

verificam a URL com e sem “www” como dois websites diferentes, alem de que e consideravel

que o IP do site nao seja indexado pelos robos de pesquisa.

O uso do arquivo robots.txt contribuiu para impedir os acessos dos robos dos motores

de busca a diretorios e paginas especıficas. Ja o uso do XML Sitemap auxiliou para listagem

de URLs disponıveis para rastreamento e acrescimo de informacoes adicionais, como ultima

atualizacao do site, a frequencia de mudancas e sua importancia. Verifica-se que o uso destes

arquivos permite aos motores de busca rastrear o website de forma mais inteligente.

Outra tecnica aplicada nas paginas esta voltada ao uso de Schema.org, que sao vo-

cabularios de entidades e relacoes com a funcao de modelar esquemas para estruturar dados

na Internet, em paginas da web, mensagens de e-mail, entre outros (SCHEMA.ORG, 2015).

Schema.org e patrocinado pelo Google, Microsoft, Yahoo e Yandex, e ja e utilizado por mais

de 10 milhoes de websites (SCHEMA.ORG, 2015).

Figura 38 – Resultado da ferramenta Structured Data Testing Tool em uma pagina deCID do Facil Bula.Fonte: Adaptado de (DEVELOPERS, 2015).

Dentro da plataforma para desenvolvedores do Google, chamada de Google Develo-

pers (DEVELOPERS, 2015), esta disponıvel a ferramenta Structured Data Testing Tool2, res-

ponsavel por validar se os vocabularios do Schema.org foram aplicados corretamente em uma

pagina da web. A Figura 38 apresenta o resultado obtido na pagina3 do Facil Bula que mostra

informacoes sobre a doenca “Carcinoma in situ do estomago”, pela figura destaca-se o uso dos

vocabularios:

2htt ps : //developers.google.com/structured−data/testing− tool/3htt p : //www. f acilbula.com.br/cid/doenca/914/d002− estomago

Page 101: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

101

• BreadcrumbList (SCHEMA.ORG, 2015): representa uma cadeia de paginas da web vin-

culadas, que exemplificada pela figura apresenta a organizacao da CID: Capıtulo, Grupo

e Doenca;

• WebSite (SCHEMA.ORG, 2015): apresenta o nome da pagina e URL do website atrelada

a um domınio;

• MedicalCondition (SCHEMA.ORG, 2015): esquema relacionado a saude que representa

condicoes do corpo humano, em que pela figura representa informacoes de uma determi-

nada doenca.

5.3.1 Application Programming Interface (API) e Negocios

Para concepcao do Facil Bula foi empregada a arquitetura REST (FIELDING, 2000),

que aplica o conceito de servir aplicacoes em rede, e a aplicavel a construcao de API.

A vantagem de utilizar uma API e que a comunicacao entre os dados e realizado de

forma simples, por vezes via Json, com o uso de metodos GET, POST ou PUT dependendo da

requisicao solicitada. Centralizar o acesso as informacoes, neste caso dentro da infraestrutura

de servicos da Amazon Web Services4 (AWS), torna o website uma aplicacao escalavel, pois

caso necessite de melhor desempenho e possıvel requisita-lo via AWS.

Outro caso vem do uso compartilhado das informacoes que ocorre por meio das ferra-

mentas disponibilizadas pelo site Facil Bula, funcionalidades como consulta de medicamentos

e detalhes destes sao apresentadas da mesma maneira pelo aplicativo5 desenvolvido na plata-

forma iOS, ambas aplicacoes realizam as consultas por REST consumindo da API desenvolvida

para retorno dos dados. A Figura 39 mostra a pagina referente ao aplicativo Facil Bula imple-

mentado em parceria com o desenvolvedor mobile Raul Lermen na loja de aplicativos da Apple,

App Store (STORE, 2015).

A Figura 40 apresenta informacoes sobre a quantidade de downloads do aplicativo

Facil Bula realizada na App Store, na qual totaliza-se em 93 unidades instaladas em dispo-

sitivos iPhone. A consulta foi feita no dia 14 de setembro de 2015 por meio da ferramenta

iTunes Connect (APPLE, 2015), que e responsavel por apresentar metricas de desempenho do

aplicativo e tambem recolhe feedback dos usuarios.

Dessa maneira, entende-se que a consolidacao da API facilita a manutencao do codigo,

e a distribuicao de servicos, o que traz para o projeto uma nova maneira de gerar negocios, que

4htt ps : //aws.amazon.com/pt/5htt ps : //appsto.re/br/3Ko98.i

Page 102: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

102

Figura 39 – Pagina do aplicativo Facil Bula na App Store.Fonte: Adaptado de (STORE, 2015).

Figura 40 – Quantidade de downloads do aplicativo Facil Bula na App Store.Fonte: Adaptado de (APPLE, 2015).

seja por meio da integracao de servicos via API de parceiros em potencial, ou o desenvolvimento

de novos aplicativos para outras plataformas.

Page 103: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

103

5.4 ESTATISTICAS DE ACESSO AO FACIL BULA

O sıtio da web Facil Bula, que tem permissao de vinculacao das bulas pela resposta

da ANVISA presente no Anexo B, foi disponibilizado no dia 20 de maio de 2015 e desde

sua publicacao monitorado por meio do Google Analytics6. Analytics e um servico gratuito

da Google que exibe estatısticas de visitas aos sıtios web e aplicativos. Desse modo, algumas

estatısticas sobre o website Facil Bula elencam-se com base na navegacao dos usuarios coletada

no perıodo dos meses de junho a julho e tambem visualizada pela Figura 41:

• Sessoes: 35.061, na qual sessao e o perıodo em que um usuario permanece no website;

• Usuarios: 31.961 usuarios que realizaram pelo menos uma sessao, sendo esta nova ou

recorrente;

• Visualizacoes de pagina: 61.265 paginas visualizadas, inclui-se exibicao repetida;

• Paginas/sessao: 1,75 e a media de paginas visualizadas por sessao;

• Duracao media da sessao: 53 segundos;

• Taxa de rejeicao: 80,97% das visitas a uma pagina nao possuem interacao do usuario;

• Porcentagem de novas sessoes: 91,10% sao o numero das primeiras visitas.

Com base na Figura 41 mostra-se que no mes de julho o website apresentou em media

1.000 sessoes de segunda a sexta com quedas de aproximadamente 50% aos sabados e domin-

gos, isso sem investimento algum com publicidade, ou seja, nenhum valor foi aplicado com

Google AdWords, Bing Ads, Facebook Ads ou outra ferramenta de marketing. A explicacao

para estes valores se resume a aplicacao de tecnicas de SEO.

Figura 41 – Estatısticas do Facil Bula no perıodo de junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).

O uso de tags HTML corretamente aplicadas e hierarquizadas, ligada a aplicacao de

meta tags como: description e keywords, que definem respectivamente a descricao exibida nos

6htt ps : //www.google.co.uk/intl/pt−BR/analytics/

Page 104: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

104

resultados dos motores de busca e palavras-chave utilizadas para interpretar o conteudo das

paginas, contribuem com o desempenho da busca organica do website, o que pode ser visuali-

zado pela Figura 42.

Figura 42 – Visao geral de aquisicao no perıodo de junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).

A Figura 42 mostra a porcentagem dos acessos ao site Facil Bula, em que comprova-se

que todas as tecnicas de SEO aplicadas resultaram em 85,7% (21.547 sessoes) de todo acesso

dado pela pesquisa organica (organic search), na qual destacam-se os motores de busca do

Google, Bing e Yahoo. Em segundo lugar, com 11.8% (2.955 sessoes), apresentam o acesso

direito (direct), que significa o acesso do usuario diretamente pelo endereco do website por meio

do browser. O restante de acessos e totalizado por mıdias sociais como: Facebook, Twitter e

Google Plus, na qual representam 2,4% de todas as sessoes obtidas.

Do total de 35.061 sessoes adquiridas entre o perıodo junho a julho de 2015, apresenta-

se o valor de 32.256 sessoes so no Brasil, o que representa 92% do total que foi alcancado

neste perıodo. Ao analisar a Figura 43 visualiza-se a distribuicao das sessoes entre os estados

brasileiros, na qual destaca-se os valores apresentados no estado de Sao Paulo que totalizam

10.020 sessoes (31,06% de todos os valores mensurados no perıodo), em seguida evidenciam

os valores obtidos pelos estados do Rio de Janeiro, Minas Gerais e Parana, que respectivamente

adquiriram 3.469 (10,75%), 3.276 (10,16%) e 2.726 (8,45%) sessoes.

Os menores resultados alcancados foram obtidos nos estados de Roraima, Amapa e

Acre, que nesta ordem adquiriram 36 (0,11%), 44 (0,14%) e 46 (0,14%) sessoes, e apresenta-

ram valores menores que 100 sessoes adquiridas entre o perıodo junho a julho.

Ja pela Figura 44, mostra-se em nıvel de cidades as sessoes adquiridas por estas, na

qual revela-se a cidade de Sao Paulo com a maioridade de sessoes, 5.400 destas que representam

16,74% do total mensurado no perıodo de junho a julho, seguida por Rio de Janeiro, Belo

Page 105: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

105

Figura 43 – Cobertura geografica de acessos por estados do Brasil entre o perıodojunho a julho.Fonte: Adaptado de (ANALYTICS, 2015).

Figura 44 – Cobertura geografica de acessos por cidades brasileiras entre o perıodojunho a julho.Fonte: Adaptado de (ANALYTICS, 2015).

Horizonte e Salvador, que representam respectivamente 2.893 (8,97%), 2.012 (6,24%) e 1.177

(3,65%) sessoes obtidas.

Page 106: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

106

Por fim, a Figura 45 lista as 10 palavras-chave de medicamentos mais impressas por

meio das pesquisadas no motor de busca do Google entre perıodo junho a julho de 2015, em

que do total de 450.000 impressoes obtidas neste perıodo, 314.500 foram registradas no Brasil,

o que representa 69,89% deste total.

Figura 45 – Palavras-chave de medicamentos realizadas na pesquisa do Google entreo perıodo junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).

A Figura 45 apresenta uma tabela retirada da ferramenta Google Analytics que apre-

senta em suas colunas informacoes referentes a quantidade de impressoes, cliques efetuados,

posicao media no resultado das pesquisas e taxa de cliques por impressoes (CTR).

Destacam-se os resultados obtidos em algumas palavras, como:

• “suavicid”7: registrou maior numero de impressoes, 4.500 que representa 1,43% do total

registrado;

• “hormoskin”8: registrou segundo maior numero de impressoes, 3.500 do total de 450.000,

o que vale a aproximadamente 1,11% deste total;

• “polaradex”9: registrou 3.000 impressoes e uma posicao media nas pesquisas de 4,1, isto

significa que na maioria das pesquisas realizadas o Facil Bula era exibido na primeira

pagina de busca do Google;

• “betatrinta”10: pior taxa de cliques por impressoes entre as palavras-chave apresentadas,

apenas 1,20% (30 cliques / 2.500 impressoes);

7htt p : //www. f acilbula.com.br/medicamento/5533/suavicid8htt p : //www. f acilbula.com.br/medicamento/3341/hormoskin9htt p : //www. f acilbula.com.br/medicamento/4881/polaradex

10htt p : //www. f acilbula.com.br/medicamento/736/betatrinta

Page 107: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

107

• “monessa”11: obteve maior quantidade de cliques, registrando 250 (0,68% do total obtido

no perıodo pesquisado).

De todas estas palavras, a “monessa” foi a palavra-chave de medicamento que obteve

melhor desempenho entre todas as apresentadas pela Figura 45, pois pontuou melhor taxa de

clique por impressao (10,00%), justificada pela quantidade de 2.500 impressoes e 250 cliques,

resultando assim em uma posicao media de 2,7 entre as pesquisas do Google. Este e um re-

sultado importante para o site Facil Bula, pois em um pequeno perıodo de disponibilizacao do

website, conseguiu alcancar uma alta posicao de pesquisa quando comparada a outros sites de

grande vinculacao e que ja estao no disponıveis a muito tempo pela internet.

Dessa forma, conclui-se pela Figura 45 que obter grandes quantidades de impressoes

em uma palavra-chave nao significa possuir muitos acessos, pois sem cliques nestas impressoes

representam que o website nao esta sendo navegado, assim nao passa interesse ao publico.

Um exemplo visualiza-se pela palavra-chave betatrinta que apresentou maior quantidade de im-

pressoes, mas poucos cliques relacionados a estas impressoes, cenario diferente quando com-

parado com a palavra-chave “monessa” que obteve a melhor taxa de cliques por impressoes

apresentada pela figura.

Figura 46 – Anuncio criado para o website Facil Bula.Fonte: Adaptado de (ADWORDS, 2015).

Durante o perıodo de agosto a setembro de 2015 foi realizado um plano de publici-

dade pago por meio do Google AdWords12, ferramenta que permite criar anuncios (visualizado

pela Figura 46) vinculados a termos de pesquisa no Google para mostrar as pessoas o que sao

oferecidos por estes, e um sistema utilizado por mais de um milhao de empresas (ADWORDS,

2015).

Neste plano de publicidade pago foram investidos R$ 160,00 (cento e sessenta reais),

junto a mais dois codigos promocionais no valor R$ 100,00 (cem reais) e R$ 150,00 (cento

e cinquenta reais), assim, totalizando R$ 410,00 (quatrocentos e dez reais) em publicidade do

AdWords para o website Facil Bula gerando aproximadamente 187.589 impressoes, que foi o

11htt p : //www. f acilbula.com.br/medicamento/4154/monessa12htt ps : //www.google.com.br/adwords/

Page 108: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

108

numero de pessoas que visualizaram os anuncios criados. Dessas resultam-se em 5.515 cliques,

numero de vezes que as pessoas chegaram ate o website por meio destes anuncios, obtendo

assim um custo medio por clique em anuncio de R$ 0,07 e uma taxa media de cliques de

2,94% (porcentagem de pessoas que visitaram o website apos ver os anuncios).

Figura 47 – Historico de transacoes do AdWords no mes de agosto.Fonte: Adaptado de (ADWORDS, 2015).

Figura 48 – Historico de transacoes do AdWords no mes de setembro.Fonte: Adaptado de (ADWORDS, 2015).

Pela Figura 47 e 48 visualiza-se todo historico de transacao realizada pelo Google

AdWords no perıodo de agosto a setembro, em que apresenta os valores compensados, bem

Page 109: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

109

como a quantidade de cliques e o valor debitado por dia com a campanha.

Existem alguns fatores que explicam a variacao entre valores debitados e o total de cli-

ques contabilizados pela atividade dos anuncios por dia, como o valor configurado de orcamento

diario da campanha e o custo por clique das palavras-chave vinculado a lances.

O historico de transacao do mes de agosto mostrado na Figura 47 destaca a atividade

apresentada no dia 31 como a campanha de melhor desempenho, pois obteve 452 cliques debi-

tando o valor de R$29,92. Agora, apresentando pior desempenho esta a atividade registrada no

dia 28 que contabilizou 328 cliques e consumiu R$ 52,57.

Pelo historico de transacao do mes de setembro mostrado na Figura 48 lista-se a ativi-

dade apresentada no dia 4 como a que teve melhor desempenho, pois adquiriu 660 cliques pelo

valor de R$ 29,22. Entretanto, apresentando o pior desempenho esta a atividade registrada no

dia 8 que contabilizou 122 cliques e consumiu R$ 14,60.

A Figura 49 mostra a estatıstica do Facil Bula no perıodo de junho a setembro. Por ela

visualiza-se o aumento na quantidade de acessos durante os meses de agosto e setembro gerado

pelo investimento em publicidade no AdWords, na qual destaca-se o maior numero de sessoes

obtidas no dia 9 de setembro contabilizando o valor de 1.646.

Figura 49 – Estatısticas do Facil Bula no perıodo de junho a setembro.Fonte: Adaptado de (ANALYTICS, 2015).

Pela Figura 50 visualiza-se as palavras-chave que obtiveram melhor desempenho du-

rante o perıodo de anunciado disponibilizados pelo AdWords. Entre estas palavras, ressalta-se

a “bula s” que teve a maior quantidade de cliques, exatos 2.786, totalizou 4,99% de clickth-

rough rate (CTR), o qual representa o numero de cliques que o anuncio recebe dividido pelo

numero de vezes que ele e exibido, com cost-per-click (CPC) de R$ 0,04, que e o valor pago

pelos anuncios dividido pelo total de cliques. A menor quantidade de cliques foi registrada pela

palavra “cid 10 doencas”, com 26 cliques, CTR de 3,22% e CPC de R$ 0,05.

A palavra com CTR mais elevado foi marcado pela palavra “bulas medicas”, com o

valor de 14,43%, somou 217 cliques, CPC de R$ 0,18, que consequentemente foi a palavra

com CPC mais elevado. Ja o menor CTR foi encontrado pela palavra “doencas”, exatos 1,54%

de CTR, com 27 cliques e CPC de R$ 0,04.

Page 110: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

110

Figura 50 – Palavras-chave com melhor desempenho.Fonte: Adaptado de (ADWORDS, 2015).

Por fim, o menor ındice de CPC custou R$ 0,03 e foi registrado pela palavra “cid”,

que obteve 134 cliques com CTR de 2,46%.

Figura 51 – Mapa com a localizacao de acessos realizados no website Facil Bula.Fonte: Adaptado de (ANALYTICS, 2015).

Pelo Google Analytics tambem foi possıvel verificar que o Facil Bula foi acessado por

varios paıses, conforme exibe a Figura 51 que mostra em tons de azul os paıses que visitaram

o sıtio da web. Ainda, destaca-se que o website foi acessado em sua maioria pelo Brasil, totali-

zando 141.579 sessoes que representam 95% de todo o perıodo que os usuarios ficaram ativos

Page 111: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

111

no site, sendo este perıodo especificado desde sua publicacao em 20 de maio de 2015 ate o dia

18 de novembro do mesmo ano.

5.5 HOTEL TECNOLOGICO

A Incubadora de Inovacoes da Universidade Tecnologica13 tem como objetivo dar su-

porte a empresas que oferecem algum resultado a partir de pesquisas aplicadas, nos quais a

tecnologia e a maneira de apresentar estas informacoes representam alto valor agregado para o

negocio. Resume-se em acelerar o processo de criacao para empresas e aumenta a expectativa

de sobrevivencia desta na sociedade.

A Incubadora da UTFPR Campus Cornelio Procopio atua em duas modalidades de

trabalho:

• Pre-incubacao, tambem chamado por hotel tecnologico;

• Incubacao de empresa.

A oportunidade de inscrever o projeto Facil Bula no edital da UTFPR para processo

de incubacao da ideia no hotel tecnologico esta ligada a parte empreendedora do trabalho re-

alizado. Motivada pela disciplina de empreendedorismo, presente no programa de mestrado

profissional da instituicao, o conceito de criar uma empresa para que o trabalho seja oferecido e

comercializado, gerando empregos e investimentos para uma melhor infraestrutura e tecnologia

foi bem aceita para continuacao do projeto.

A partir da conclusao da primeira etapa do processo de inscricao, comprovada pelo

Anexo C, o programa ja disponibilizou uma trilha de cursos realizados pela UTFPR com par-

ceria do SEBRAE para capacitacao dos inscritos em temas relacionados a planejamento, con-

tabilidade, Startup, empresas, assuntos jurıdicos, entre outros assuntos necessarios para este

ramo.

Por meio dos cursos ministrados pelos consultores do SEBRAE foi desenvolvido o

Plano de Negocio do Facil Bula, na qual evidenciou a proposta de valor do trabalho, identifi-

cou os clientes chave e listou canais de relacionamentos com esses, maneiras de monetizar as

ferramentas, parcerias, entre outros valores. De modo que tambem foi realizada a solicitacao

do registro de marca referente ao website Facil Bula junto ao Instituto Nacional da Propriedade

Industrial (INPI) para proteger a marca desenvolvida.

13htt p : //incubadora.cp.ut f pr.edu.br/site/

Page 112: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

112

Ao termino do Plano de Negocio do Facil Bula concebido pelo treinamento realizado

entre a parceria UTFPR e SEBRAE, o projeto foi submetido a uma banca de avaliacao (visto

Anexo D) no dia 5 de novembro de 2015 composta por membros do SEBRAE, FIEP, Prefei-

tura Municipal de Cornelio Procopio, Associacao Comercial de Cornelio Procopio, Camara da

Mulher Empreendedora, professores e tecnicos da UTFPR.

A banca de avaliacao foi a ultima etapa do processo de selecao para o Hotel Tec-

nologico. Apos a realizacao da apresentacao do projeto, os membros da banca fizeram alguns

questionamentos sobre a monetizacao do produto, tambem a questao jurıdica e de seguranca

das informacoes, porem se mostraram favoraveis ao plano apresentado. Dessa forma, o projeto

Facil Bula14 foi aprovado pela presente banca conforme apresenta o Anexo E.

14htt p : //incubadora.cp.ut f pr.edu.br/site/ f acil−bula/

Page 113: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

113

6 CONCLUSAO

Esta dissertacao apresentou um novo sistema web chamado de Facil Bula que tem

como objetivo melhorar a usabilidade do Bulario Eletronico da ANVISA. O Facil Bula propor-

ciona uma navegacao com informacoes segmentadas por topicos dos medicamentos ao inves

da bula em PDF, assim contribuindo para indexacao do conteudo dos medicamentos realizada

pela pesquisa dos usuarios nos motores de busca do Google, Bing, Yahoo, entre outros. A fer-

ramenta apresenta uma usabilidade diferente do que e abordada pelo sistema da ANVISA, pois

a experiencia do usuario e melhorada ja que ele consegue ver as informacoes de seu interesse

mais rapidamente e com menos cliques.

Outro aspecto apresentado pelo website do Facil Bula e a capacidade de se ajustar entre

os diferentes modos de acessos dos usuarios, ja que possui um layout responsivo o sıtio da web

se adapta diferentemente para cada tipo de navegacao, como: mobile, tablets e desktop.

Os resultados preliminares foram aceitos no XI Simposio Brasileiro de Sistemas de

Informacao (SBSI), ocorrido na cidade de Goiania-GO entre os dias 26 e 29 de maio de 2015.

A respectiva publicacao e apresentada pelo Anexo A.

Alem disso, pode-se concluir que:

1. A segmentacao dos topicos das bulas foi realizada com sucesso, permitindo a criacao de

outras analises, incluindo anotacao por meio das ontologias biomedicas e tambem pela

classificacao de doencas;

2. A importancia do sistema foi corroborada por meio da quantidade de acessos que e rea-

lizada diariamente, na qual a maioria desses acessos ocorrendo nos estados de Sao Paulo

e Rio de Janeiro. Atrelada a esta estatıstica esta a quantidade de downloads do aplicativo

Facil Bula para iOS ja realizada;

3. O objetivo de conseguir atender a populacao brasileira foi atingida uma vez que segundo

o mapa de acessos, disponibilizado pelo Google Analytics, ocorreram consultas em todos

os estados do Brasil;

4. As tecnicas de SEO utilizadas foram eficientes para o desempenho da indexacao do

Facil Bula, pois em um curto perıodo de disponibilizacao deste na web as palavras-chave

apresentadas por meio da pesquisa organica do Google retornaram, por vezes, uma boa

posicao media de pesquisa.

Page 114: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

114

6.1 TRABALHOS FUTUROS

O trabalho futuro incide em investimento para criacao de uma identidade visual para

o Facil Bula, na qual uma nova marca seja criada, para que tanto o website, quanto os aplicati-

vos utilizem os mesmos componentes e layout, assim mantendo para o usuario uma visao que

independente da plataforma a marca se mantem.

Tambem elencam-se: a escrita de artigos por meio do estudo de novas tecnologias se-

guindo a publicacao aceita pelo SBSI (DA SILVA; SILLA JR.; KASHIWABARA, 2015), junta-

mente com a procura por parcerias para o crescimento do projeto, como a UTFPR e o SEBRAE

com cursos, consultoria e estrutura, juntamente com a participacao de eventos relacionados com

saude, empreendedorismo, tecnologias, entre outras areas. A procura por recursos para investi-

mento em infraestrutura, servidores com melhores desempenhos, e marketing, relacionado com

mıdias sociais e tambem com publicidade digital, atrelado ao estudo de tecnicas para melhorar

os ındices de CTR, bem como potencializar a taxa de CPC em anuncios do Google AdWords. O

crescimento do projeto possui como principal objetivo a busca de mais usuarios para o sistema,

ja que nosso plano de negocio aprovado pela Incubadora da UTFPR se resume na aquisicao

de clientes que paguem mensalmente assinatura ao website e assim tenham acesso a todas as

ferramentas que sejam disponibilizadas pela plataforma.

Pretende-se manter um canal aberto por meio de um questionario com os usuarios do

Facil Bula para que esses possam avaliar as ferramentas disponıveis e descrever sobre duvidas,

sugestoes ou melhorias que possam agregar para o sistema. Pelo aspecto social do projeto e de

interesse que se submeta a ferramenta a um Comite de Etica para que se faca uma avaliacao do

projeto como um todo.

Por fim, pretende-se continuar a pesquisa por tecnologias e desenvolver novas ferra-

mentas para o mercado, tambem desenvolver aplicativos para Android e Windows Phone, alem

de disponibiliza-los para o uso em tablets e integracao com outros dispositivos seguindo o con-

ceito da internet das coisas, tıtulo que representa a revolucao tecnologica atualmente.

Page 115: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

115

REFERENCIAS

ABRAFARMA. ABRAFARMA - Associacao Brasileira de Redes de Farmacias e Droga-rias. nov. 2015. Disponıvel em: <http://www.abrafarma.com.br/>.

ADWORDS, Google. Vantagens Google AdWords. ago. 2015. Disponıvel em:<https://www.google.com.br/adwords/benefits/>.

AGICHTEIN, E.; GRAVANO, L. Snowball: Extracting relations from large plain-text collecti-ons. In: Proceedings of the Fifth ACM Conference on Digital Libraries. San Antonio, Texas,USA: ACM, 2000. p. 85–94.

ANALYTICS, Google. Analise da Web e relatorios - Google Analytics. abr. 2015. Disponıvelem: <https://www.google.com/analytics/>.

ANGLES, R.; GUTIERREZ, C. Survey of graph database models. ACM Computing Surveys(CSUR), Volume 40, n. Issue 1, p. 1–39, 2008. Article No. 1, ACM New York, NY, USA.

ANVISA. Resolucao-RDC No 140, de 29 de maio de 2003. 2003.

ANVISA. Resolucao-RDC No 47, de 8 de setembro de 2009. 2009.

ANVISA. Como acessar o Bulario Eletronico? out. 2013. Disponıvel em:<http://s.anvisa.gov.br/wps/s/r/f4>.

ANVISA. ANVISA - A Agencia. jul. 2015. Disponıvel em: <http://portal.anvisa.gov.br/>.

APPLE, Inc. iTunes Connect. set. 2015. Disponıvel em: <https://itunesconnect.apple.com/>.

ATKINSON, M. P.; BANCILHON, F.; DEWITT, D. J.; DITTRICH, K. R.; MAIER, D.;ZDONIK, S. B. The object-oriented database system manifesto. In: Deductive and Object-Oriented Databases. Kyoto, Japan: DOOD, 1989. p. 40–57.

AWS. Cloud Solutions - Amazon Web Services (AWS). mar. 2015. Disponıvel em:<https://aws.amazon.com/solutions/>.

BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora et al. The semantic web. Scientificamerican, New York, NY, USA:, v. 284, n. 5, p. 28–37, 2001.

BIGUETTI, C. C.; ANDRADE, H. L. de. Farmacologia 01 - Como agem osfarmacos: Receptores, Agonista e Antangonistas - Basico. Nov. 2014. Disponıvel em:<https://www.youtube.com/watch?v=eTFpIIuJ8Xg>.

BRASIL. Presidencia da Republica. Lei No 9.782, de 26 de janeiro de 1999. 1999.

BRASIL. Ministerio da Saude. Uso racional de medicamentos: temas selecionados. 2012.1. ed. Brasılia: Editora MS. 156 p.

BROWN, H. Bmj: British medical journal. BMJ, BMJ Group, v. 322, n. 7290, p. 872, 2001.

Page 116: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

116

BUENO, C. S.; OLIVEIRA, K. R. DE; BERLEZI, E. M.; EICKHOFF, H. M.; DALLEPIANE,L. B.; GIRARDON-PERLINI, N.; MAFALDA, A. et al. Utilizacao de medicamentos e risco deinteracoes medicamentosas em idosos atendidos pelo programa de atencao ao idoso da unijuı.Revista de Ciencias Farmaceuticas Basica e Aplicada, v. 30, n. 3, p. 331–338, 2010.

CALDEIRA, T. R.; NEVES, E. R. Z.; PERINI, E. Evolucao historica das bulas de medica-mentos no brasil. Cadernos de Saude Publica, SciELO Public Health, v. 24, n. 4, p. 737–743,2008.

CAPASSO, R.; IZZO, A. A.; PINTO, L.; BIFULCO, T.; VITOBELLO, C.; MASCOLO, N.Phytotherapy and quality of herbal medicines. Fitoterapia, v. 71, p. 58–65, 2000.

CASSIANI, S. H. D. B. A seguranca do paciente e o paradoxo no uso de medicamentos. RevistaBrasileira de Enfermagem, SciELO Brasil, v. 58, n. 1, p. 95–99, 2005.

CHERVEN, K. Network graph analysis and visualization with Gephi. : Packt PublishingLtd, 2013.

CIOLKO, E.; LU, F.; JOSHI, A. Intelligent clinical decision support systems based on snomedct. In: Engineering in Medicine and Biology Society (EMBC), 2010 Annual InternationalConference of the IEEE. Buenos Aires: IEEE, 2010. p. 6781–6784.

COTE, R.A.; PATHOLOGISTS, College of American; ASSOCIATION, American Veteri-nary Medical. The systematized nomenclature of human and veterinary medicine: SNO-MED international. United States: College of American Pathologists and Schaumburg, IL:American Veterinary Medical Association, 1993.

COULET, A.; SHAH, N. H.; GARTEN, Y.; MUSEN, M.; ALTMAN, R. B. Using text to buildsemantic networks for pharmacogenomics. Journal of biomedical informatics, Elsevier, v. 43,n. 6, p. 1009–1019, 2010.

CUNNINGHAM, H.; MAYNARD, D.; BONTCHEVA, K.; TABLAN, V.; URSU, C.; DIMI-TROV, M.; DOWMAN, M.; ASWANI, N.; ROBERTS, I.; LI, Y. Developing language proces-sing components with gate. The University of Sheffield, Department of Computer Science,United Kingdom, 2014.

DA SILVA, J. F.; SILLA JR., C. N.; KASHIWABARA, A. Y. Adding structured informationto the anvisa’s ”bulario eletronico”. In: Proceedings of the Annual Conference on BrazilianSymposium on Information Systems: Information Systems: A Computer Socio-TechnicalPerspective. Porto Alegre, Rio Grande do Sul, Brazil: Brazilian Computer Society, 2015. (SBSI2015, v. 1), p. 69:509–69:516.

DA SILVA, M.; ALMEIDA, A. E.; OLIVEIRA, A. M.; CORREIA, C. C.; BENZATTI, F. P.;FERNANDES, J. T.; BARBOSA, G. R.; PIMENTA, C. P.; COSTA, T.; DONEIDA, V. C. Es-tudo da bula de medicamentos: uma analise da situacao. Revista de Ciencias FarmaceuticasBasica e Aplicada, p. 229–236, 2006.

DATASUS. O DATASUS. ago. 2015. Disponıvel em:<http://www2.datasus.gov.br/DATASUS/index.php?area=01>.

DAVIS, A. P.; GRONDIN, C. J.; LENNON-HOPKINS, K.; SARACENI-RICHARDS, C.; SCI-AKY, D.; KING, B. L.; WIEGERS, T. C.; MATTINGLY, C. J. The comparative toxicogenomics

Page 117: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

117

database’s 10th year anniversary: update 2015. Nucleic acids research, Oxford Univ Press,v. 43, n. D1, p. D914–D920, 2015.

DAVIS, A. P.; MURPHY, C. G.; ROSENSTEIN, M. C.; WIEGERS, T. C.; MATTINGLY,C. J. The comparative toxicogenomics database facilitates identification and understanding ofchemical-gene-disease associations: arsenic as a case study. BMC medical genomics, BioMedCentral Ltd, v. 1, n. 1, p. 48, 2008.

DAVIS, A. P.; MURPHY, C. G.; SARACENI-RICHARDS, C. A.; ROSENSTEIN, M. C.; WI-EGERS, T. C.; MATTINGLY, C. J. Comparative toxicogenomics database: a knowledgebaseand discovery tool for chemical–gene–disease networks. Nucleic acids research, Oxford UnivPress, v. 37, n. suppl 1, p. D786–D792, 2009.

DEVELOPERS, Google. Google Developers - Explorar os servicos do Google para disposi-tivos moveis. out. 2015. Disponıvel em: <https://developers.google.com/>.

DONNELLY, K. Snomed ct: The advanced terminology and coding system for ehealth. Studiesin Health Technology and Informatics, v. 121, p. 279–290, 2006.

DRUGBANK. DrugBank. nov. 2014. Disponıvel em: <http://www.drugbank.ca/>.

EDWARDS, I. R.; ARONSON, J. K. Adverse drug reactions: definitions, diagnosis, and mana-gement. The Lancet, Elsevier, v. 356, n. 9237, p. 1255–1259, 2000.

ELEVITCH, F. Snomed ct: electronic health record enhances anesthesia patient safety. Ameri-can Association of Nurse Anesthetists, v. 73, p. 361–366, 2005.

ELMASRI, R.; WEELDREYER, J.; HEVNER, A. The category concept: an extension to theentity-relationship model. Data & Knowledge Engineering, Elsevier, v. 1, n. 1, p. 75–116,1985.

EVANS, W. E.; RELLING, M. V. Pharmacogenomics: translating functional genomics intorational therapeutics. science, American Association for the Advancement of Science, v. 286,n. 5439, p. 487–491, 1999.

FAERS. FDA Adverse Event Reporting System (FAERS): Latest Quarterly Data Files. set.2015. Disponıvel em: <http://goo.gl/vYe6BG>.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge disco-very in databases. AI magazine, v. 17, n. 3, p. 37, 1996.

FDA. U.S. Food and Drug Administration - Protecting and Promoting Your Health. jul.2015. Disponıvel em: <http://www.fda.gov/AboutFDA/default.htm>.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analy-zing unstructured data. : Cambridge University Press, 2007.

FIELDING, R. Representational state transfer. Architectural Styles and the Design ofNetowork-based Software Architecture, p. 76–85, 2000.

FOX, C. A stop list for general text. SIGIR Forum, ACM, New York, NY, USA, v. 24, n. 1-2,p. 19–21, set. 1989.

Page 118: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

118

GAROFALAKIS, M.; RASTOGI, R.; KYUSEOK, S. Mining sequential patterns with regularexpression constraints. Knowledge and Data Engineering, IEEE Transactions on, v. 14, n. 3,p. 530–552, May 2002.

GUARINO, Nicola. Formal ontology and information systems. In: Proceedings of FOIS. 1998.v. 98, n. 1998, p. 81–97.

HAMOSH, A.; SCOTT, A. F.; AMBERGER, J. S.; BOCCHINI, C. A.; MCKUSICK, V. A.Online mendelian inheritance in man (omim), a knowledgebase of human genes and geneticdisorders. Nucleic acids research, Oxford Univ Press, v. 33, n. suppl 1, p. D514–D517, 2005.

HAN, J.; HAIHONG, E.; LE, G.; DU, J. Survey on nosql database. In: PROCEEDINGS OFTHE 6TH INTERNATIONAL CONFERENCE ON. Pervasive Computing and Applications(ICPCA). Port Elizabeth, South Africa, 2011. p. 363–366.

HAN, J.; KAMBER, M. Data mining: Concepts and techiniques. Morgan Kaufmann Pu-blishers, v. 2. ed, 2006. San Francisco.

HARRIS, J. Next generation linkage management system. In: AUSTRALIAN COMPUTERSOCIETY, INC. Proceedings of the Sixth Australasian Workshop on Health Informaticsand Knowledge Management. Adelaide, Australia, 2013. v. 142, p. 7–12.

HEALTH, US Department of; SERVICES, Human et al. Coding symbols for thesaurus of ad-verse reaction terms. rockville (md): Department of health and human services. Food and DrugAdministration, Center for Drug and Biologics, Division of Drug and Biological Experi-ence, 1995.

HEPPLE, M. Independence and commitment: Assumptions for rapid training and execution ofrule-based pos taggers. In Proceedings of the 38th Annual Meeting of the Association forComputational Linguistics, p. 277–278, 2000.

HOLZSCHUHER, F.; PEINL, R. Performance of graph query languages: Comparison ofcypher, gremlin and native access in neo4j. In: Proceedings of the Joint EDBT/ICDT 2013Workshops. New York, NY, USA: ACM, 2013. (EDBT ’13), p. 195–204.

IHTSDO. SNOMED-CT. nov. 2014. Disponıvel em: <http://www.ihtsdo.org/snomed-ct>.

JUNIOR, F. P.; GODOY, D. B.; PIRES, D. F. S.; PIETROBON, E.; ROSA, F. T. A.; SARAIVA,J. S. et al. Potenciais interacoes medicamentosas em prescricoes de um hospital-escola de portoalegre. Rev Assoc Med Rio Grande Do Sul, p. 251–6, 2009.

KANEHISA, M.; GOTO, S. Kegg: kyoto encyclopedia of genes and genomes. Nucleic acidsresearch, Oxford Univ Press, v. 28, n. 1, p. 27–30, 2000.

KIBBE, W. A.; ARZE, C.; FELIX, V.; MITRAKA, E.; BOLTON, E.; FU, G.; MUNGALL,C. J.; BINDER, J. X.; MALONE, J.; VASANT, D. Disease ontology 2015 update: an expandedand updated database of human diseases for linking biomedical knowledge through diseasedata. Nucleic acids research, Oxford Univ Press, p. 1–8, 2014.

KIVIKANGAS, P.; ISHIZUKA, M. Improving semantic queries by utilizing unl ontology anda graph database. In: IEEE. Proceedings of the 2012 IEEE Sixth International Conferenceon Semantic Computing (ICSC). Palermo, 2012. p. 83–86.

Page 119: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

119

KUHN, M.; CAMPILLOS, M.; LETUNIC, I.; JENSEN, L. J.; BORK, P. A side effect resourceto capture phenotypic effects of drugs. Molecular systems biology, EMBO Press, v. 6, n. 1,p. 343, 2010.

LAPORTE, J. R.; BAKSAAS, I.; LUNDE, P. K. M. General background. In: Drug Utiliza-tion Studies: Methods and Uses (M. N. G. Dukes, ed.), European Series 45, p. 5–22, 1993.Copenhagen.

LEAMAN, R.; WOJTULEWICZ, L.; SULLIVAN, R.; SKARIAH, A.; YANG, J.; GONZA-LEZ, G. Towards internet-age pharmacovigilance: Extracting adverse drug reactions from userposts in health-related social networks. In: Proceedings of the 2010 Workshop on BiomedicalNatural Language Processing. Uppsala, Sweden: Association for Computational Linguistics,2010. p. 117–125.

LI, Y.; MANOHARAN, S. A performance comparison of sql and nosql databases. In: 2013IEEE PACIFIC RIM CONFERENCE ON. Communications, Computers and Signal Proces-sing (PACRIM). Victoria, BC, 2013. p. 15–19.

LIPSCOMB, C. E. Medical subject headings (mesh). Bulletin of the Medical Library Asso-ciation, Medical Library Association, v. 88, n. 3, p. 265, 2000.

LIU, M.; MATHENY, M. E.; HU, Y.; XU, H. Data mining methodologies for pharmacovigi-lance. ACM SIGKDD Explorations Newsletter, ACM, v. 14, n. 1, p. 35–42, 2012.

MAHDIRAJI, A. R.; BAUMANN, P. Database support for unstructured meshes. Proc. VLDBEndow., VLDB Endowment, v. 6, n. 12, p. 1404–1409, aug 2013.

MATTINGLY, C. J.; COLBY, G. T.; FORREST, J. N.; BOYER, J. L. The comparative toxico-genomics database (ctd). Environmental health perspectives, National Institute of Environ-mental Health Science, v. 111, n. 6, p. 793–795, 2003.

MEIJ, E.; BRON, M.; HOLLINK, L.; HUURNINK, B.; DE RIJKE, M. Mapping queries to thelinking open data cloud: A case study using dbpedia. Web Semantics: Science, Services andAgents on the World Wide Web, Elsevier, v. 9, n. 4, p. 418–433, 2011.

MILLER, J. J. Graph database applications and concepts with neo4j. In: Proceedings of theSouthern Association for Information Systems Conference. Atlanta, GA, USA: AIS, 2013.(SAIS ’13), p. 141–147.

MOURA, C. S.; RIBEIRO, A. Q.; STARLING, S. Avaliacao de interacoes medicamentosaspotenciais em prescricoes medicas do hospital das clınicas da universidade federal de minasgerais. Latin American Journal of Pharmacy, v. 26, n. 4, p. 596–601, 2007.

NEO4J. Intro to Cypher. nov. 2014. Disponıvel em: <http://neo4j.com/developer/cypher-query-language/>.

NEVES, E. R. Z.; CALDEIRA, T. R.; MELO, G.; MURASAKI, R. T. Projeto bulas:Informacao sobre medicamentos on-line. In: ASSOCIATION FOR COMPUTATIONAL LIN-GUISTICS. Congresso Brasileiro de Informatica em Saude. 2006. v. 10, n. 2006, p. 1474–1479.

NOTIVISA. Sistema Nacional de Notificacoes para a Vigilancia Sanitaria - NOTIVISA.dez. 2014. Disponıvel em: <http://www.anvisa.gov.br/hotsite/notivisa/apresenta.htm>.

Page 120: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

120

PIAO, S. A Highly Accurate Sentence and Paragraph Breaker – Try It! nov. 2014.

PORTER2, M. The English (Porter2) stemming algorithm. nov. 2014. Disponıvel em:<http://Snowball.tartarus.org/algorithms/english/stemmer.html>.

RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text miningusing improved porter?s stemming algorithm. International Journal of Advanced Researchin Computer and Communication Engineering, v. 2, n. 12, p. 4536–4538, dec. 2013.

RATH, A.; OLRY, A.; DHOMBRES, F.; BRANDT, M. M.; URBERO, B.; AYME, S. Repre-sentation of rare diseases in health information systems: the orphanet approach to serve a widerange of end users. Human mutation, Wiley Online Library, v. 33, n. 5, p. 803–808, 2012.

RHO, M. J.; KIM, S. R.; PARK, S. H.; JANG, K. S.; PARK, B. J.; CHOI, I. Y. Developmentcommon data model for adverse drug signal detection based on multi-center emr systems. In:IEEE. International Conference on Information Science and Applications (ICISA). Pattaya,Thailand, 2013. p. 1–7.

RILOFF, E.; LEHNERT, W. Information extraction as a basis for high-precision text classifica-tion. ACM Transactions on Information Systems (TOIS), Volume 12, n. Issue 3, p. 296–333,1994.

ROSA, M. B.; PERINI, E.; ANACLETO, T. A.; NEIVA, H. M.; BOGUTCHI, T. Erros naprescricao hospitalar de medicamentos potencialmente perigosos. Revista de Saude Publica,SciELO Brasil, v. 43, n. 3, p. 490–498, 2009.

SCHEMA.ORG. Welcome to Schema.org. jul. 2015. Disponıvel em: <http://schema.org/>.

SCHRIML, L. M.; ARZE, C.; NADENDLA, S.; CHANG, Y. W.; MAZAITIS, M.; FELIX,V.; FENG, G.; KIBBE, W. A. Disease ontology: a backbone for disease semantic integration.Nucleic acids research, Oxford Univ Press, v. 40, n. D1, p. D940–D946, 2012. USA.

SEAN, C. S. Martindale: The Complete Drug Reference. 33rd. ed. London: The Pharma-ceutical Press, 2002.

SECOLI, S. R. Interacoes medicamentosas: fundamentos para a pratica clınica da enfermagem.Revista da Escola de Enfermagem da USP, v. 35, n. 1, p. 28–34, 2001.

SEHN, R.; CAMARGO, A. L.; HEINECK, I.; FERREIRA, M. B. C. Interacoes medicamen-tosas potenciais em prescricoes de pacientes hospitalizados. Infarma, v. 15, n. 9-10, p. 77–81,2003.

STONEBRAKER, M. Sql databases v. nosql databases. Commun. ACM, ACM, New York,NY, USA, v. 53, n. 4, p. 10–11, abr. 2010.

STORE, Apple. Downloads de App Store no iTunes. set. 2015. Disponıvel em:<https://itunes.apple.com/br/>.

SUN, P. G. The human drug–disease–gene network. Information Sciences, Elsevier, v. 306, p.70–80, 2015.

TESSERACT. OCR. nov. 2014. Disponıvel em: <https://code.google.com/p/tesseract-ocr/>.

Page 121: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

121

THELWALL, M. A web crawler design for data mining. Journal of Information Science, SagePublications, v. 27, n. 5, p. 319–325, 2001.

USP. Trabalhando com a FDA nos EUA - U. S. Pharmacopeial Convention. ago. 2015.Disponıvel em: <http://www.usp.org/pt/usp/reconhecimento-legal/trabalhando-com-fda-nos-eua>.

VALENTINI, G.; RE, M. Network-based drug ranking and repositioning with respect to drug-bank therapeutic categories. Journal IEEE/ACM Transactions on Computational Biologyand Bioinformatics (TCBB)., v. 10, p. 1359–1371, 2013.

WALLACE, J.; PAAUW, D. S. Appropriate prescribing and important drug interactions in olderadults. Medical Clinics of North America, Elsevier, v. 99, n. 2, p. 295–310, 2015.

WHO. World Health Organization. International Classification of Diseases (ICD). out.2015. Disponıvel em: <http://www.who.int/classifications/icd/en/>.

WHO. World Health Organization. International statistical classification of diseases andrelated health problems - 10th Revision. United Nations: World Health Organization, 2015.

WILLIAMS, D.W.; HUAN, J.; WANG, W. Graph database indexing using structured graphdecomposition. In: ENGINEERING, Data (Ed.). IEEE 23rd International Conference on.Istanbul, 2007. p. 976–985.

WINKLER, W. E. The State of Record Linkage and Current Research Problems. 1999.Statistical Research Division, U.S. Census Bureau.

WISHART, D.S.; KNOX, C.; GUO, A. C.; CHENG, D.; SHRIVASTAVA, S.; TZUR, D.; GAU-TAM, B.; HASSANALI, M. Drugbank: a knowledgebase for drugs, drug actions and drugtargets. Nucleic Acids Research, v. 36, p. D901–D906, 2008.

WISHART, D. S.; KNOX, C.; GUO, A. C.; CHENG, D.; SHRIVASTAVA, S.; TZUR, D.;GAUTAM, B.; HASSANALI, M. Drugbank: a knowledgebase for drugs, drug actions and drugtargets. Nucleic acids research, Oxford Univ Press, v. 36, n. suppl 1, p. D901–D906, 2008.

YOON, D.; PARK, M. Y.; CHOI, N. K.; PARK, B. J.; KIM, J. H.; PARK, R. W. Detection ofadverse drug reaction signals using an electronic health records database: Comparison of thelaboratory extreme abnormality ratio (clear) algorithm. Clinical Pharmacology & Therapeu-tics, Wiley Online Library, v. 91, n. 3, p. 467–474, 2012.

ZENG-TREITLER, Q.; GORYACHEV, S.; TSE, T.; KESELMAN, A.; BOXWALA, A. Esti-mating consumer familiarity with health terminology: a context-based approach. Journal ofthe American Medical Informatics Association, Elsevier, v. 15, n. 3, p. 349–356, 2008.

ZHU, F.; HAN, B.; KUMAR, P.; LIU, X.; MA, X.; WEI, X.; HUANG, L.; GUO, Y.; HAN, L.;ZHENG, C. et al. Update of ttd: therapeutic target database. Nucleic acids research, OxfordUniv Press, v. 38, n. suppl 1, p. D787–D791, 2010.

Page 122: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

122

Page 123: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

123

ANEXO A -- ARTIGO SBSI 2015

O estudo realizado gerou a publicacao de um artigo no XI SBSI, ocorrido entre o dia 26

ate o dia 29 de maio de 2015, na cidade de Goiania-GO. O tıtulo da publicacao foi “Adicionando

informacoes estruturadas ao Bulario Eletronico da ANVISA” e pode ser visualizado a seguir.

O objetivo deste artigo foi apresentar as tecnicas utilizadas para estruturar as informacoes das

bulas medicas disponıveis na ANVISA e inferi-las em um banco de dados nao relacional base-

ado em grafos, ou seja, Neo4j, e mostrar as consultas por interacoes medicamentosas, reacoes

adversas, ou contraindicacoes desses registros estruturados.

A apresentacao do artigo foi feita no dia 28 de maio de 2015, nesta oportunidade foi

apresentado o website do Facil Bula, juntamente com todas as tecnicas e tecnologias utilizadas

na concepcao do trabalho, ao final perguntas foram feitas com o intuito de sanar duvidas com

relacao a obtencao das bulas, tambem no modo de estruturacao dos dados e notificacoes contra

automedicacao.

Pontos positivos da participacao integral deste evento listam-se pelo network entre

varios pesquisadores de diferentes regioes do paıs, com areas de interesses diversos que na

medida do possıvel foram dispostos a contribuir com melhorias do projeto, oportunidade de

apresentar a ideia do trabalho e colher feedback de pessoas interessadas, juntamente com a

sinalizacao de parcerias com pesquisa e projetos que podem ocorrer com a maturidade deste

trabalho.

Por fim, a cada palestra presenciada, ideias eram adicionadas ao projeto, por mais sim-

ples que fossem, seja uma tecnica de mineracao de textos ou ate mesmo um forma de negocio

para comercializacao e disponibilizacao por exemplo. O evento proporcionou uma palestra

internacional do professor Kevin Crowston, da Syracuse University, que apresentou algo so-

bre sistemas colaborativos, em que trouxe ideias para que o Facil Bula seja um sistema de

colaboracao entre profissionais da area de saude e pacientes.

Page 124: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Adicionando informações estruturadasao Bulário Eletrônico da ANVISA

Alternative Title: Adding structured informationto the ANVISA’s “Bulário Eletrônico”

João Vitor F. da SilvaPrograma de Pós-Graduação

em InformáticaUniversidade Tecnológica

Federal do ParanáCEP 86300-000 – Cornélio

Procópio – PR – [email protected]

Carlos N. Silla Jr.Programa de Pós-Graduação

em InformáticaUniversidade Tecnológica

Federal do ParanáCEP 86300-000 – Cornélio

Procópio – PR – [email protected]

André Y. KashiwabaraPrograma de Pós-Graduação

em InformáticaUniversidade Tecnológica

Federal do ParanáCEP 86300-000 – Cornélio

Procópio – PR – [email protected]

RESUMOO Ministerio da Saude e outros orgaos relacionados preten-dem evitar a automedicacao e incentivar o cuidado do usoconcomitante entre medicamentos, porem estes orgaos naodisponibilizam ferramentas para facilitar este processo. AANVISA disponibiliza um conjunto de 6.076 bulas em for-mato PDF, mas as informacoes nelas contidas nao estao es-truturadas. Um dos desafios deste trabalho consistiu emextrair automaticamente as informacoes presentes nesse con-junto de bulas. Este artigo apresenta uma metodologia se-miautomatica de mineracao de textos para mapear as bulasda ANVISA nas redes de interacoes entre farmacos da basede dados DrugBank, juntamente com as doencas encontra-das na base SNOMED-CT. Os medicamentos, as doencas,os farmacos e suas relacoes foram estruturadas e armazena-das em um banco de dados em grafos utilizando a tecnologiaNeo4j.

Palavras-Chavemineracao de textos, bulas, interacoes, farmaco, doenca

ABSTRACTThe Brazilian Ministry of Health and other related orga-nizations are concerned with the issue of self-medication.Although these organizations warn about the risks of conco-mitantly using different drugs, they do not provide any toolsto facilitate this process. ANVISA offers a collection of 6.076medication guides in PDF file format. However, the informa-tion available in this guides are in an unstructured format.One of challenges of this work consisted in the automatic re-trieval of information from ANVISAS’s medication guides.

Permission to make digital or hard copies of all or part of this work forpersonal or classroom use is granted without fee provided that copies arenot made or distributed for profit or commercial advantage and that copiesbear this notice and the full citation on the first page. To copy otherwise, torepublish, to post on servers or to redistribute to lists, requires prior specificpermission and/or a fee.SBSI 2015, May 26th-29th, 2015, Goiânia, Goiás, BrazilCopyright SBC 2015.

This paper presents a semiautomatic procedure that mapsANVISAS’s medication guides to DrugBank and SNOMED-CT. The medications, the diseases, the drugs, and their rela-tions were structured and stored on a graph database usingthe Neo4j technology.

Categories and Subject DescriptorsJ.3 [Life and Medical Sciences]: Medical information sys-tems; H.2.8 [Database Applications]: Scientific databases

General TermsDesign, Standardization, Human Factors

Keywordstext mining, drug information, interactions, drug, disease

1. INTRODUÇÃOO tratamento de um paciente doente pode envolver varios

medicos com especialidades diferentes e cada medico podeprescrever diversos medicamentos. Desse modo, e impor-tante realizar, de forma cientıfica e racional, a selecao domelhor conjunto de medicamentos considerando prescricoesdos medicos de cada especialidade. Em outras palavras, asdecisoes em relacao ao tratamento medicamentoso e as in-teracoes estabelecidas entre os medicos sao determinantespara o sucesso de um tratamento [5].

No Brasil o tamanho real do problema dos erros de me-dicacao nao e conhecido, porem, dados estimados pela Fun-dacao Oswaldo Cruz indicam que 24 mil mortes anuais saoocasionadas por intoxicacao medicamentosa [3].

No intuito de contribuir para a tomada de decisao terapeu-tica, o Ministerio da Saude vem promovendo e incentivandoo Uso Racional de Medicamentos. Trata-se de um docu-mento tecnico que apresenta uma compilacao das CondutasBaseadas em Evidencias sobre Medicamentos Utilizados emAtencao Primaria a Saude, constantes no Modulo de Infor-macoes do HORUS - Sistema Nacional de Gestao da Assis-tencia Farmaceutica [5], que consiste em abordar a logica daracionalidade na prescricao, dispensacao e administracao demedicamentos.

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

509

Page 125: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Fora a cartilha, existe um sistema desenvolvido que con-templa uma colecao de imagens ou arquivos Portable Do-cument Format (PDF) das bulas1 do Ministerio da Saude.Esse sistema nao e muito complexo, e conta apenas comuma simples opcao de filtros para pesquisa de conteudo es-pecıfico do medicamento, industria farmaceutica, entre ou-tros. O sistema de busca de bulas nao possui uma opcao depesquisa simples para verificar quais remedios sao indicadospara uma determinada doenca.

Dentro do nosso conhecimento, nao ha nenhum trabalhoque descreve a utilizacao das redes de interacoes para melho-rar o processo de pesquisa dos dados disponıveis pela AN-VISA. Existem dois trabalhos [13, 11], publicados no comecode 2015, que mostram o interesse da comunidade medica in-ternacional em relacao ao estudo de redes de interacoes entremedicamentos.

O primeiro aborda o problema da utilizacao de cinco oumais remedios em idosos e aponta a importancia das redesde interacoes entre drogas e doencas [13]. Este trabalhomostrou que a quantidade de efeitos adversos aumenta deforma nao linear a medida que novos medicamentos sao adi-cionados no tratamento [13]. O segundo trabalho apresentauma metodologia para a construcao de uma rede de inte-racoes com multiplos nıveis incluindo farmacos, doencas egenes [11] e mostrou algumas propriedades utilizando con-ceitos da area de redes complexas.

Existem trabalhos que fundamentam o uso de processosde mineracao de dados em aplicacoes voltadas para area desaude, como o trabalho de Yoon et al. [15], em que os au-tores propuseram um roteiro quantitativo para deteccao dereacoes adversas a medicamentos por meio de registros ele-tronicos de saude dos pacientes de um determinado labora-torio.

Ja no trabalho de Liu et al. [6], e utilizado um algoritmode mineracao de dados para identificar regras de associacoesentre os medicamentos encontrados em conjunto de regis-tros medicos eletronicos. Definida essas associacoes e apli-cado um algoritmo para interacoes entre as regras, sendopossıvel descobrir falhas na administracao concomitante dedeterminados farmacos.

Um solucao proxima a apresentada em Liu et al. [6] e en-contrada no trabalho de Rho et al. [8], em que os autorespropoem tecnicas de mineracao em banco de dados de con-traindicacoes medicas para apresentar regras de associacoesentre os medicamentos.

Verifica-se que os trabalhos realizados na area pesquisadaencontram solucao por meio do historico medico dos pacien-tes. Contudo, em nenhum destes trabalhos foram utilizadastecnicas para identificar regras de associacoes entre medica-mentos, tendo como base as contraindicacoes, reacoes adver-sas e interacoes encontradas nas bulas medicas da ANVISA.

No contexto internacional existem alguns aplicativos parao sistema Android que apresentam ferramentas que verifi-cam as interacoes entre drogas, como o aplicativo Medscape,desenvolvido por WebMD, LLC e o aplicativo Drugs.comMedication Guide, implementado por Drugs.com2, ambossao muito bem avaliados por seus usuarios. No cenario na-cional apesar de existirem aplicativos que colaboram como trabalho dos profissionais da area de saude. Contudo,desconhecemos a existencia de um aplicativo que verifique

1http : //www.anvisa.gov.br/datavisa/filabula/index.asp2http : //www.drugs.com/

as interacoes medicamentosas utilizando as informacoes dasbulas medicas da ANVISA. O nosso trabalho tem um focoregional, ou seja, o sistema sera disponibilizado para profis-sionais que atuam no Brasil.

Neste trabalho, foram utilizadas duas bases de dados: (i)DrugBank3 [14]; (ii) SNOMED-CT4 [4].

O DrugBank e uma base de dados que possui informa-coes sobre os farmacos aprovados e nao aprovados pelo FDA(Food and Drug Administration). O DrugBank tambem pos-sui um conjunto de interacoes farmaco-farmaco suportadapela literatura biomedica [14]. Infelizmente, o DrugBanknao permite a busca por farmacos associados a doencas uti-lizando ontologias medicas ou por meio da utilizacao do CID-105 (Codigo Internacional de Doencas).

Ja o SNOMED-CT possui a classificacao das doencas or-ganizadas utilizando uma ontologia, ou seja, disponibilizaum vocabulario comum da area biomedica organizado emum grafo dirigido acıclico. Contudo, o SNOMED-CT naoapresenta os medicamentos que tratam cada uma das doen-cas.

O DrugBank e o SNOMED-CT fornecem juntos uma im-portante fonte de informacao estruturada para este projeto.Este trabalho propoe a utilizacao do DrugBank, SNOMED-CT, e as bulas da ANVISA para melhorar o acesso a in-formacoes para profissionais brasileiros, permitindo que elesvisualizem as redes de interacoes entre farmacos.

Para realizar esta tarefa, foram utilizadas tecnicas de mi-neracao de textos sobre o conjunto do bulario. O sistemaimplementado realiza a extracao semiautomatica dos far-macos (princıpio ativo e excipientes) e as doencas associa-das de cada medicamento. A partir da lista de farmacosidentificados para cada medicamento e possıvel construir arede de interacoes medicamento-medicamento por meio dautilizacao do DrugBank, juntamente com os termos medicosdo SNOMED-CT. Note que um medicamento e formado porum ou mais farmacos e e indicado para o tratamento de umaou mais doencas. Por esse motivo a rede entre os medica-mentos e induzida utilizando as interacoes conhecidas entrefarmacos e doencas. Todas essas informacoes foram arma-zenadas em um banco de dados baseado em grafo chamadoNeo4j.

2. MATERIAIS E MÉTODOSA Figura 1 apresenta uma visao geral do sistema. O sis-

tema proposto possui quatro etapas principais, sao elas: (i)obtencao das bulas do sıtio web da ANVISA; (ii) prepara-cao, extracao e normalizacao das informacoes das bulas paracadastro no banco de dados relacional; (iii) integracao comoutras bases para identificacao do conteudo relevante ob-tido da normalizacao do texto das bulas e (iv) inclusao dasinformacoes no banco de dados nao-relacional desenvolvidopor meio do conteudo relevante encontrado nas bulas, o seurespectivo topico e nome do medicamento.

2.1 Aquisição dos dadosA ANVISA disponibiliza uma pagina, denominada Bula-

rio Eletronico, para a pesquisa de bulas de medicamentos.Na consulta realizada pelos autores deste trabalho em 5 denovembro de 2014, existiam 6.076 bulas disponıveis no Bula-

3http : //www.drugbank.ca/4http : //www.nlm.nih.gov/snomed/5http : //www.datasus.gov.br/cid10/v2008/cid10.htm

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

510

Page 126: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Figura 1: Uma visao geral das etapas que compoem o processo desenvolvido.

rio Eletronico da ANVISA. O mecanismo de consulta destapagina permite utilizar filtros para consultar o nome do me-dicamente, a empresa fabricante, o numero de expediente, operıodo de publicacao e a quantidade de registros por paginaa serem exibidos.

Para obter as bulas disponıveis no Bulario Eletronico daANVISA foi implementado um robo de busca (web crawler).O Robo automatizou a obtencao dos arquivos no sistema daANVISA, realizando o download das bulas medicas por meiode identificacao de conteudo no HTML da pagina do BularioEletronico.

A sua concepcao foi elaborada na plataforma MicrosoftWindows, em linguagem C Sharp (C#), com a ferramentaIDE Visual Studio 2013 devidamente licenciada para uso.Este robo tambem foi responsavel em capturar o nome domedicamento, a empresa responsavel, e outras informacoespresentes no HTML, seu funcionamento pode ser visualizadopelo vıdeo6 disponibilizado no YouTube.

2.2 Preparação das informaçõesA etapa de “preparacao das informacoes” consistiu em

transformar o arquivo em formato PDF para o arquivo emformato texto. Porem, foram encontrados os seguintes pro-blemas tecnicos:

1. Problemas na extracao de texto do arquivo PDF, de-finido pela falta de formatacao;

2. Topicos das bulas estao diferentes do padrao estabele-cido pela ANVISA [2];

3. Erros ortograficos no conteudo da bula;

4. PDF com a imagem da foto da versao fısica encontradana caixa do remedio.

Foi desenvolvida uma solucao ad hoc para cada um dessesproblemas tecnicos. Os pesquisadores interessados podemobter detalhes da implementacao atraves de um contato di-reto com os autores deste artigo.

O objetivo de solucionar o problema elencado de numero4 e alcancar o maior numero de bulas para construcao das

6http : //www.youtube.com/watch?v = HdyUJwG9GG0

redes, sendo que apenas 15 destas estavam com a foto fısicada bula do medicamento.

Desse modo, foi criada uma rotina para recuperar a ima-gem do PDF, junta-las e alinha-las corretamente, alem deaplicar um tratamento de qualidade nas imagens, ou seja,tornar a imagem do texto mais nıtida. Finalmente, umaferramenta de Optical Character Recognition (OCR) foi uti-lizada para recuperar o texto. A ferramenta OCR utilizadafoi o Tesseract [12].

2.3 Roteiro para segmentação dos tópicosNo arquivo da bula profissional e possıvel encontrar infor-

macoes importantes sobre cada medicamento, sendo com-posta por varios topicos que auxiliam na prescricao do pro-fissional de saude. Existem topicos mais importantes queaparecem com uma certa frequencia nos medicamentos e queserao elencados como:

• Apresentacao: apresenta o medicamento e a empresaresponsavel por sua elaboracao;

• Composicao: mostra os elementos utilizados paracomposicao do medicamento;

• Indicacao: para que este medicamento e indicado;

• Caracterısticas Farmacologicas: mostra como omedicamento funciona;

• Contraindicacoes: quando nao se pode usar o medi-camento;

• Interacoes medicamentosas: o que deve saber an-tes de usar o medicamento;

• Posologia e modo de usar: como deve ser usado omedicamento, onde, como e por quanto tempo pode-seguardar o medicamento;

• Reacoes adversas: quais os males que este medica-mento pode causar;

• Superdose: o que deve ser feito se usar uma quanti-dade maior do que a indicada pelo medicamento.

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

511

Page 127: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

A fim de encontrar cada topico respectivo em cada bula,foi implementado um roteiro, para identificar e marcar a po-sicao de cada topico, com as seguintes etapas: (i) inicializara lista de variacoes de cada topico; (ii) buscar por expressaoregular pela lista de variacoes; (iii) aplicar um tratamentode texto; e (iv) realizar a marcacao do topico.

Para etapa de pesquisa por expressao regular, foram uti-lizados os registros da lista de variacoes, que juntos forma-vam um padrao de busca no conteudo da bula, desta formaquando o padrao era identificado aplicava-se um tratamentono texto.

A etapa de “tratamento de texto” tinha a finalidade deretirar os textos desnecessarios, deixando apenas o topico, enao todo seu conteudo.

Finalmente, utilizando o texto tratado, foi feita a identifi-cacao e marcacao dos topicos por meio de busca utilizandoexpressoes regulares.

2.4 Integração com outras basesNesta etapa foram utilizada duas outras bases de dados:

(i) DrugBank; (ii) SNOMED-CT. Essas bases possuem in-formacoes bem estruturadas com relacao aos farmacos e asdoencas. Desse modo, foram elaborados dois metodos paraintegracao das bulas com outras bases de dados: (1) mape-amento da bula com os farmacos do DrugBank; (2) mapea-mento de termos SNOMED-CT com a bula.

Para integrar a informacao do DrugBank, foi analisadoo texto da composicao de cada medicamento manualmente.Os farmacos identificados foram mapeados com seus respec-tivos drugbank_id’s.

Nesse contexto, o mesmo procedimento foi realizado aostextos referentes a indicacao, contraindicacao e reacao ad-versa das bulas, vinculando-os com as doencas do SNOMED-CT, na qual eram associados aos respectivos concept_id’s.

Para realizar a associacao entre os termos do Drugbanke do SNOMED-CT (com as bulas da ANVISA) foi neces-sario realizar a traducao (automatica) das informacoes doDrugBank e do SNOMED-CT.

Apos a traducao foi possıvel cruzar as informacoes dessasbases com os textos dos topicos das bulas para encontraros respectivos drugbank_id’s e concept_id’s de cada topicodos medicamentos. Essas informacoes sao entao utilizadaspara construir a rede de interacoes entre farmacos, doencase medicamentos.

2.4.1 Roteiro para identificação dos fármacosNo topico “composicao”, verificam-se dois tipos de subs-

tancias: (i) princıpios ativos; (ii) excipiente. Entende-se peloprincıpio ativo o principal farmaco utilizado na composicaodo medicamento, este responsavel pelo efeito farmacologicodo remedio, enquanto que excipientes sao substancias uti-lizadas como veıculo para o princıpio ativo. E possıvel en-contrar substancias que sao farmacos na lista de produtosexcipientes, mas, em geral, essas substancias (por exemplo,farinha) nao sao farmacos.

O roteiro de identificacao de farmacos foi desenvolvidopara analisar o texto da composicao do medicamento paraidentificar aqueles que sao princıpio ativo ou excipiente.

As etapas que o roteiro realiza para identificacao dos far-macos sao: (i) leitura do conteudo da composicao do medi-camento realizado pela quebra de linha do texto (\r\n); (ii)pesquisa por princıpio ativo e excipiente determinada porrespectivos termos que indicam a qual tipo o termo identi-

ficado sera vinculado; (iii) tratamento no termo encontradopara evitar retornar palavras que sao utilizadas apenas naescrita do texto e nao representam um farmaco necessari-amente; (iv) procurar o termo identificado nas drogas dabase DrugBank, traducao da droga e dos sinonimos parapesquisa nos termos; e (v) criar arquivo texto com o mape-amento dos termos identificados com seus respectivos tipose codigo identificador do DrugBank caso seja encontrado.

Figura 2: Exemplo ilustrativo do resultado da iden-tificacao dos farmacos no medicamento Lotanol.

A Figura 2 apresenta um exemplo do processo de identi-ficacao de farmacos realizada no topico composicao do me-dicamento Lotanol, na qual elenca-se todas as etapas reali-zadas pelo algoritmo desenvolvido.

Destaca-se pela Figura 2 a presenca do marcador =[COMP]em vermelho que indica o inıcio do texto referente a compo-sicao da bula, na qual todo o conteudo e separado por meiodas quebras de linhas (\r\n).

O roteiro desenvolvido realiza a leitura linha a linha ateencontrar palavras que indicam inıcio de um prıncipio ativoou excipiente, que respectivamente estao exemplicados nafigura pela palavra “CONTEM” na cor azul e “EXCIPIEN-TES” na cor laranja, e limitados pelos caracteres “....” som-breado em amarelo, quando identificado um prıncipio ativo,e para excipiente delimitado pelo conjunto de caracteres “:”,“,”, “\” e “E” apresentada na cor roxa.

Por fim, entende-se pela Figura 2 que os valores sombre-ados em cinza representam os termos identificados no textocomo princıpio ativo e excipente, desta maneira exclui-sepalavras que nao sao necessarias para identificacao dos far-macos na base DrugBank.

2.4.2 Roteiro para encontrar os termos médicos re-ferentes às doenças

Para integrar os termos medicos do SNOMED-CT foi ne-cessario utilizar uma ferramenta de traducao, pois os termosconstantes nesta base se encontravam em lıngua inglesa oque dificultava sua vinculacao com o texto as bulas.

Apos a traducao dos termos foi realizada uma etapa paratratamento destes na qual o uso de Stop-words7 da lıngua

7http : //www.ranks.nl/stopwords/portugese

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

512

Page 128: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

portuguesa foi responsavel pela remocao de palavras desne-cessarias de todo o texto. Por fim, tem-se a busca destestermos medicos com os topicos dos medicamentos, que aoserem encontrados, neste texto, foram mapeados aos res-pectivos concept_id’s.

2.5 Banco de dados baseado em grafosA informacao em relacao ao mapeamento dos termos me-

dicos concept_id e ao mapeamento dos drugbank_id foramarmazenadas num banco de dados em grafos. O gerenciadorde banco de dados escolhido para esta tarefa foi o Neo4j.

Para visualizar os remedios e suas relacoes, foi escolhidauma ferramenta disponibilizada pelo proprio Neo4j que apre-senta o resultado das consultas em grafo, na qual os verti-ces, tambem chamados de nos, podem representar o medica-mento, os farmacos do DrugBank e os termos do SNOMED-CT, enquanto as arestas representam as relacoes entre esseselementos.

Figura 3: Banco de dados utilizando o Neo4j.

Um remedio e composto por farmacos, e trata um con-junto de doencas (termos SNOMED-CT), alem de quais far-macos interagem com outros farmacos. A Figura 3 mostracomo as informacoes entre as bulas estao interligadas e apre-senta o retorno de uma consulta no Neo4j que foi desenvol-vida pelos dados processados nas etapas anteriores. Paraexemplificar o funcionamento do sistema, foi realizada umaconsulta sobre o medicamento Paracetamol. O Paracetamole composto pelo farmaco Paracetamol, mesmo farmaco quepossui interacao com o medicamento Varfarina Sodica, poreste motivo entende-se que o uso concomitante de Paraceta-mol e Varfarina Sodica possue interacoes medicamentosas.Essas interacoes podem trazer a perda de eficacia de algumcomposto, agravamento de alguma doenca, entre outros pos-sıveis problemas [10].

A linguagem de consulta do Neo4j e denominada Cypher efoi inspirada no SQL para descrever padroes em grafos. Elapermite descrever o que usuario deseja selecionar, inserir,atualizar ou excluir de um banco de dados em grafo sem anecessidade de descrever exatamente como faze-lo [7].

3. RESULTADOS E DISCUSSÃOAlguns experimentos preliminares foram realizados com

a finalidade de analisar as possıveis solucoes para tres pro-blemas propostos no presente trabalho: (i) segmentacao dotexto nos topicos (indicacao, contraindicacao, reacao ad-versa, entre outros) definidos pela ANVISA; (ii) identifi-cacao dos farmacos em particular reconhecer os princıpiosativos e os excipientes utilizados; (iii) mapeamento dos far-

macos com o DrugBank. Para que fosse feita a validacaode cada processo, foi necessario ter um conjunto de bulaspara servirem como referencia para fins comparacao, ou seja,construir um conjunto gold standard. Assim, foram selecio-nadas de maneira aleatoria 100 bulas do total de 6.076, maseliminando 15 (quinze) bulas que apresentaram problemasno processo de reconhecimento do texto da bula utilizandoOCR.

Para cada uma das 100 bulas, foram solucionados de formamanual os problemas propostos, ou seja, os textos das bu-las foram segmentados manualmente nos respectivos topi-cos. Depois foi realizada a analise das composicoes de cadamedicamento com a finalidade de identificar os princıpiosativos e os excipientes para associa-los aos seus respecitvosdrugbank_id’s.

Os experimentos realizados foram utilizados para validaro roteiro de segmentacao e o roteiro de identificacao de far-macos. Nas bulas selecionadas para o experimento, o roteirode segmentacao obteve uma precisao media de 89, 57%, comsensibilidade media de 95, 98% e F-score de 92, 41%. Esteresultado e promissor, porem ainda existe uma grande mar-gem para melhorar a precisao.

Outro experimento foi realizado a fim de encontrar os far-macos utilizados no topico composicao de cada bula do me-dicamento escolhido, por meio dos farmacos presentes nabase do DrugBank. A quantidade total de farmacos nas 100bulas foi de 1.017, das quais 1.017, 185 sao princıpios ativos.O roteiro desenvolvido reconheceu corretamente um total de982 farmacos onde 122 eram princıpios ativos.

3.1 Segmentação de tópicosNo primeiro experimento, foi realizada a segmentacao do

conteudo da bula para realizar a marcacao dos diferentestopicos. Em um primeiro momento, foi desenvolvido umroteiro que converte o texto original de formato PDF emum arquivo de texto puro. Para criar o gold standard, utili-zando o texto original, foi realizada a leitura e identificacaode maneira manual, na qual consistia em ler todo o arquivode texto e realizar a marcacao do topico respectivo, por pa-drao foi utilizado o marcador =[TOPICO]=[inıcio do nome

do topico identificador] que era adicionado ao texto dabula.

Figura 4: Marcacao dos topicos da bula Fluconazol.

Na Figura 4, exibe-se um exemplo de marcacao realizadana bula do medicamento Fluconazol, pode-se visualizar amarcacao do topico Apresentacoes que representa o topicoIdentificacao do medicamento e utiliza o marcador =[TO-

PICO]=[INDE], juntamente com a marcacao do topico Com-posicao que utiliza o marcador =[TOPICO]=[COMP].

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

513

Page 129: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

Conforme citado no inıcio deste capıtulo, a marcacao ma-nual foi realizada em 100 arquivos selecionados de maneiraaleatoria. Pode-se perceber na analise destes que os topicoseram apresentados de uma maneira sequencial, na qual se-guem as normas definidas na Resolucao-RDC No 47, de 8 desetembro de 2009 da ANVISA, para elaboracao e publicacaode bulas medicas [2].

A proxima etapa relaciona-se com o roteiro desenvolvidoa fim de automatizar a identificacao dos topicos no conteudoda bula. Os arquivos de texto dos medicamentos foram sub-metidos ao roteiro que realizava uma busca por expressaoregular das variacoes de cada topico, quando alguma partedo texto respeitasse o padrao definido da expressao, este eramarcado com o respectivo topico.

Por meio do arquivo marcado manualmente e o outro mar-cado automaticamente pode-se realizar uma validacao no ro-teiro desenvolvido para identificacao dos topicos das bulas.Para esta tarefa foi implementado um procedimento que re-cebe o texto marcado manualmente com seu respectivo textomarcado automaticamente, na qual cria uma matriz de con-fusao com os valores para calcular a precisao (Precision), asensibilidade (Recall) e por fim o F-escore (ou F-measure).

O experimento foi realizado para todos os remedios se-lecionados de maneira aleatoria, na qual foi realizada umamedia entre os valores encontrados pelos metodos de valida-cao, no qual calculou-se como media de precisao o valor de89, 57%, juntamente com sensibilidade de 95, 98%, e por fimF-score de 92, 41%.

3.2 Identificação dos fármacosEste segundo experimento foi realizado com o objetivo de

identificar os farmacos existentes na bula, para o desenvol-vimento deste roteiro foi necessaria a criacao de um arquivode texto no qual continha apenas as informacoes do topicocomposicao, vale ressaltar que esta tarefa foi realizada demaneira automatizada e o conteudo do topico composicaofoi identificado pelo roteiro desenvolvido de marcacao.

O mesmo experimento e validacoes apresentados foram re-alizados para as 100 bulas selecionadas aleatoriamente, po-rem o resultado obtido nao foi eficaz e necessita de melhoriasna identificacao de farmacos. Somente o uso da base Drug-Bank nao resolveu o problema por completo da identificacaodos farmacos nas bulas, pois alguns termos continuaram semser identificados.

Para que os termos pudessem ser identificados com maiorfacilidade e ate melhor organizados foram utilizadas ontolo-gias, na qual tem como principal vantagem a possibilidadede especificar o correto significado e relacionamento entre ostermos, evitando interpretacoes imprecisas sobre o domınioque esta sendo modelado [1].

Por meio das ontologias pode-se pesquisar diferentes ter-mos entre as bulas que podem ser sinonimos ou que estaona mesma classe de doenca. Alem disso, alguns termos po-dem ser associados a influencia sobre uma contraindicacao,indicacao e ate mesmo reacao adversa, o que pode ser vistopelo projeto Disease Ontology [9]. Na Disease Ontology foicriada uma estrutura unica para classificacao de doencas afim de unificar a representacao da doenca entre muitas evariadas terminologias e vocabularios, juntamente com asrelacoes existente entre as doencas.

Como exemplo, imagina-se um determinado medicamentoem que sua indicacao e prescrita para melhorar a sobrevidaapos infarto do miocardio em pacientes clinicamente esta-

veis. Porem, e contraindicado seu uso concomitante e fre-quente a um outro que deve ser utilizado com cautela empessoas com doencas cardiovasculares. Note que “infarto domiocardio” e uma “doenca cardiovascular” e ambos os ter-mos estao relacionados no SNOMED-CT. A contraindicacaoidentificada para termos mais gerais pode ser tambem uti-lizada em termos mais especıficos [9], melhorando assim aconsulta com relacao a utilizacao concomitante entre reme-dios.

3.3 Exemplos de consultasPara testar o sistema, algumas perguntas foram elabo-

radas e as respectivas respostas foram obtidas por meio deconsultas feitas utilizando a linguagem Cypher [7]. Por meiodo resultado dos testes, pode-se comprovar que as consultasrealizadas retornaram as relacoes entre os medicamentos.

A comparacao entre o formato da consulta com a sintaxeSQL de um banco relacional se mostraram de compreensaofacil.

Para ilustrar algumas das funcionalidades do sistema, al-guns exemplos estao ilustrados a seguir:

• A seguinte consulta mostra os medicamentos indicadospara a doenca de Alzheimer:

MATCH (med:Bula)-[related]-

(:Doenca {NameDisease: "Alzheimer’s disease"})

WHERE Type(related) = "INDICAC~OES"

RETURN med, Type(related), related LIMIT 20

Figura 5: Medicamentos indicados para tratamentode Alzheimer.

A Figura 5 apresenta vinte medicamentos indicadospara o tratamento de Alzheimer, que no exemplo elenca-se por: Exelon, Reminyl, Hazol, entre outros.

• Pela base desenvolvida e possıvel apresentar hierar-quias sobre termos entre as doencas:

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

514

Page 130: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

MATCH p=(Doenca { NameDisease:

"Alzheimer’s disease" })-[r]->(b)

RETURN *

Figura 6: Hierarquias entre as doencas.

A Figura 6 apresenta as hierarquias entre os termos re-ferentes a doenca de Alzheimer, pela imagem pode-sevisualizar que Alzheimer’s disease (C26929004) per-tence aos termos medicos tauopathy (C111479008) edementia (C52448006).

• A consulta a seguir representa os medicamentos queutilizam aspirina em sua composicao:

MATCH (med:Bula)-[relatedTo:COMPOSIC~AO]-

(:Droga {DrugBankId: "DB00945"})

RETURN med, Type(relatedTo), relatedTo

Figura 7: Medicamentos que possuem aspirina emsua composicao.

Na Figura 7 e exibido o resultado da consulta realizadautilizando como pesquisa o codigo do drugbank_id ao

inves de pesquisar pelo nome do farmaco, que no casoda aspirina seria Acetylsalicylic acid (DB00945). Pormeio desta imagem percebe-se que a consulta retor-nou 32 medicamentos que se encaixavam na condicaoespecificada.

• Com relacao a consulta anterior, imagina-se que umdeterminado paciente que possui insuficiencia renal ne-cessita tomar um medicamento com aspirina em suacomposicao:

MATCH (dr:Droga {DrugBankId: "DB00945"})<-

[:COMPOSIC~AO]-(m:Bula)-[:CONTRAINDICAC~OES]->

(do:Doenca {ConceptID: "C192789001"})

RETURN m, dr, do

Figura 8: Medicamentos que possuem aspirina emsua composicao, porem sao contraindicados para in-suficiencia renal.

A Figura 8 mostra os medicamentos que possuem as-pirina em sua composicao, mas que sao contraindica-dos para pessoas que tenham insuficiencia renal, re-ferente ao termo kidney failure (C192789001) da baseSNOMED-CT. Comparando-se o retorno apresentadopela atual figura com a Figura 7 visualiza-se que a con-sulta retornou apenas 13 medicamentos, e nao 32 comofoi apresentado anteriormente, face a isso, percebe-seque quanto mais condicoes sejam inferidas, medica-mentos mais especıficos podem ser encontrados pelasconsultas.

A linguagem Cypher possibilita de maneira simplificadadiferentes consultas com varios tipos de cruzamento de in-formacoes, a estruturacao de todas essas informacoes resultaem uma contribuicao para o trabalho dos profissionais bra-sileiros, retornando as interacoes entre medicamentos, pos-sıveis contraindicacoes, medicamentos por doenca, entre ou-tras questoes.

4. CONCLUSÃOO presente trabalho propoe uma estrutura baseada em

grafo para apresentar as correlacoes entre farmaco-doenca-medicamento, na qual seja de facil compreensao e visualiza-cao. O modelo criado integra os dados nao estruturados dosmedicamentos obtidos do Bulario Eletronico da ANVISA,juntamente com as drogas disponibilizadas pelo DrugBanke os termos medicos encontrados na base SNOMED-CT. Por

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

515

Page 131: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

meio da estruturacao dos dados e integracao das bases, osresultados apresentados fornecem uma melhoria para a pes-quisa de bulas. Este sistema sera disponibilizado para pro-fissionais brasileiros que precisam identificar rapidamente asinteracoes medicamentosas, contraindicacoes e composicoes.

Nota-se que o uso da tecnologia Neo4j simplifica a com-plexidade das consultas e retorna informacoes necessariaspara auxiliar no trabalho do profissional da saude. O sis-tema de visualizacao disponibilizada pela ferramenta ajudana identificacao de potenciais efeitos adversos causados pelasinteracoes entre medicamentos.

Como trabalho futuro ainda incidira no desenvolvimentoda integracao com outras fontes de informacao, por exemplo,consultas atraves do codigo CID-10 e Disease Ontology.

Alem disso pretendemos apresentar o sistema para analisepor especialistas, medicos e outros profissionais da area desaude.

5. REFERÊNCIAS[1] R. M. d. A. B. J. e. A. d. P. O. A. R. Lamas, J.

L. Filho. Ontologias e web services aplicados aodesenvolvimento de sistemas de informacao geograficamoveis sensıveis ao contexto. Anais do V SimposioBrasileiro de Sistemas de Informacao (SBSI), pages p.157–168, 2009.

[2] ANVISA. Resolucao-rdc no 47, de 8 de setembro de2009, 2009.

[3] S. H. D. B. Cassiani. A seguranca do paciente e oparadoxo no uso de medicamentos. Rev Bras Enferm,58(1):95–99, 2005.

[4] R. A. Cote, C. of American Pathologists, A. V. M.Association, et al. The systematized nomenclature ofhuman and veterinary medicine: SNOMEDinternational. College of American Pathologists;Schaumburg, IL: American Veterinary MedicalAssociation, 1993.

[5] M. da Saude. Uso racional de medicamentos: temasselecionados. 1. ed. Brasılia: Editora MS, 2012. 156 p.

[6] M. Liu, M. E. Matheny, Y. Hu, and H. Xu. Datamining methodologies for pharmacovigilance. ACMSIGKDD Explorations Newsletter, 14(1):35–42, 2012.

[7] Neo4j. Intro to cypher.http://neo4j.com/developer/cypher-query-language/,nov. 2014.

[8] M. J. Rho, S. R. Kim, S. H. Park, K. S. Jang, B. J.Park, and I. Y. Choi. Development common datamodel for adverse drug signal detection based onmulti-center emr systems. In Proceedings of the 2013International Conference on Information Science andApplications (ICISA), pages 1–7. IEEE, 2013.

[9] L. M. Schriml, C. Arze, S. Nadendla, Y.-W. W.Chang, M. Mazaitis, V. Felix, G. Feng, and W. A.Kibbe. Disease ontology: a backbone for diseasesemantic integration. Nucleic acids research,40(D1):D940–D946, 2012.

[10] C. S. Sean and B. Paul. Martindale: the completedrug reference. Pharmaceutical press1Lamberth HighStreet, London SEI, 7:219–599, 2002.

[11] P. G. Sun. The human drug–disease–gene network.Information Sciences, 306:70–80, 2015.

[12] Tesseract. Ocr.https://code.google.com/p/tesseract-ocr/, nov. 2014.

[13] J. Wallace and D. S. Paauw. Appropriate prescribingand important drug interactions in older adults.Medical Clinics of North America, 99(2):295–310,2015.

[14] D. S. Wishart, C. Knox, A. C. Guo, D. Cheng,S. Shrivastava, D. Tzur, B. Gautam, andM. Hassanali. Drugbank: a knowledgebase for drugs,drug actions and drug targets. Nucleic acids research,36(suppl 1):D901–D906, 2008.

[15] D. Yoon, M. Park, N. Choi, B. Park, J. Kim, andR. Park. Detection of adverse drug reaction signalsusing an electronic health records database:Comparison of the laboratory extreme abnormalityratio (clear) algorithm. Clinical Pharmacology &Therapeutics, 91(3):467–474, 2012.

XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.

516

Page 132: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

132

Page 133: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

133

ANEXO B -- E-MAIL ANVISA

- ANVISA- Resposta ao protocolo 2015178840.pdf13/09/2015 Gmail - Anvisa- Em resposta ao protocolo: 2015177822.

https://mail.google.com/mail/u/0/?ui=2&ik=9604b75390&view=pt&q=atendimento.central%40anvisa.gov.br&qs=true&search=query&msg=14e3063f84906d… 1/1

João Vitor Ferrari <[email protected]>

Anvisa- Em resposta ao protocolo: 2015177822.Central de Atendimento ao Público - Anvisa <[email protected]> 26 de junho de 2015 12:02Para: "[email protected]" <[email protected]>

Prezado (a) senhor (a),

Em atenção a sua solicitação, informamos que de acordo com o § 2º do Art. 34. da RDC 47/2009:

"A utilização do conteúdo do Bulário Eletrônico é permitida, desde que se façam constar a fonte de ondeforam retiradas as informações, qual seja: a empresa titular do registro do medicamento, bem como a datada respectiva consulta, e sejam respeitados os direitos autorais, sem prejuízo de sanções cíveis e criminaisem eventuais alterações, que são expressamente proibidas."

Atenciosamente,

Anvisa AtendeCentral de AtendimentoAgência Nacional de Vigilância Sanitária0800 642 9782www.anvisa.gov.brSiga a Anvisa: www.twitter.com/anvisa_oficialEste endereço eletrônico está habilitado apenas para enviar e-mails. Caso deseje entrar em contato com acentral, favor ligar no 0800 642 9782 ou acessar o “Fale Conosco”, disponível no portal da ANVISA (link:www.anvisa.gov.br/institucional/faleconosco/FaleConosco.asp). As ligações podem ser feitas de segunda asexta - feira, das 7h30 às 19h30, exceto feriados.

Page 134: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

134

Page 135: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

135

ANEXO C -- INSCRICAO HOTEL TECNOLOGICO - 1a ETAPA

Page 136: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

136

Page 137: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

137

ANEXO D -- CONVOCACAO PARA BANCA - 2a ETAPA

Page 138: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

138

Page 139: UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ …repositorio.utfpr.edu.br/jspui/bitstream/1/2551/1/CP_PPGI_M_Silva... · 2016. Dados Internacionais de Catalogação na Publicação

139

ANEXO E -- RESULTADO HOTEL TECNOLOGICO