UNIVERSIDADE FEDERAL DE OURO PRETO
Samuel Evangelista Lima de Oliveira
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTESEM SEQUÊNCIAS DE PROTEASE E
TRANSCRIPTASE REVERSA DO VÍRUS HIVPARA A PREDIÇÃO DA RESPOSTA DE
PACIENTES AO TRATAMENTO COM DROGASANTIRRETROVIRAIS
Ouro Preto
2012
UNIVERSIDADE FEDERAL DE OURO PRETO
Samuel Evangelista Lima de Oliveira
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTESEM SEQUÊNCIAS DE PROTEASE E
TRANSCRIPTASE REVERSA DO VÍRUS HIVPARA A PREDIÇÃO DA RESPOSTA DE
PACIENTES AO TRATAMENTO COM DROGASANTIRRETROVIRAIS
Dissertação de Mestrado submetida ao Pro-grama de Pós-Graduação em Ciência daComputação da Universidade Federal deOuro Preto como requisito parcial para a ob-tenção do título de Mestre. Área de concen-tração: Recuperação e Tratamento da Infor-mação.
Orientador:
Luiz Henrique de Campos Merschmann
Co-orientador:
Leoneide Érica Maduro Bouillet
Ouro Preto
2012
IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS
DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA
A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO
COM DROGAS ANTIRRETROVIRAIS
Samuel Evangelista Lima de Oliveira
Dissertação de Mestrado submetida ao Pro-
grama de Pós-Graduação em Ciência da
Computação da Universidade Federal de
Ouro Preto como requisito parcial para a ob-
tenção do título de Mestre.
Aprovada por:
Luiz Henrique de Campos Merschmann, D.Sc. / DECOM-UFOP
(Presidente)
Leoneide Érica Maduro Bouillet, D.Sc. / CiPharma-UFOP
Alexandre Plastino de Carvalho, D.Sc. / IC-UFF
Gisele Lobo Pappa, Ph.D. / DCC-UFMG
Ouro Preto, 09 de Fevereiro de 2012.
Catalogação: [email protected]
O482i Oliveira, Samuel Evangelista Lima de.
Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais [manuscrito] / Samuel Evangelista Lima de Oliveira – 2012.
69 f.: il.; grafs.; tabs. Orientador: Prof. Dr. Luiz Henrique de Campos Merschmann. Co-orientadora: Leoneide Érica Maduro Bouillet
Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em Ciência da Computação.
Área de concentração: Recuperação e Tratamento da Informação.
1. Mineração de dados (Computação) - Teses. 2. Bioinformática - Teses. 3. Seleção de atributos - Teses. 4. Classificação - Teses. I. Universidade Federal de Ouro Preto. II. Título.
CDU: 575.112:004
Agradecimentos
Muitas pessoas �zeram parte destes dois anos de caminhada e a construção e conclu-
são deste trabalho se deve também a elas. Nestes poucos parágrafos venho agradecer a
atenção, carinho, repeito, paciência e apoio recebidos de todos aqueles que trilharam este
caminho ao meu lado.
Primeiramente, agradeço a toda a minha família, especialmente a minha mãe e aos
meus irmãos. A minha mãe, por me apoiar sempre, estar ao meu lado e, principalmente,
por ter orgulho do meu trabalho. E aos meus irmãos pelo carinho que só um irmão é
capaz de compreender.
A minha namorada, Doris, por ter me acompanhado a cada passo me dando forças, me
animando quando era preciso e principalmente me incentivando e ouvindo pacientemente
os mais variados assuntos a respeito de computação de bioinformática.
Ao meu orientador, Luiz Merschmann, por ter me acolhido tão bem como orientando,
por todo o conhecimento cientí�co e pro�ssional compartilhado e, acima de tudo, pela
amizade e sinceridade sempre presentes nesses dois anos de convicência.
A minha co-orientadora, Leoneide Boillet, por ser uma verdadeira fonte de conhe-
cimento que contribuiu imensamente para a realização deste trabalho, e pelos ótimos
conselhos, sugestões e conversas.
Agradeço imensamente a todos os amigos que torceram por mim, aos amigos do
CEFET-OP, amigos do PPGCC/UFOP, os demais amigos da UFOP e aqueles que entra-
ram na minha vida por outros meios, todos vocês, direta ou indiretamente, fazem parte
desta conquista.
Por �m, agradeço a todos os funcionários e professores do DECOM/UFOP pela aten-
ção, dedicação e por me oferecer uma formação técnina e humana de qualidade da qual
tenho muito orgulho.
Resumo
O vírus da Imunode�ciência Humana é um retrovirus que ataca principalmente o sistemaimunológico humano, reduzindo progressivamente a sua e�cácia. Combinações de dro-gas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altastaxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a algunsantirretrovirais e, consequentemente, causar falhas no tratamento.
Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dadospara predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada.Contudo ainda há poucos estudos que avaliem a in�uência que diferentes tipos de atributosna tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho éapresentado um estudo comparativo sobre a utilização de diferentes atributos na prediçãoda resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais.
Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro mo-delos de classi�cação. A partir desses conjuntos de atributos foram realizadas três etapasde testes que envolveram a avaliação do impacto do desbalanceamento das bases no re-sultado dos modelos de classi�cação, a análise da importância de cada grupo de atributose, por �m, uma etapa de seleção de atributos.
A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-seobservar que uma etapa de balanceamento ajudou na obtenção de resultados mais equili-brados entre as duas classes do problema de classi�cação em questão. Por sua vez a análiseda importância dos diferentes grupos de atributos demonstrou que os melhores resultadosde predição foram obtidos para os atributos que representam os níveis de resistência dospacientes às drogas antirretrovirais. Por �m, as bases de dados obtidas após uma fasede seleção de atributos apresentaram melhores resultados de predição quando compostaspor um conjunto variado de atributos. Nesta etapa dos testes foi possível observar no-vamente a importância dos atributos de nível de resistência, bem como a importância deum atributo que representa o tamanho de uma determinada proteína do HIV.
Palavras-chave: Mineração de dados, Classi�cação, Bioinformática, HIV.
Abstract
The Human Immunode�ciency Virus (HIV) is a retrovirus that attacks the human immunesystem, progressively reducing its e�ectiveness. Combinations of antiretroviral drugs areused to treat the infection by HIV. However, the high mutation rate in the HIV virusmakes it resistant to some antiretroviral drugs and leads to treatment failure.
Nowadays, there are bioinformatic studies based on data mining techniques, to predictthe patients' response to antirretroviral therapies. However, there are few studies evalu-ating the contribution of di�erent types of features extracted from the HIV genotypein the prediction of patients' response to antirretroviral therapies. This work presents astudy comparing the in�uence of di�erent types of attributes in the prediction of patient'soutcome to therapy.
The attributes were grouped in di�erent datasets according to its biological meaning.Experiments were conduced trough four classi�cation methods, using the datasets previ-ously generated. Using these datasets it was possible to perform three experiments setswich envolved, the evaluation about the impact of datasets' unbalance in the classi�cationresults, the signi�cance of each attribute group and, �nally, an attribute selection step.
The results shown that, a previous balancing step helped to obtain good results tobooth classes of the prediction problem addressed in this work. The results also shownthat, between the attributes used in this work, the best attribute group for this predictiontask are the attributes that indicate the patients' resistance levels to the antirretroviraldrugs. Complementarly, the datasets obtained after an attribute selection step obtainedbetter prediction results when they are composed of diverse types of attributes. In these�nal experimentes was possible to notice again the signi�cance of the attributes thatindicate the patients' resistance levels, as well, the signi�cance of an attribute wich is thesize of an speci�c HIV protein.
Keywords: Data mining, classi�cation, bioinformatics, HIV.
Sumário
Lista de Figuras viii
Lista de Tabelas ix
1 Introdução 1
2 Classi�cação de Dados 4
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Tarefa de Classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Técnicas de Classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1 Árvores de Decisão Alternadas . . . . . . . . . . . . . . . . . . . . . 8
2.5 Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Classi�cadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6.2 Classi�cador Bayesiano Simples . . . . . . . . . . . . . . . . . . . . 13
2.6.3 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 Máquinas de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7.1 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.2 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Vírus da Imunode�ciência Humana 18
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Sumário vii
3.2 HIV-1 e seu Ciclo de Multiplicação . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Tratamentos Contra a Infecção por HIV . . . . . . . . . . . . . . . . . . . 21
4 Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais 25
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Base de Dados Original . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5 Experimentos Computacionais 31
5.1 Pré-processamento da Base Original . . . . . . . . . . . . . . . . . . . . . . 31
5.1.1 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1.2 Valores Ausentes de Atributos . . . . . . . . . . . . . . . . . . . . . 33
5.2 Organização dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36
5.4 Avaliação Comparativa das Bases . . . . . . . . . . . . . . . . . . . . . . . 39
5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.4.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.5 Análise das Bases Após a Seleção de Atributos . . . . . . . . . . . . . . . . 45
5.5.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.5.3 Análise dos Resultados da Base CfsBD . . . . . . . . . . . . . . . . 49
6 Conclusões 51
Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra 55
Referências Bibliográ�cas 57
Referências Bibliográ�cas 57
Lista de Figuras
2.1 Matriz de confusão para um problema de classi�cação binário. . . . . . . . 6
2.2 Árvore de decisão clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Árvore de decisão alternada . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Árvore de decisão alternada genérica . . . . . . . . . . . . . . . . . . . . . 10
2.5 Representação de um hiperplano ótimo separando duas classes . . . . . . . 16
3.1 Representação do genoma e da partícula viral do HIV-1 . . . . . . . . . . . 19
3.2 Ciclo de multiplicação do HIV-1 . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1 Base de dados original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.1 Base de dados após extração de atributos . . . . . . . . . . . . . . . . . . . 32
5.2 Médias de acurácia para os classi�cadores . . . . . . . . . . . . . . . . . . . 41
5.3 Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade . . . 42
5.4 Médias de F-Measure para os classi�cadores . . . . . . . . . . . . . . . . . 43
5.5 Teste Tukey's HSD para os dados de F-measure a 95% de con�abilidade . . 44
5.6 Resultados de acurácia média para os testes com seleção de atributos . . . 47
5.7 Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade,
testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.8 Resultados de F-measure média para os testes com seleção de atributos . . 48
5.9 Teste Tukey's HSD para os resultados de F-measure a 95% de con�abili-
dade, testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . 49
5.10 ADTree gerada para a base CfsBD . . . . . . . . . . . . . . . . . . . . . . 50
Lista de Tabelas
3.1 Drogas antirretrovirais aprovadas pelo FDA . . . . . . . . . . . . . . . . . 23
5.1 Características da base de dados após a extração de atributos. . . . . . . . 33
5.2 Características das bases de dados geradas. . . . . . . . . . . . . . . . . . . 34
5.3 Comparação das F-measures para o classi�cador Random Forests . . . . . 37
5.4 Comparação das F-measures para o classi�cador ADTree . . . . . . . . . . 38
5.5 Comparação das F-measures para o classi�cador SVM . . . . . . . . . . . 38
5.6 Comparação das F-measures para o classi�cador Redes Bayesianas . . . . 39
5.7 Testes ANOVA para os resultados de acurácia . . . . . . . . . . . . . . . . 41
5.8 Teste ANOVA os resultados de F-measure . . . . . . . . . . . . . . . . . . 44
5.9 Características da base CfsBD. . . . . . . . . . . . . . . . . . . . . . . . . 46
5.10 Características da base ConsBD. . . . . . . . . . . . . . . . . . . . . . . . . 46
5.11 ANOVA para o conjunto de resultados de acurácia nos testes de seleção de
atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.12 ANOVA para o conjunto de resultados de F-measure nos testes de seleção
de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Capítulo 1
Introdução
Segundo o Programa da Organização das Nações Unidas para HIV/AIDS (UNAIDS), no
�nal de 2009, cerca de 33 milhões de pessoas estavam infectadas pelo vírus HIV. Esse
fato, associado à rápida mutação do vírus e à di�culdade de se combater a infecção,
torna a AIDS uma das piores doenças infecciosas presentes no mundo atual. Muitos
esforços têm sido empreendidos pelos pesquisadores para tentar compreender diversos
aspectos em relação à infecção pelo HIV [49, 29, 33], para desenvolver novas drogas [46, 13]
ou tornar as já existentes mais e�cazes. Desde 1985, quando foi demonstrado que a
droga Azidotimidina era capaz de inibir a replicação do HIV e ajudar no controle da
infecção, foram alcançados diversos progressos no tratamento e controle da infecção pelo
HIV através de drogas antirretrovirais.
Um dos principais avanços no tratamento da infecção foi o surgimento da Terapia
Antiretroviral Altamente Ativa (Highly Active Antiretroviral Therapy - HAART), que
consiste na combinação de diferentes tipos de antirretrovirais em um mesmo tratamento.
Tal terapia se mostrou e�ciente no controle da infecção pelo HIV a ponto de reduzir
o número de partículas virais em um indivíduo a níveis indetectáveis [41], diminuindo
consideravelmente a morbidade e mortalidade entre os pacientes infectados com HIV.
Apesar dos resultados positivos alcançados pelo HAART, o sucesso do tratamento com
antirretrovirais é frequentemente limitado pelo surgimento de fenótipos virais resistentes
às drogas que estão sendo utilizadas no tratamento. O surgimento de fenótipos virais
resistentes está relacionado com as altas taxas de mutação do HIV e a pressão evolutiva
exercida pelas drogas utilizadas no tratamento da infecção. Desse modo, é importante
que a escolha das drogas antirretrovirais que farão parte de uma terapia antirretroviral
seja realizada levando-se em consideração informações sobre as sequências genéticas do
vírus do paciente, dado que essas informações podem ser utilizadas para se inferir a
1 Introdução 2
susceptibilidade do vírus às drogas e o tipo de resposta do paciente à terapia. Estudos
prospectivos têm demonstrado que os pacientes cujos médicos têm acesso aos seus dados
de resistência às drogas respondem melhor à terapia do que pacientes cujos médicos não
tem acesso a esses dados [43]. Como o processo de escolha de terapias antirretrovirais
e�cientes é um processo complexo, é desejável que existam ferramentas computacionais
que possam predizer a resposta de um paciente a um determinado tratamento com drogas
antirretrovirais ou que auxiliem no processo de escolha dos tratamentos.
A predição da resposta de pacientes ao tratamento com drogas antirretrovirais pode
ser vista como um problema de classi�cação onde o objetivo é predizer se um tratamento
antiretroviral administrado a um paciente terá um resultado positivo ou negativo. Essa
predição pode ser feita com base em um conjunto de informações relacionadas com o estado
clínico do paciente, com os tratamentos administrados, com as sequências de proteínas do
vírus HIV presente no organismo do paciente e outros.
Alguns trabalhos apresentados na literatura fazem uso de técnicas de mineração de da-
dos para resolver esse problema de classi�cação [37, 1]. Nesses trabalhos foram propostas
ferramentas computacionais que resolvem o problema de classi�cação descrito anterior-
mente para auxiliar na indicação de terapias antirretrovirais que tenham maior probabi-
lidade de sucesso para um determinado paciente.
Apesar de existirem propostas na literatura para solucionar o problema de predição da
resposta de pacientes ao tratamento com drogas antirretrovirais, há uma lacuna quando
se trata de trabalhos que avaliem qual é a importância de cada tipo de atributo utilizado
no processo de classi�cação. Esse fato motivou a proposta principal deste trabalho, cujo
objetivo é avaliar a relevância de diferentes tipos de atributos, que são extraídos das
sequências genéticas dos vírus adquiridos pelos pacientes, para o problema de classi�cação
descrito anteriormente.
Para alcançar esse objetivo, experimentos computacionais foram realizados com bases
de dados contendo diferentes tipos de atributos. Com essas bases de dados foi possí-
vel avaliar, para diferentes classi�cadores, qual(is) tipo(s) de atributos proporciona(m) o
melhor desempenho dos mesmos. Neste ponto, vale ressaltar que uma outra importante
contribuição deste trabalho foi a avaliação de alguns tipos de atributos que ainda não
haviam sido utilizados em outros trabalhos propostos na literatura. Parte dos resultados
desta avaliação foram publicados em [31].
Uma característica comumente encontrada nas bases de dados biológicas, que também
aparece nas bases de dados utilizadas neste trabalho, é o desbalanceamento entre as clas-
1 Introdução 3
ses. No caso das bases aqui utilizadas, aproximadamente 33% das instâncias correspondem
a pacientes que responderam positivamente ao tratamento com as drogas antirretrovirais
e os outros 67% estão relacionados com pacientes que responderam negativamente ao
tratamento. Sendo assim, um segundo objetivo deste trabalho é avaliar o impacto desse
desbalanceamento entre as classes das bases de dados no desempenho dos classi�cadores.
O restante deste trabalho está organizado como especi�cado a seguir. O Capítulo
2 apresenta uma revisão bibliográ�ca sobre o processo de classi�cação e os algoritmos
utilizados neste trabalho. O Capítulo 3 contém conceitos básicos sobre o Vírus da Imu-
node�ciência Humana, assim como alguns aspectos do seu ciclo de replicação e as drogas
disponíveis para o tratamento da infecção. No Capítulo 4 é apresentada a de�nição do
problema abordado neste trabalho, bem como trabalhos relacionados. A descrição dos
experimentos realizados, bem como os resultados desses experimentos são apresentados
no Capítulo 5. Por �m, no Capítulo 6 são apresentadas as conclusões do trabalho, e
sugestões para trabalhos futuros.
Capítulo 2
Classi�cação de Dados
2.1 Introdução
O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in
Databases � KDD) tradicionalmente apresentado na literatura é composto por diversas
etapas, que agregadas, podem ser resumidas em pré-processamento, mineração de dados
e visualização dos resultados.
A classi�cação (ou predição) é uma das tarefas mais importantes da mineração de
dados. A partir de um conjunto de instâncias com características e classes conhecidas, seu
objetivo é construir modelos que sejam capazes de predizer a classe de novas instâncias a
partir das suas características [22]. Diversas técnicas de classi�cação já foram propostas na
literatura por pesquisadores das áreas de estatística, aprendizado de máquina e mineração
de dados.
Dentre as várias áreas de aplicação das técnicas de classi�cação, a bioinformática vem
se destacando nos últimos tempos. Essa é uma área de estudo que trata do armazena-
mento, da análise, da interpretação e da utilização de informações obtidas a partir de
dados biológicos. Exemplos de aplicações incluem o problema de classi�cação de proteí-
nas, a predição da resposta de pacientes a tratamentos, a classi�cação de tumores em
pacientes, e outros.
Neste capítulo, uma breve descrição do processo de classi�cação é apresentada na
Seção 2.2. Em seguida, questões relacionadas com a avaliação de classi�cadores são dis-
cutidas na Seção 2.3. Por �m, a Seção 2.4 apresenta uma breve descrição sobre as técnicas
de classi�cação utilizadas neste trabalho.
2.2 Tarefa de Classi�cação 5
2.2 Tarefa de Classi�cação
O processo de classi�cação pode ser dividido em duas etapas: a etapa de treinamento
e a etapa de teste. O objetivo da etapa de treinamento é construir um modelo de clas-
si�cação a partir de um conjunto de instâncias contidas em uma base de dados. Cada
instância dessa base de dados é caracterizada por um conjunto de atributos e pertence
a uma determinada classe, de�nida por um dos atributos, denominado atributo classe.
As instâncias utilizadas para construção do modelo de classi�cação formam uma base de
dados conhecida como base de dados de treinamento.
Na etapa de teste avalia-se o modelo gerado na etapa anterior quanto à sua capaci-
dade de predizer corretamente as classes de novas instâncias (instâncias cujas classes são
desconhecidas). A avaliação da capacidade preditiva do modelo é realizada a partir de
um conjunto de instâncias diferente daquele usado na etapa de treinamento do modelo.
Esse conjunto de instâncias constitui a base de dados de teste. Assim como as instâncias
do conjunto de treinamento, as instâncias de teste também possuem o valor do atributo
classe conhecido. Isso permite que o resultado obtido pelo modelo de classi�cação possa
ser comparado com os verdadeiros valores do atributo classe das instâncias de teste, per-
mitindo, dessa maneira, que a capacidade preditiva do classi�cador seja calculada.
Um método comumente utilizado na avaliação de classi�cadores é a k-validação cru-
zada. Neste método uma base de dados original de tamanho N é dividida aleatoriamente
em k partições, de forma que cada partição tem aproximadamente Nkelementos. A etapa
de teste é realizada em k iterações e, para cada iteração, uma das k partições é utilizada
como base de dados de teste, e as demais k− 1 partições são utilizadas como base de da-
dos de treinamento. Desse modo, os resultados das medidas de desempenho avaliadas são
calculados como a média aritmética dos resultados obtidos em cada uma das k iterações.
A avaliação da capacidade preditiva de um modelo de classi�cação pode ser feita por
meio de diversas medidas de desempenho, dentre elas, a acurácia, precisão, revocação, F-
measure, área sob a curva ROC e outras. Na próxima seção são apresentadas as medidas
de desempenho utilizadas neste trabalho.
2.3 Medidas de Desempenho
A análise da qualidade de um classi�cador é comumente realizada através de um conjunto
de dados reunidos em uma matriz chamada matriz de confusão. O tamanho de uma matriz
2.3 Medidas de Desempenho 6
de confusão (MC) varia de acordo com o número de classes do problema em questão. Desse
modo, para um problema com m classes a MC gerada corresponde a uma tabela com m
linhas e m colunas, onde cada entrada MCi,j indica o número de instâncias da classe i
que foram rotuladas pelo classi�cador como pertencentes à classe j. Em uma matriz de
confusão de um classi�cador com 100% de acerto, todas as entradas diferentes de MCk,k
(diagonal principal) são preenchidas com o valor 0, ou seja, nenhuma instância de uma
classe i é rotulada como pertencendo a uma classe j.
A Figura 2.1 apresenta a matriz de confusão para um problema de classi�cação binário.
Os quatro resultados que formam essa matriz de confusão são:
• Verdadeiros Positivos: a quantidade de instâncias da classe positiva rotuladas cor-
retamente;
• Verdadeiros Negativos: a quantidade de instâncias da classe negativa rotuladas
corretamente;
• Falsos Positivos: a quantidade de instâncias da classe negativa rotulados com a
classe positiva;
• Falsos Negativos: a quantidade de instâncias da classe positiva rotuladas com a
classe negativa.
Classe Predita
Positiva Negativa
Classe realPositiva Verdadeiros Positivos(VP) Falsos Negativos(FN)Negativa Falsos Positivos(FP) Verdadeiros Negativos(VN)
Figura 2.1: Matriz de confusão para um problema de classi�cação binário.
Os dados de uma matriz de confusão permitem o cálculo de diversas medidas que
podem ser utilizadas na análise de desempenho de um classi�cador. Uma das medidas mais
utilizadas na avaliação de classi�cadores é a acurácia (acc), que representa a porcentagem
de instâncias do conjunto de testes que foram corretamente classi�cadas. A acurácia é
calculada através da razão entre o número de instâncias de teste corretamente classi�cadas
(V P +V N) e o número total de instâncias no conjunto de teste (V P +FP +V N +FN).
O cálculo da acurácia é mostrado na Equação 2.1.
acc =V P + V N
V P + FP + V N + FN(2.1)
2.3 Medidas de Desempenho 7
Utilizar somente a medida de acurácia para avaliar o desempenho de um classi�cador
para bases de dados com desbalanceamento entre as classes pode ser insu�ciente para a
obtenção de conclusões corretas. Isso se deve ao fato de que essa medida tende a privilegiar
a classe majoritária. Por exemplo, um classi�cador que sempre atribui a classe majoritária
às instâncias de teste pode facilmente alcançar uma acurácia de 95% se a base de dados
possuir 95% das instâncias associadas à classe majoritária. Desse modo, algumas outras
medidas de desempenho são importantes na avaliação dos classi�cadores que lidam com
bases desbalanceadas por permitirem uma desassociação entre os erros ocorridos em cada
classe. Entre essas medidas estão a precisão, a revocação e a F-measure.
A medida de precisão indica a capacidade do classi�cador em reconhecer as instâncias
pertencentes a uma classe de interesse enquanto rejeita as demais. Algebricamente, essa
medida é de�nida para uma classe da seguinte forma:
precisão =V P
V P + FP(2.2)
A medida de revocação indica a habilidade do classi�cador para identi�car as instân-
cias de uma classe de interesse. Algebricamente, essa medida é de�nida para uma classe
da seguinte forma:
revocação =V P
V P + FN(2.3)
Apesar de as medidas de precisão e revocação serem su�cientes para de�nir com
exatidão o desempenho dos classi�cadores, a avaliação dos mesmos torna-se mais simples
quando se utiliza uma única medida de desempenho. Sendo assim, foi proposta a F-
measure, que corresponde a uma média harmônica ponderada entre os valores de precisão
e revocação. Essa medida é de�nida da seguinte forma:
F-measure =(1 + β)× precisão× revocaçãoβ2 × precisão+ revocação
(0 ≤ β ≤ +∞) (2.4)
O cálculo dessa medida envolve a de�nição do coe�ciente β, utilizado para de�nir a
importância da precisão em relação à revocação. Utilizando-se β > 1 atribui-se um peso
maior para a revocação no cálculo do valor �nal da F-measure. Caso contrário, ou seja,
para β < 1, atribui-se peso maior para a precisão. Neste trabalho, o valor de F-measure
foi calculado utilizando-se sempre β = 1.
2.4 Técnicas de Classi�cação 8
2.4 Técnicas de Classi�cação
Nesta seção será apresentada uma breve descrição das diferentes técnicas de classi�cação
utilizadas no decorrer deste trabalho.
2.4.1 Árvores de Decisão Alternadas
As Árvores de Decisão Alternadas (Alternating Decision Trees - ADTree) [17] podem ser
vistas como uma generalização das técnicas de árvores de decisão, e de classi�cadores
baseados em regras. Ao propor o classi�cador ADTree o autor tinha como objetivo obter
resultados tão bons quanto aqueles apresentados por classi�cadores tradicionais como o
C5.0 e CART [5], mas que além disso pudessem gerar regras de classi�cação de fácil
compreensão e interpretação.
Para explicar o classi�cador ADTree de forma simples, será utilizado um exemplo que
relacione árvores de decisão convencionais às árvores de decisão alternadas. Para isto
considere a árvore de decisão da Figura 2.2.
Figura 2.2: Árvore de decisão clássica
Na Figura 2.2 pode-se observar uma árvore de decisão tradicional, que possui 3 nós de
decisão e 4 folhas de predição, Essa árvore mapeia as instâncias em duas classes diferentes,
+1 e -1. A classe de uma instância é atribuída pela folha de predição que está ao �nal do
caminho que os atributos a1 e a2 da instância em questão irão percorrer pela árvore. Por
exemplo, para um objeto cujos atributos sejam a1 = 4 e a2 = 3, a classe correspondente
é +1, que é a classe correspondente à folha que está ao �nal do caminho percorrido pelos
atributos a1 = 4 e a2 = 3.
2.4 Técnicas de Classi�cação 9
Generalizando a árvore apresentada na Figura 2.2 para uma ADTree pode-se observar
a nova árvore na Figura 2.3. Para efetuar a generalização da árvore mantêm-se os nós de
decisão, e para cada um dos caminhos que sai de um nó de decisão é associado um nó de
predição contendo um valor real, que representa o peso desse caminho. Em seguida, as
folhas com os valores das classes são excluídas, e por �m a raiz da árvore é representada
por um nó de predição, que também contém um peso associado.
Figura 2.3: Árvore de decisão alternada
De maneira semelhante ao que acontece nas árvores de decisão convencionais, a classe
de uma instância é gerada através do caminho percorrido através da árvore. Contudo,
nas ADTrees, não se associa a classe de uma instância ao valor de uma folha, mas sim ao
sinal obtido pela soma de todos os valores dos nós de predição percorridos da raiz até uma
folha da árvore. Para o mesmo exemplo utilizado anteriormente, a1 = 4 e a2 = 3, a classe
associada a essa instância será o valor retornado pela função sinal. A função sinal retorna
o sinal da soma de todos os de valores presentes nos nós de predição percorridos por uma
instância. Logo, para o exemplo citado, sinal(0, 5 + 0, 3 + 0, 6) = sinal(1, 4) = +1, e
a classe da instância de exemplo é +1. Ou seja, se a soma dos pesos do caminho de�nido
pelos atributos de uma instância for positiva a classe associada à instância é a classe +1,
caso contrário, a classe associada é -1.
Note que a ADTree representada na Figura 2.3 produz os mesmos resultados de classi-
�cação que a árvore de decisão tradicional representada na Figura 2.2. Isso acontece pois
uma árvore de decisão tradicional pode ser representada por várias ADTrees diferentes
sem alterar as regras de classi�cação da árvore original.
Pode-se perceber que na árvore de decisão alternada representada na Figura 2.3 cada
nó preditor tem no máximo um nó de decisão associado a ele. Na Figura 2.4 é apresentada
2.4 Técnicas de Classi�cação 10
uma generalização do conceito de ADTrees apresentada na Figura 2.3. Esta generalização
permite que um nó preditor possa estar associado a vários nós de decisão, o que permite
que, com os valores dos atributos de uma instância, seja possível percorrer múltiplos
caminhos na árvore.
Figura 2.4: Árvore de decisão alternada genérica
Dessa forma, a classi�cação de uma instância desconhecida é feita da maneira descrita
a seguir: o caminho percorrido pela instância começa pela raiz da árvore. Ao atingir um
nó de decisão o caminho continua de acordo com a resposta obtida no mesmo e, ao atingir
um nó de predição, o caminho continua por todas as alternativas possíveis, subdividindo-
se em múltiplos caminhos. A classe associada a uma instância será fornecida pelo sinal da
soma dos valores de todos os nós de predição do conjunto de caminhos percorridos pela
instância.
Por exemplo, suponha uma instância com os seguintes valores de atributos: a1 = 1, 3
e a2 = 3. Estes valores de atributos descrevem um conjunto formado por dois caminhos
na ADTree representada na Figura 2.4. A classe correspondente a essa instância será o
valor de sinal(0, 5 + 0, 3 + 0, 6− 1, 0) = sinal(0, 4), ou seja, a classe será +1.
O conjunto de caminhos percorridos pelos atributos de uma instância em uma ADTree
pode ser visto como um conjunto de regras simples. A soma dos valores dos nós de
predição presentes em cada um desses caminhos é considerado o peso associado a eles
e, dessa forma, o peso associado às regras. Desse modo, uma ADTree também pode ser
vista como um conjunto de regras simples reunidas para formar uma regra complexa com
maior poder de predição. Quanto maior o peso associado a uma regra simples maior será
a in�uência que essa regra exercerá na regra complexa e, consequentemente, na árvore de
decisão.
O processo de agrupar regras simples em uma regra complexa, com maior capacidade
2.5 Random Forests 11
preditiva, chamado de boosting, é utilizado pelo classi�cador ADTree na construção da
árvore de decisão. Para a realização deste processo o ADTree utiliza o algoritmo AdaBo-
ost [40].
A construção de um classi�cador ADTree é um processo iterativo onde, a cada passo,
uma regra simples é adicionada ao conjunto de regras pré-existentes. Cada regra corres-
ponde a uma sub-árvore cuja raiz é um nó de decisão e as folhas são dois nós de predição.
Essa sub-árvore é adicionada como �lha de um nó de predição que pode ou não ser um
nó folha, ou seja, pode-se inserir um nó entre a raiz da árvore e as folhas. A raiz da
árvore é um nó de predição, cujo valor re�ete a distribuição de classes no conjunto de
treinamento. Ou seja, se a classe +1 for majoritária no conjunto de treinamento, o valor
da raiz da árvore será maior que zero, caso contrário, será menor que zero. Quanto maior
for o desbalanceamento entre as classes, maior será o valor absoluto do nó de predição
que representa a raiz da árvore.
2.5 Random Forests
O classi�cador Random Forests [6] consiste em um comitê de árvores de decisão ou árvores
de regressão, em que cada árvore é construída a partir de um conjunto de treinamento
diferente, obtido através de amostragem do conjunto de treinamento original. As predições
realizadas por este classi�cador são feitas através de uma votação entre as árvores do
comitê.
A geração de cada conjunto de treinamento utilizado na construção de cada uma das
árvores é realizada através de uma amostragem aleatória e com reposição do conjunto de
treinamento original. Além disso, o conjunto de treinamento utilizado na construção de
cada árvore tem tamanho igual ao tamanho do conjunto de treinamento original.
Esse tipo de amostragem é chamada de booststrap. Para cada conjunto de treinamento
formado através do booststrap cerca de 1/3 das instâncias do conjunto de treinamento
original não são utilizadas. Essas instâncias são chamadas de out-of-bag e são utilizadas
para se calcular a qualidade de cada árvore e contribuição de cada uma delas para o
comitê.
O Random Forests, segundo uma de�nição formal, é um classi�cador composto por
uma coleção de árvores de decisão {h(x, θ1), h(x, θ2), ..., h(x, θk)} onde, cada θi é um vetor
de números inteiros aleatórios que de�ne quais instâncias do conjunto de treinamento
original serão utilizadas no treinamento de cada árvore. Cada uma das árvores h(x, θi)
2.6 Classi�cadores Bayesianos 12
vota unicamente para de�nir a classe da instância x. A classe atribuída a essa instância
será a classe mais votada pelo comitê de árvores [6].
Outra característica importante do classi�cador Random Forests é que, para a criação
de cada novo nó de uma árvore um subconjunto de atributos é selecionado aleatoriamente,
de forma que a escolha da melhor partição para o nó em questão é feita utilizando-se
somente este subconjunto de atributos escolhido.
O pseudo-código 1 apresentado a seguir descreve de forma simpli�cada como o modelo
de classi�cação é construído pelo Random Forests.
Entrada: T : Conjunto de treinamento original, N: Número de árvores
para cada arvorei ∈ N faça1
Gere um novo conjunto de treinamento ti utilizando amostragem por bootstrap2
do conjunto de treinamento original T ;
Construa a arvorei, sem poda, utilizando o conjunto de treinamento ti;3
Para cada nó da arvorei, escolha aleatoriamente F atributos e determine a4
melhor divisão do nó utilizando os F atributos e o conjunto de treinamento ti ;
�m5
Algoritmo 1: Pseudo-código da construção do classi�cador Random Forests
Para predizer a classe de uma nova instância x, o classi�cador Random Forests realiza
a votação majoritária entre as classes preditas por cada uma das árvores do comitê para
a instância x.
2.6 Classi�cadores Bayesianos
Os classi�cadores estatísticos conhecidos como classi�cadores Bayesianos utilizam o teo-
rema de Bayes para calcular a probabilidade de uma instância X pertencer a cada classe
de um conjunto C = {C1, C2, C3, ..., Cm} e a partir das probabilidades calculadas de�ni-
se a qual classe do conjunto C a instância X pertence. Serão abordados dois tipos
de classi�cadores Bayesianos: os classi�cadores Bayesianos simples e as redes Bayesia-
nas. Os classi�cadores Bayesianos simples consideram que dado um conjunto de valores
X = {x1, x2, ...xn}, o efeito do valor de um atributo xi em uma determinada classe é in-
dependente dos demais valores de atributos do conjunto X. Essa consideração, conhecida
como independência condicional, tem como principal objetivo diminuir a quantidade de
processamento necessário para o cálculo das probabilidades utilizadas para a tarefa de
2.6 Classi�cadores Bayesianos 13
classi�cação.
Por outro lado, as Redes Bayesianas permitem modelar correlações e dependências
entre os atributos de uma instância para utilizá-las na tarefa de predição. A seguir, antes
da apresentação dos classi�cadores Bayesianos, uma breve revisão sobre Teorema de Bayes
é realizada.
2.6.1 Teorema de Bayes
Suponha uma instância X, representada por uma tupla de valores de atributos, que
representa uma instância qualquer. Em problemas de classi�cação, deseja-se saber a qual
classe de um conjunto C = {C1, C2, C3, ..., Ck} a instância X pertence. Seja H a hipótese
de que X pertence a uma classe Ci do conjunto C. Deseja-se saber qual é o valor de
P (H = Ci|X), ou seja, qual é a probabilidade de uma instância X pertencer a uma
determinada classe Ci, dada a tupla de valores de atributos de X.
A probabilidade P (H|X), chamada de probabilidade condicional, ou probabilidade à
posteriori, que é a probabilidade da variávelH assumir um determinado valor, dado o valor
da variável X. Já a probabilidade P (H), conhecida como probabilidade à priori, fornece
a probabilidade de uma hipótese H acontecer independentemente de outros eventos. O
Teorema de Bayes permite o cálculo da probabilidade condicional P (H|X) através da
seguinte equação.
P (H = Ci|X) =P (X|Ci)× P (Ci)
P (X)(2.5)
Na Equação 2.5, P (Ci), P (X), e P (X|Ci) representam, respectivamente, a probabi-
lidade da classe Ci ocorrer no conjunto de dados, a probabilidade de uma instância X
ocorrer no conjunto de dados e a probabilidade de uma instância X ocorrer no conjunto
de dados condicionada à classe Ci. Todas essas probabilidades podem ser estimadas a
partir de um conjunto de dados de treinamento.
2.6.2 Classi�cador Bayesiano Simples
Suponha um conjunto de treinamento formado por N instâncias com os rótulos de classe
conhecidos. Cada instância X é formada por um vetor n-dimensional de valores de atri-
butos X = (x1, x2, x3, ..., xn). O conjunto de classes é composto por C = {C1, C2, ..., Cm}.Dada uma nova instância J , cuja classe é desconhecida, a classe predita pelo classi�ca-
2.6 Classi�cadores Bayesianos 14
dor Bayesiano simples para a instância J será aquela que obtiver a maior probabilidade
condicional P (Ci|J), essa formulação pode ser expressa pela equação.
P (Ci|J) > P (Ch|J) | ∀h, 1 ≤ h ≤ m, h 6= i (2.6)
Ou seja, a classe associada à instância J será aquela que maximizar a probabilidade
P (Ci|J). Para calcular P (Ci|J) o classi�cador Bayesiano simples utiliza o teorema de
Bayes, da forma como apresentado na Equação 2.5. Nessa equação a probabilidade à
priori P (X) é constante para todas as classes, uma vez que a probabilidade de uma
instância aparecer no conjunto de treinamento não depende das classes apresentadas no
mesmo. Dessa forma, pode-se desconsiderar P (X) e a Equação 2.5 pode ser reescrita da
sequinte maneira:
P (Ci|X) ∝ P (X|Ci)× P (Ci) (2.7)
A probabilidade de cada classe Ci no conjunto de treinamento pode ser calculada
através da fórmula P (Ci) =|Ci|N, onde |Ci| é o número de vezes que a classe Ci aparece
no conjunto de treinamento e N é a quantidade de instâncias presente nesse conjunto.
Uma vez que o classi�cador Bayesiano simples assume independência condicional entre os
atributos, a parcela P (X|Ci) pode ser calculada através do produtório da probabilidade
condicional de Ci dado o valor do atributo xk da instância. O calculo de P (X|Ci) é dado
por:
P (X|Ci) =n∏
k=1
P (xk|Ci) (2.8)
= P (x1|Ci)× P (x2|Ci)× P (x3|Ci)× ...P (xn|Ci)
Uma vez calculadas as probabilidades condicionais dos valores de atributos da instân-
cia X para todas as classes Ci do problema em questão, a classe atribuída à instância X
será aquela Ci que obtiver o maior valor de probabilidade P (Ci|X).
2.6.3 Redes Bayesianas
A suposição de independência condicional entre os atributos adotada pelo classi�cador
Bayesiano simples simpli�ca a construção do modelo de classi�cação e os cálculos das
2.7 Máquinas de Vetor de Suporte 15
probabilidades condicionais utilizadas. Contudo, nem sempre essa suposição é verdadeira
e, nesses casos ela pode prejudicar os resultados da classi�cação. As redes Bayesianas
oferecem uma abordagem que permite agregar ao modelo de classi�cação informações
sobre dependências entre subconjuntos de atributos.
As Redes Bayesianas oferecem uma representação dos relacionamentos entre um con-
junto de variáveis através de dois elementos. O primeiro é um grafo acíclico direcionado,
que representa as relações de dependência entre conjuntos de variáveis. Nesse grafo cada
nó representa uma variável aleatória e cada aresta representa uma relação de dependência
probabilística entre os nós. Se existir uma aresta diretamente de um nó A para um nó
B, então A é pai de B, consequentemente B é �lho de A. Se existir um caminho no grafo
de A para C, então A é ancestral de C, e consequentemente, C é descendente de A. Uma
propriedade importante para as Redes Bayesianas é que cada variável é condicionalmente
independente de seus não descendentes, dados os seus nós pais. O outro elemento é a
tabela de probabilidades condicionais (TPC) associadas a cada variável da rede. A TPC
para uma variável X especi�ca a distribuição condicional P(X|Pais(X)), onde Pais(X) são
os pais da variável X. Essas variáveis correspondem aos atributos presentes nos dados.
Para o treinamento de uma Rede Bayesiana a estrutura da rede pode ser fornecida
como entrada ou gerada através dos dados de treinamento. Quando a estrutura da rede
é conhecida, o treinamento do modelo de classi�cação envolve somente o cálculo das pro-
babilidades condicionais para cada variável. Quando a estrutura da rede é desconhecida é
necessário encontrar o conjunto de arestas que interliguem as variáveis, ou seja, é necessá-
rio de�nir a topologia da rede. Esse é um problema de otimização discreta e os algoritmos
utilizados para a construção da Rede Bayesiana diferem principalmente pela forma como
este problema é resolvido.
2.7 Máquinas de Vetor de Suporte
A técnica de classi�cação conhecida como Máquinas de Vetor de Suporte [12] (Support
Vector Machines - SVM) surgiu da teoria de aprendizado estatístico. Classi�cadores que
utilizam esta técnica tentam encontrar um hiperplano que divida o espaço de dados en-
tre as diferentes classes de um problema. Pode-se dividir estes classi�cadores em SVMs
lineares e SVMs não lineares. O primeiro grupo resolve problemas cujas classes são line-
armente separáveis e, o segundo estende os SVMs lineares para resolver problemas cujas
classes não podem ser linearmente separadas.
2.7 Máquinas de Vetor de Suporte 16
2.7.1 SVMs Lineares
Um conjunto de dados é de�nido como sendo linearmente separável se repeitar as seguintes
características. Seja o conjunto de dados D com n instâncias onde, cada instância de D
é associada a uma classe ci ∈ {−1,+1}. D é considerado linearmente separável se for
possível separar os dados das classes -1 e +1 através de um hiperplano.
Podem ser construídos diversos hiperplanos que separam as classes. Cada um desses
hiperplanos de�ne uma margem de separação entre as classes do problema. Hiperplanos
com margens de separação pequenas tendem a super ajustar o modelo aos dados de
treinamento e, com isso, a possibilidade de se classi�car erroneamente uma nova instância
aumenta.
O modelo de classi�cação de uma SVM linear é construído através da busca do hiper-
plano que separe as duas classes do problema obtendo a maior margem possível entre as
classes, ou seja, que a distância entre as instâncias das classes e o hiperplano seja a maior
possível. A esse hiperplano é dado o nome de hiperplano ótimo e o classi�cador SVM é
construído a partir da equação do hiperplano ótimo. A Figura 2.5 representa a separação
de duas classes (retângulo e círculo) através de um hiperplano ótimo.
Figura 2.5: Representação de um hiperplano ótimo separando duas classes
Na Figura 2.5 as instâncias das classes retângulo e círculo que estão cortadas pelas
linhas pontilhadas são as instâncias do conjunto de dados de treinamento que possuem
a menor distância até o Hiperplano ótimo. Essas instâncias, conhecidas como vetores
2.7 Máquinas de Vetor de Suporte 17
de suporte, serão utilizadas para se determinar a equação do hiperplano que separa as
classes.
2.7.2 SVMs Não Lineares
Quando um conjunto de dados de interesse não é linearmente separável as SVMs lineares
não apresentam uma boa solução para o problema, uma vez que não conseguem separar
as classes satisfatoriamente através de um hiperplano.
Para os casos de conjuntos de dados não linearmente separáveis as SVMs não lineares
aplicam um processo de mapeamento não linear aos dados do conjunto de treinamento.
Este processo envolve a aplicação de uma função de transformação que mapeia os dados
do conjunto de treinamento do seu espaço original para um espaço de dimensão maior.
Este espaço de dimensão maior é chamado de espaço de características.
O mapeamento deve satisfazer duas condições: 1) A transformação aplicada deve ser
não linear; 2) A dimensão do espaço de características deve ser su�cientemente alta para
que seja seja possível separar as classes do problema através de um hiperplano
Após realizar o mapeamento dos dados de treinamento para o espaço de características
é realizado o mesmo procedimento de busca pelo hiperplano ótimo adotado pelos SVMs
lineares.
Capítulo 3
Vírus da Imunode�ciência Humana
3.1 Introdução
O Vírus da Imunode�ciência Humana (Human Immunode�ciency Vírus - HIV) perten-
cente à família Retroviridae e sub-família Lentivirinae [27]. Os vírus pertencentes à família
Lentivirinae são caracterizados pela associação com doenças de imunode�ciência ou que
envolvem o sistema nervoso central, associadas a um longo período de incubação, antes
das manifestações clínicas tornarem-se aparentes [23].
O HIV pode infectar diversos órgãos do corpo humano, contudo o seu alvo principal é
sistema imunológico, infectando principalmente os linfócitos T CD4+ [24]. A infecção pelo
HIV reduz progressivamente a e�cácia do sistema imunológico, levando a um completo
colapso do sistema imune, culminando na Síndrome da Imunode�ciência Adquirida (SIDA)
ou �Acquired Immunode�ciency Syndrome� (AIDS) [49], que é caracterizada por sinais
e sintomas constitucionais, caquexia, demência, uma variedade de infecções oportunistas
e/ou neoplasias [42].
O HIV é classi�cado em dois tipos: HIV-1 e HIV-2, sendo o HIV-1 o mais frequente
mundialmente. As sequências de HIV-1 têm sido historicamente classi�cadas, com base
em suas relações �logenéticas, em grupos e subtipos [36] e desta forma o HIV-1 apresenta
três grupos distintos: o grupo M, do inglês �major �, o grupo O de �outlier� e o grupo N de
�new� ou �non� M - �non� O [45]. A classi�cação dos subtipos �logeneticamente equidis-
tantes é baseada em análises das sequências dos genes env e gag [47] e são identi�cados
por letras alfabéticas [36]. Existem 9 subtipos (A1, A2, B, C, D, F1, F2, G, H, J e K) e
51 formas recombinantes circulantes ou CRF, que correspondem a recombinantes virais
que apresentam um genoma mosaico com diferentes subtipos em diferentes regiões genô-
3.2 HIV-1 e seu Ciclo de Multiplicação 19
micas1 [8, 32, 39]. Os grupos N e O estão restritos ao oeste africano. O HIV-2 é composto
por sete subtipos e, assim como os grupos N e O, é mais comum no oeste africano [18].
Neste estudo trabalharemos apenas com indivíduos infectados pelo HIV-1.
3.2 HIV-1 e seu Ciclo de Multiplicação
O HIV-1 possui um genoma constituído por duas moléculas idênticas de RNA �ta sim-
ples. Este genoma apresenta nove janelas abertas de leitura correspondentes a três genes
principais comuns a todos os retrovírus: gag, pol, env e a seis genes adicionais com função
regulatória na replicação viral: tat, rev, nef, vif, vpr, vpu [51]. A Figura 3.1 contém uma
representação esquemática do genoma do HIV e da partícula viral.
Figura 3.1: Representação do genoma e da partícula viral do HIV-1
O gene gag codi�ca as proteínas da matrix (MA), proteína do capsídeo (CA), nucleo-
capsídeo (NC) e a proteína p6. O gene env codi�ca as proteínas gp120 (SU ou superfície)
e gp41 (TM ou transmembrana). Por sua vez, o gene pol codi�ca as proteínas protease
(PR), transcriptase reversa (reverse transcriptase - RT) e integrase (IN). Os produtos dos
genes gag e env são componentes estruturais do núcleo e da membrana externa do vírion
(párticula viral fora da célula hospedeira). Já as proteínas codi�cadas pelo gene pol são
responsáveis por funções enzimáticas essenciais ao ciclo de replicação do vírus [15].
O ciclo de multiplicação do HIV-1 é constituído por uma sequência de etapas que
são reguladas vez por proteínas virais e celulares, que se inicia com a fusão da partícula
viral à célula hospedeira até o brotamento e a maturação de uma nova partícula viral. A
1http://www.hiv.lanl.gov/
3.2 HIV-1 e seu Ciclo de Multiplicação 20
Figura 3.2 representa o ciclo de multiplicação do HIV-1 de forma simpli�cada e, a seguir,
o ciclo de multiplicação é explicado em detalhes.
Figura 3.2: Ciclo de multiplicação do HIV-1São demonstradas as etapas de adsorção, penetração, transcrição reversa do RNA, síntese,montagem e brotamento das partículas virais. Fonte: [34]
O processo de infecção se inicia quando o vírion se liga a uma célula hospedeira através
de interações com a proteína gp120 e o receptor celular CD4, em conjunto com um co-
receptor CCR5 ou CXCR4. Uma vez que essa ligação é realizada com sucesso, formando
o complexo CD4/gp120/co-receptor, promove uma alteração conformacional adicional na
gp120 que leva à exposição do domínio de fusão, presente na gp41, e consequentemente à
inserção na membrana da célula alvo, promovendo assim a fusão das membranas celulares
e viral. Posteriormente ocorre à liberação do conteúdo viral no citoplasma [50, 16, 3].
Uma vez no citoplasma, o capsídeo é dissolvido pelas enzimas do hospedeiro, liberando
o RNA viral e as proteínas MA, RT, IN e Vpr. Esse complexo de proteínas é levado para
o núcleo da célula hospedeira e neste momento a proteína RT faz a transcrição do RNA
viral em uma molécula de DNA viral, que será integrada ao genoma do hospedeiro, em
uma reação processada pela integrase. O DNA viral integrado, conhecido como provírus,
serve como molde para a síntese de RNAs virais, que são transportados para o citoplasma.
O provírus é geralmente quiescente e se replica coordenadamente com o DNA da célula
hospedeira.
3.3 Tratamentos Contra a Infecção por HIV 21
Quando a célula infectada com HIV sofre ativação ou estimulação, o provírus é tran-
sativado resultando na produção e liberação de vírions infecciosos. Uma vez que o DNA
viral foi integrado ao genoma celular, o vírus pode se manter em estado latente por diver-
sos anos. Contudo, uma vez que o vírus se torna ativo ele utiliza a RNA polimerase para
criar cópias do genoma viral e mRNAs. O RNA e os mRNA são transportados para o cito-
plasma, onde os mRNAs utilizam o maquinário celular para produzir as proteínas virais.
As proteínas dos genes gag e gag-pol são geradas como poliproteínas e serão processadas
posteriormente. As proteínas, juntamente com o RNA viral, são transportados para a
membrana celular, onde juntamente com outras proteínas serão montados e brotarão do
hospedeiro como um novo vírion imaturo, que não é capaz de infectar outras células. O
processo de maturação envolve o processamento das poliproteínas Gag e Gag-Pol pela PR,
que realiza a clivagem dessas poliproteínas que então são remontadas para gerar um vírion
estruturado e maduro, capaz de infectar outras células e reiniciar o ciclo de multiplicação
do HIV-1.
3.3 Tratamentos Contra a Infecção por HIV
As drogas desenvolvidas para combater a infecção são chamadas de antirretrovirais e,
geralmente, têm como alvo determinadas fases do ciclo de multiplicação do vírus. Uma
vez que o HIV é um vírus da família Retroviridae, um dos primeiros esforços no desen-
volvimento de drogas antirretrovirais teve seu foco na busca de um composto capaz de
interromper o funcionamento da proteína Transcriptase Reversa e consequentemente o
ciclo de multiplicação do HIV-1. Em [30] foi demonstrado que a droga Azidotimidina
(AZT), também conhecida como Zidovudina, primeiramente utilizada como potencial
droga no combate ao câncer, era capaz de inibir a transcrição reversa e a replicação in
vitro.
Desde 1985, quando foi observado o potencial uso do AZT como antirretroviral, até
hoje, foram desenvolvidos antirretrovirais visando diferentes fases do ciclo de multiplicação
do HIV-1. Atualmente, existem 23 drogas antirretrovirais aprovadas pelo FDA (Food and
Drug Administration), que é o departamento de Controle de Drogas e Alimentos dos
Estados Unidos. Os antirretrovirais estão divididos em 6 grupos, de acordo com o alvo
molecular da droga e o mecanismo de ação da mesma. Os antirretrovirais atacam 5 alvos
moleculares que dizem respeito a estágios diferentes do ciclo de replicação do HIV-1.
No primeiro grupo encontram-se os agentes antivirais de maior sucesso e mais comu-
3.3 Tratamentos Contra a Infecção por HIV 22
mente utilizados: análogos nucleosídios ou inibidores nucleosídios da transcriptase reversa
(NTRI, do inglês, Nucleoside Reverse Transcriptase Inhibitors), que são desoxinucleotí-
deos modi�cados que se ligam a uma molécula de DNA viral que está sendo sintetizada
causando uma terminação prematura da cadeia de DNA. Uma vez que a função de repli-
cação do ácido nucleico da célula normal pode também ser um alvo, esses fármacos via
de regra exibem algum grau de toxicidade ao hospedeiro. Com o tempo, muitos deles
perdem sua potência antiviral em virtude do surgimento de vírus resistentes a eles [28].
O segundo grupo, chamado de Inibidores não Nucleosídicos da Transcriptase Reversa
(Non Nucleoside Reverse Transcriptase Inhibitors - NNRTI), inclui drogas que se ligam
à transcriptase reversa e prejudicam a mobilidade de determinados domínios da proteína,
impedindo a síntese do DNA. O terceiro grupo de drogas, Inibidores de Protease (PIs),
impedem a replicação viral pela ligação ao sítio ativo da protease do HIV, inibindo o
processamento de grandes proteínas virais em seus componentes individuais, impedindo a
maturação do vírus. O quarto grupo de drogas, conhecidos como Inibidores de Fusão, se
ligam à proteína gp41 evitando que o vírus se ligue a células hospedeiras. O quinto grupo
de drogas são os Antagonistas CCR5, que se ligam à bolsa hidrofóbica formada pelas
hélices de transmembrana do co-receptor CCR5 bloqueando a superfície celular receptora
e impedindo que o vírus entre na célula [7]. Por �m, o sexto grupo são os Inibidores de
Integrase, uma classe de drogas projetada para impedir a ação da proteína integrase. A
Tabela 3.1 apresenta a lista do 23 antirretrovirais aprovados pelo FDA.
Apesar dos esforços no desenvolvimento de drogas antirretrovirais, a e�cácia dessas
drogas muitas vezes é comprometida pelo surgimento de fenótipos virais resistentes aos
medicamentos. O surgimento desses fenótipos é resultante da incapacidade de reparo
de leitura do genoma viral pela Transcriptase Reversa. Desta forma, há um surgimento
espontâneo de mutações que podem conferir ao vírus resistência as drogas antirretrovirais
[29]. A taxa elevada de replicação do HIV e sua inerente variabilidade genética são fatores
que levam à identi�cação de variantes virais que apresentam susceptibilidade alterada
às drogas. De acordo com os dados do Los Alamos National Laboratory, 2007, foram
listadas 947 mutações relacionadas à resistência a drogas, dos quais 37 ocorrem no Gag,
321 na protease, 9 na integrase, 374 na RT e 206 no Env. Estas mutações descritas são
predominantemente encontradas no subtipo B e não em outros genótipos do HIV-1 [10].
Estudos demonstram que quando apenas um antirretroviral é utilizado no tratamento
de um paciente podem surgir fenótipos virais resistentes ao antirretroviral utilizado [2].
Essa resistência implica na replicação e�ciente do vírus, mesmo na presença do antirre-
3.3 Tratamentos Contra a Infecção por HIV 23
Tabela 3.1: Drogas antirretrovirais aprovadas pelo FDAClasse de Antirretroviral Nome Genérico Data de Aprovação
Inibidores Nucleosídicos daTranscriptase Reversa
Delavirdina (DLV) Abril, 1997Rilpivirina (RPV) Maio, 2011Saquinavir (SQV) Dezembro, 1995Efavirenz (EFV) Setembro, 1998Etravirinea(ETR) Janeiro, 2008Nevirapina(NVP) Junho, 1996
Inibidores Não Nucleosídicos daTranscriptase Reversa
Abacavir (ABC) Dezembro, 1998Didanosina (ddl) Outubro, 1991
Emtricitabina (FTC) Julho, 2003Lamivudina (3TC) Novembro, 1995Estavudina (d4T) Junho, 1994
Tenofovir DF (TDF) Outubro, 2001Zidovudina (ZDV, AZT) Março, 1987
inibidores de Protease
Atazanavir (ATV) Junho, 2003Darunavir (DRV) Junho, 2006
Fosamprenavir (FPV) Outubro, 2003Indinavir (IDV) Março, 1996Nel�navir (NFV) Março, 1997Ritonavir (RTV) Março, 1996Saquinavir (SQV) Dezembro, 1995Tipranavir (TPV) Junho, 2005
Inibidor de Fusão Enfuvirtida (T-20) Março, 2003
Antagonistas CCR5 Maraviroc (MVC) Agosto, 2007
Inibidores de Integrase Raltegravir (RAL) Outubro, 2007
3.3 Tratamentos Contra a Infecção por HIV 24
troviral [44, 38]. Uma alternativa para solucionar este problema é a utilização da Terapia
Antirretroviral Altamente Ativa (Highly Active Antirretroviral Therapy - HAART), que
consiste na combinação de antirretrovirais de diferentes grupos no mesmo tratamento, de
forma a inibir mais de uma fase do ciclo de replicação do HIV. Em [41] demonstrou-se
que a utilização da HAART pode diminuir a quantidade de partículas virais de um indi-
víduo a níveis indetectáveis. Já em [14] os autores demonstraram que com este tipo de
tratamento o paciente leva um tempo muito maior para desenvolver resistência às várias
drogas utilizadas no tratamento.
O uso da Terapia Antirretroviral Altamente Ativa tem reduzido consideravelmente
a morbidade e mortalidade entre os pacientes infectados com HIV. Porém, o sucesso do
tratamento é frequentemente limitado pela emergência de HIV resistente a drogas durante
a terapia. Um fato importante é que vírus resistentes podem ser transmitidos a indiví-
duos recém-infectados. A transmissão destes vírus resistentes a drogas antirretrovirais é
uma das maiores preocupações em saúde pública, visto que pode levar à situação na qual
não haverá drogas efetivas disponíveis para o tratamento do HIV [48]. A utilização de
sequências de HIV-1 para inferir a susceptibilidade a drogas e a probabilidade de resposta
à terapia é idealmente realizada por sistemas computacionais especializados, auxiliando
os médicos na condução do tratamento. Estudos prospectivos têm demonstrado que os
pacientes cujos médicos têm acesso a dados de resistências às drogas, particularmente
dados de resistência genotípica, respondem melhor a terapia do que os pacientes controles
cujos médicos não tem acesso aos mesmos dados [44]. Esse tipo de informação pode ser
utilizado para auxiliar a escolha de drogas as quais o vírus de um determinado paciente
não possua resistência. Desta forma, a utilização da bioinformática com ferramentas que
tentem predizer a resposta de um paciente a um determinado tratamento com antirretro-
virais, ou mesmo que auxiliem no processo de escolha de tratamentos, poderá bene�ciar
os pacientes, médicos e pesquisadores, permitindo um melhor entendimento da correlação
entre genótipo e tratamento antiviral.
Capítulo 4
Predição da Resposta de Pacientes ao Tra-
tamento com Drogas Antirretrovirais
4.1 Introdução
A infecção pelo HIV e, consequentemente, a AIDS, é um problema de saúde pública de
grande magnitude e oferece inúmeros desa�os cientí�cos em diversas áreas do conheci-
mento. Nas áreas de Biologia e Bioinformática muitos esforços têm sido realizados tanto
para compreender os diversos aspectos relacionados com a infecção pelo HIV [49, 29, 33]
como no desenvolvimento de novas drogas [46, 13] ou de mecanismos para torná-las mais
e�cazes.
Um problema frequente no tratamento da infecção pelo HIV é o surgimento de fenóti-
pos virais resistentes ao tratamento antirretroviral administrado a um paciente. Por esse
motivo, é importante saber a quais drogas um paciente possui resistência para utilizar es-
sas informações no processo de escolha de um tratamento antirretroviral que resulte num
controle satisfatório infecção e, consequentemente, retardar o surgimento de um fenótipo
viral resistente ao tratamento corrente. Desse modo, se torna desejável a utilização de
ferramentas computacionais que possam predizer a resposta de um paciente a um deter-
minado tratamento com antirretrovirais.
Alguns trabalhos apresentados na literatura já abordaram o problema da predição da
resposta de pacientes ao tratamento com drogas antirretrovirais [37, 1, 52]. Nesses tra-
balhos foram desenvolvidas ferramentas que utilizam técnicas de classi�cação e regressão
logística para predizer o resultado de um determinado tratamento antirretroviral. Em
[52], os autores formularam a hipótese de que o resultado de tratamento administrado a
um paciente é in�uenciado tanto pelo genoma do hospedeiro quanto do vírus que o infecta.
4.2 Trabalhos Relacionados 26
Apesar de as soluções já apresentadas na literatura terem obtido resultados promis-
sores para o problema de predição, na maioria dos trabalhos em questão não são apre-
sentados detalhes sobre que in�uência diferentes tipos de atributos exercem no resultado
�nal da predição. Esse tipo de análise foi realizada apenas em [1], porém a base de dados
utilizada pelos autores e os atributos extraídos da mesma são diferentes da base de dados
e dos atributos utilizados neste trabalho.
No presente trabalho o problema da predição da resposta de pacientes ao tratamento
com antirretrovirais é abordado com enfoque na avaliação dos atributos utilizados para a
predição. A base de dados utilizada contém registros de pacientes recém infectados pelo
HIV-1 que não receberam nenhum tratamento prévio para essa doença. Além disso não
há na base de dados utilizada nenhuma informação sobre quais drogas são administradas
para cada paciente.
Na seção 4.2 serão apresentados os trabalhos relacionados ao problema de predição
da resposta de pacientes às drogas antirretrovirais. Em seguida uma descrição detalhada
sobre a base de dados utilizada na realização deste trabalho é apresentada na Seção 4.3.
4.2 Trabalhos Relacionados
Predizer a resposta de um tratamento antirretroviral administrado a um paciente é um
problema que tem sido abordado por uma série de trabalhos de bioinformática. Geral-
mente esses trabalhos têm como objetivo a criação de ferramentas computacionais que
auxiliem na escolha de um conjunto de drogas para compor um coquetel de tratamento.
A necessidade de pesquisas sobre o tema e o desenvolvimento de tais ferramentas surge
devido às di�culdades que os especialistas encontram para escolher o tratamento mais
adequado para cada paciente, uma vez que essa escolha envolve um número muito grande
de variáveis, tais como, as diferentes possibilidades de combinações de drogas, os fatores
clínicos de cada paciente, as mutações do vírus HIV presente no organismo do paciente,
as drogas às quais o paciente apresenta resistência, dentre outros.
A seguir são descritos alguns trabalhos que foram propostos para tratar do problema
da predição da resposta de um paciente à terapia antirretroviral e auxiliar na tomada de
decisão sobre a escolha de um tratamento.
Em [37] os autores utilizaram um conjunto de modelos de predição colaborando entre
si para otimizar a escolha de uma terapia antirretroviral para um paciente. Experimentos
foram conduzidos com dados extraídos do banco de dados integrado EuResist(EIDB), que
4.2 Trabalhos Relacionados 27
contém genótipos HIV e dados clínicos de respostas a terapias antirretrovirais. Uma das
principais características desse trabalho é que os modelos de predição foram treinados com
dois tipos de bases de dados, a primeira contendo somente informações genotípicas dos
pacientes e os tratamentos administrados ao mesmo e, a segunda, formada por todos os
atributos da primeira base juntamente com outros dados como, o históricos de tratamentos
anteriores dos pacientes, idade, sexo, dados demográ�cos, contagem da carga viral e de
células T CD4+, dentre outros. Apesar de o modelo de predição utilizado ser treinado
com as duas bases de dados, ao utilizar o modelo gerado para se predizer a resposta de
um tratamento para um novo paciente não é necessário informar os dados que foram
adicionados à segunda base de dados.
O modelo �nal de predição consiste em um conjunto de três modelos diferentes. Cada
modelo é formado por uma camada de geração e seleção de atributos e uma camada de
regressão logística utilizada para predição. Os modelos utilizados são chamados de Evo-
lutivo, Gerador Discriminativo e um Modelo de Mistura de Efeitos. O modelo Evolutivo
utiliza atributos de mutação e históricos de tratamento juntamente com um tipo de atri-
buto que quanti�ca, para cada droga, qual é a possibilidade do surgimento de mutações
no vírus presente no organismo do paciente que o tornem resistente à droga em ques-
tão. O modelo Gerador utiliza redes Bayesianas para modelar a interação entre as drogas
presentes no histórico de tratamento de um paciente. Por �m, o Modelo de Mistura de
Efeitos utiliza como atributos as interações possíveis entre mutações e drogas antirretro-
virais em conjunto com atributos de mutações, fatores clínicos dos pacientes, informações
demográ�cas e o histórico de tratamento de cada paciente.
O modelo �nal de predição gerado pode ser utilizado para auxiliar na seleção de tra-
tamentos antirretrovirais para um paciente. Além disso, é possível observar mutações
presentes nas sequências de Protease, Transcriptase Reversa e Integrase, bem como uma
estimativa do nível de resistência de um paciente às drogas antirretrovirais. Os autores dis-
ponibilizam uma ferramenta online que pode ser acessada em http://engine.euresist.org/.
Em [1] foram utilizados diferentes grupos de atributos na resolução do problema da
predição da resposta de um paciente ao tratamento com drogas antirretrovirais. A ava-
liação da resposta dos pacientes foi realizada para cada episódio de troca de tratamento,
ou seja, o momento em que o paciente deixa de usar um conjunto de drogas para utili-
zar outro. Foram utilizados 5 grupos diferentes de dados extraídos a partir do genótipo
viral dos pacientes. O primeiro conjunto de dados, identi�cado como Indicador, contém
atributos relacionados à presença de mutações no HIV e às drogas utilizadas no trata-
4.2 Trabalhos Relacionados 28
mento. Todos os demais conjuntos de dados incluem também os atributos presentes no
grupo Indicador. O segundo grupo de atributos, chamado Fenótipo, contém um indica-
dor fenotípico de resistência antirretroviral, este indicador é calculado para cada droga
em particular de acordo com o método apresentado em [4]. O terceiro grupo de atribu-
tos, chamado Atividade, contém atributos que fornecem uma estimativa do quanto um
coquetel antirretroviral será efetivo contra a infecção de um paciente. O quarto grupo
de atributos, chamado Barreira Genética, fornece a probabilidade do surgimento de um
fenótipo viral resistente a um medicamento. Por �m, o quinto grupo de atributos, deno-
minado Contagem de Progressão Genética (Genetic Progression Score - GPD), fornece o
tempo esperado para o surgimento de um determinado padrão de mutação.
Foram utilizados seis métodos de aprendizagem de máquina diferentes na avaliação
de cada um dos grupos. Os resultados da predição demonstraram que os grupos Fenótipo,
Atividade, Barreira Genética e GPD alcançaram melhores resultados de predição que o
primeiro grupo (Indicador). Os melhores resultados foram obtidos a partir dos grupos
Fenótipo e Barreira Genética. A diferença de resultados entre os diferentes classi�cadores
não foi signi�cativa, levando os autores à conclusão de que o principal fator para o sucesso
da predição é a escolha do conjunto de dados de entrada, e não do algoritmo a utilizado.
Ao �nal deste trabalho, os autores desenvolveram uma ferramenta computacional para
auxiliar na seleção de tratamentos antirretrovirais para um paciente. Essa ferramenta,
chamada THEO1 (THErapy Optimizer) pode ser acessada livremente para propósitos de
pesquisa.
No trabalho proposto em [52], os autores têm como objetivo veri�car a veracidade da
hipótese de que a resposta de um paciente ao tratamento com drogas antirretrovirais é
in�uenciada tanto pelo genoma do hospedeiro quanto do vírus HIV. Para isto os autores
supõem que, em seu processo de mutação, o HIV preserva pequenas sequências de pro-
teínas, chamadas motivos lineares. Os autores formularam a hipótese de que a presença
de motivos lineares no genoma do HIV que sejam comuns a motivos lineares do genoma
humano podem in�uenciar a resposta de um paciente ao tratamento administrado.
Os dados utilizados nos experimentos realizados nesse trabalho foram retirados do
Banco de Dados de HIV da Universidade de Stanford. A base utilizada é formada por
dados de 2019 pacientes. Para a tarefa de predição da resposta dos pacientes às drogas
antirretrovirais os autores utilizaram um método de regressão logística que efetua uma
etapa anterior de seleção de atributos.
1http://www.geno2pheno.org
4.3 Base de Dados Original 29
Através dos resultados obtidos na predição da resposta dos pacientes às drogas antir-
retrovirais e da etapa de seleção de atributos os autores demonstraram que a utilização de
determinados motivos lineares presentes tanto na sequência da Transcriptase Reversa do
vírus quanto no genoma humano, contribuiu para aumentar o poder preditivo dos métodos
utilizados. Os autores identi�caram também duas posições de mutação na Transcriptase
Reversa que se mostraram bons indicadores de resposta negativa em pacientes que utili-
zam apenas um medicamento na composição do seu tratamento. Contudo, estes atributos
de mutação não se mostraram bons indicadores de resposta em pacientes que utilizam uma
terapia HAART.
4.3 Base de Dados Original
A base de dados original, que posteriormente foi processada para gerar as bases utilizadas
nos experimentos computacionais realizados neste trabalho, foi obtida no website Kaggle2,
que disponibilizou essa base para uma competição de bioinformática. Originalmente ela
foi montada a partir da base de dados de HIV da Universidade de Stanford3. Essa base
contém dados de 1692 pacientes que haviam contraído o vírus HIV-1 e no momento da
coleta dos dados ainda não haviam recebido qualquer tipo de tratamento. Um tratamento
é de�nido como a administração de uma ou mais drogas a um paciente com o objetivo de
diminuir a carga viral do mesmo. Os paciente passaram a receber o tratamento após a
coleta de dados.
Cada instância da base de dados contém os seguintes atributos para um paciente:
• A sequência de nucleotídeos da Transcriptase Reversa (Reverse Transcriptase�RT)
do vírus que ele contraiu;
• A sequência da nucleotídeos da Protease (PR) do vírus que ele contraiu;
• A contagem de células CD4+ em 1 mL de sangue;
• A carga viral (Viral Load -VL) no mesmo mL de sangue;
• A resposta ao tratamento com drogas antiretrovirais.
O atributo classe é o atributo de resposta ao tratamento, que indica se o paciente
obteve ou não progresso no tratamento admininstrado após a coleta dos dados. Para essa
2http://www.kaggle.com3http://hivdb.stanford.edu/
4.3 Base de Dados Original 30
base de dados considera-se que houve um progresso se após de 16 semanas de tratamento
tiver ocorrido uma redução de 100 vezes na carga viral de um paciente com drogas anti-
retrovirais.
Das 1692 instâncias da base de dados, 552 correspondem a pacientes que responderam
positivamente ao tratamento administrado (atributo classe com valor igual a 1) e as outras
1140 estão relacionadas com pacientes que não responderam ao tratamento (atributo
classe com valor igual a 0). Desse modo, a base de dados contém 67,4% de instâncias cujo
atributo classe tem valor igual a 0 e 32,6% de instâncias cujo atributo classe tem valor
igual a 1.
Os atributos de protease (PR) e transcriptase reversa (RT) são formados por sequên-
cias de nucleotídeos que são representadas por cadeias formadas pelas letras A, C, G e
T, as quais representam os nucleotídeos Adenina, Citosina, Guanina e Timina, respec-
tivamente. Esses atributos têm uma grande probabilidade de conter diferenças de uma
instância para a outra, dado que o HIV possui uma alta taxa de mutação. Desse modo, em
instâncias diferentes, podemos ter sequências de tamanhos diferentes e formadas por com-
binações distintas de nucleotídeos. O formato dessa base de dados original é apresentado
na Figura 4.1.
PR RT CD4 VL(log10) RespostaCCTCAAATCACTTGTGCC... CCCGTTAGCCATGC... 256 6,4 1CCTCGGTTCACTCTTGCA... CCCATCAACTGCCA... 500 1,5 0CCTCAACTCTTTGGCACC... CCCATCAGTCCTGC... 1231 3,2 0
. . . . .
. . . . .
. . . . .CCTCGGTTCACTCTTGGC... CCCATCAAATGCCA... 120 4,5 0
Figura 4.1: Base de dados original.
Para a resolução do problema de classi�cação abordado neste trabalho foram ado-
tados os seguintes passos. Inicialmente foram extraídos, para cada paciente, uma série
de atributos das sequências de nucleotídeos da Protease e da Transcriptase Reversa do
vírus. Uma vez extraídos, esses atributos foram agrupados em diferentes bases de dados
de acordo com o seu signi�cado biológico. A qualidade de cada grupo de atributos foi
avaliada a partir dos resultados de classi�cação obtidos para cada uma das bases de dados
construídas. Em um segundo momento técnicas de seleção de atributos foram aplicadas
a uma base de dados que compreende todos os atributos utilizados no presente trabalho.
Outras duas bases foram geradas e avaliadas. O capítulo a seguir apresenta todos os
detalhes dos experimentos conduzidos neste trabalho.
Capítulo 5
Experimentos Computacionais
5.1 Pré-processamento da Base Original
5.1.1 Extração de Atributos
A grande quantidade de nucleotídeos que representam a RT e a PR dos vírus e a variação
do tamanho das sequências em instâncias diferentes da base nos impõem a realização de
um pré-processamento dessas sequências para a obtenção de um conjunto uniforme de
atributos que possa ser utilizado na tarefa de classi�cação.
Sendo assim, um pré-processamento das sequências de RT e PR foi realizado para
extração dos atributos que foram utilizados na tarefa de classi�cação. O web service
Sierra1, da Universidade de Stanford, foi utilizado para a extração dos atributos. Esse
web service nos fornece acesso ao algoritmo HIVdb[26] e, por meio da sua interface, aceita a
submissão das sequências de RT e PR, retornando um XML com as seguintes informações:
• O subtipo do vírus;
• Mutações encontradas nas sequências submetidas;
• O tamanho das sequências;
• A similaridade destas com uma sequência de consenso2.
1http://sierra2.stanford.edu/sierra/html/webservices/index.shtml2As sequências de consenso utilizadas para cada subtipo são derivadas de um alinhamento com
as sequências do subtipo correspondente mantidas no Banco de Dados de Sequências de HIV de LosAlamos(hiv-web.lanl.gov). Sequências de consenso são referências comumente utilizadas para a compa-ração de sequências.
5.1 Pré-processamento da Base Original 32
• Os valores de nível de resistência de um paciente a cada uma das 19 drogas (inibido-
ras de PR e RT) aprovadas pelo Food and Drug Administration (FDA) e registradas
no banco de dados utilizado.
A estrutura do XML retornado pelo web service Sierra pode ser observada no Anexo A.
A partir das informações contidas no XML gerou-se uma nova base de dados, substituindo-
se as sequências de PR e RT pelos atributos extraídos. A Figura 5.1 apresenta o formato
da base de dados gerada após o pré-processamento das sequências de RT e PR. Além
dos atributos CD4, VL e Resposta, contidos na base de dados original, essa base possui
os seguintes atributos extraídos da sequências de RT e PR: subtipo de vírus, o tama-
nho das sequências de Transcriptase Reversa (TRT ) e Protease (TPR), a similaridade das
sequências de Transcriptase Reversa (SRT ) e de Protease (SPR), as mutações (M1 atéMn)
presentes nas sequências e, por �m, os valores de nível de resistência de um paciente aos
medicamentos antirretrovirais (N1 até Nk). Para o atributo Resposta O VALOR 1 indica
que o paciente obteve resposta positiva ao tratamento e, o valor 0 indica que o paciente
não obteve resposta ao tratamento.
Subtipo TRT TPR SRT SPR M1 ... Mn N1 ... Nk CD4 VL RespostaB 270 99 98 95 0 ... 1 15 ... 60 234 2,3 0B 212 99 97,6 92 0 ... 0 15 ... 45 294 1,3 1. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .B 212 99 97,6 92 0 ... 0 15 ... 45 294 1,3 1
Figura 5.1: Base de dados após extração de atributos
As características da base de dados referentes aos grupos de atributos extraídos a
partir das sequências de RT e PR são apresentadas na Tabela 5.1. O atributo subtipo
indica qual é o subtipo do vírus presente no paciente. O tamanho das sequências indica
quantos aminoácidos cada uma das sequências (RT e PR) contém. Esse atributo for-
nece informação sobre qual tipo de mutação aconteceu em uma sequência. Por exemplo,
se uma sequência de RT é maior que a sequência de consenso utilizada, é provável que
essa sequência tenha sofrido mutações de inserção, ou seja, que nucleotídeos tenham sido
inseridos ao longo da sequência. O atributo de similaridade apresenta o percentual de
semelhança da sequência em relação a uma sequência de consenso, o que pode ser utili-
zado para determinar o seu grau de mutação. Os atributos de mutação são binários, de
forma que o valor 1 representa que o vírus presente no paciente possui uma determinada
mutação e o 0 indica que o vírus não possui aquela mutação. Por �m, os atributos de
5.2 Organização dos Experimentos 33
nível de resistência informam o grau de resistência de um paciente a um determinado me-
dicamento. Os níveis de resistência às drogas antirretrovirais fornecidos pelo web service
Sierra são calculados através de informações de resistência à drogas antirretrovirais ob-
servadas clinicamente juntamente com informações de resistência relatadas na literatura,
mais detalhes sobre este procedimento podem ser observados em [35]. Para os atributos
de nível de resistência quanto maior o valor do atributo, maior o nível de resistência a
uma droga antirretroviral e, portanto, menor a e�cácia da mesma no tratamento.
Tabela 5.1: Características da base de dados após a extração de atributos.
Grupos de Atributos Quantidade TipoSubtipo 1 Discreto {B,C,F etc.}Mutação 386 BinárioNível de resistência 19 NuméricoTamanho 2 NuméricoSimilaridade 2 Numérico
A partir deste ponto, todas as referências à base de dados estarão considerando a base
obtida após o pré-processamento das sequências de RT e PR (ver Figura 5.1).
5.1.2 Valores Ausentes de Atributos
Como 80 das 1692 instâncias da base de dados não continham a sequência da PR do
vírus, com o pré-processamento das sequências de RT e PR para extração dos atributos,
não foi possível de�nir os valores de todos os atributos listados na Tabela 5.1 para essas
instâncias. Desse modo, após o pré-processamento, 80 instâncias �caram com valores
ausentes para alguns atributos.
Para resolver esse problema adotou-se uma abordagem supervisionada, onde o preen-
chimento dos valores ausentes foi realizado com a média dos valores existentes nas demais
instâncias da base. Para os atributos numéricos utilizou-se a média aritmética obtida e,
para os atributos binários, adotou-se o valor 0 sempre que a média aritmética foi menor
que 0,5 e o valor 1 sempre que a média foi maior ou igual a 0,5.
5.2 Organização dos Experimentos
Como um dos objetivos deste trabalho é investigar quais grupos de atributos extraídos das
sequências de RT e PR geram os melhores resultados na tarefa de predição da resposta
5.2 Organização dos Experimentos 34
de um paciente ao tratamento com drogas antirretrovirais, experimentos com quatro téc-
nicas de classi�cação foram realizados com bases de dados contendo diferentes grupos de
atributos.
As bases de dados utilizadas nos experimentos foram geradas juntando-se os atributos
de contagem de células CD4+ (CD4) e carga viral (VL) dos pacientes aos grupos de
atributos extraídos a partir das sequências de RT e PR do vírus (ver Tabela 5.1). Desse
modo, foram criadas 5 bases de dados (uma para cada grupo de atributos listado na
Tabela 5.1 e uma contendo todos os grupos de atributos). Vale ressaltar que o atributo
subtipo do vírus não foi utilizado nas bases geradas pelo fato de quase todas as instâncias
(98,7%) estarem associadas ao subtipo B, o que torna esse atributo pouco relevante para
a tarefa de classi�cação. A Tabela 5.2 apresenta o nome das bases geradas e especi�ca o
conjunto de atributos utilizado em cada uma delas.
Tabela 5.2: Características das bases de dados geradas.
Base AtributosMutBD Mutações encontradas nas sequências de RT e PR + VL + CD4NivBD Níveis de resistência aos antirretrovirais + VL + CD4SimBD Similaridade das sequências de RT e PR + VL + CD4TamBD Tamanho das sequências de RT e PR + VL + CD4CompBD Mutações + Níveis de resistência + Similaridades + Tamanhos + CD4 + VL
Com essas cinco bases de dados geradas é possível avaliar para diferentes classi�cado-
res:
• Qual(is) grupo(s) de atributos proporciona(m) o melhor desempenho dos classi�ca-
dores.
• Se bases que utilizam um único grupo de atributos apresentam melhor desempenho
na classi�cação do que a base completa (CompBD).
A avaliação comparativa das bases de dados foi realizada com quatro técnicas de
classi�cação comumente utilizadas em trabalhos de bioinformática: ADTree [17], Random
Forests [6], Redes Bayesianas [11] e Support Vector Machines [12].
Os experimentos envolvendo as técnicas ADTree, Random Forests, Redes Bayesianass
e Support Vector Machines foram conduzidos utilizando-se os algoritmos ADTree, Ran-
domForest, BayesNet e LibSVM, respectivamente, implementados na ferramenta Weka
(versão 3.6) [20]. Os experimentos foram realizados em uma máquina Intel i5-M450
2.4GHz, 4Gb de memória RAM.
5.2 Organização dos Experimentos 35
As execuções desses algoritmos foram realizadas com os seguintes parâmetros. No
caso do ADTree, o parâmetro numOfBoostingIteration, relacionado ao número de itera-
ções de boosting que o algoritmo utiliza na construção da árvore, foi con�gurado com
valores de 1 até 30 e, para o parâmetro searchPath, que diz respeito à estratégia de busca
utilizada na construção da árvore, utilizou-se as estratégias �Expandir todos os caminhos
possíveis na árvore� e �Expandir o melhor caminho utilizando a métrica Z-pure�. Para o
RandomForest, o parâmetro numTrees, que corresponde ao número de árvores utilizadas
na construção do modelo, foi variado de 10 até 500. Para o algoritmo BayesNet a opção
�Estimador Simples� foi escolhida para o parâmetro estimator, que é utilizado no cálculo
das tabelas de probabilidade condicional e, o algoritmo Busca Tabu foi adotado para o
parâmetro searchAlgorithm. Por �m, para o LibSVM, os parâmetros cost e gamma foram
obtidos a partir de uma busca em grid no espaço de possibilidades de valores que esses
dois parâmetros podem assumir. A partir dessa busca foi de�nido o valor 0,031 para o pa-
râmetro gamma e três valores para o parâmetro cost : 8, 16 e 32. Para cada classi�cador,
os resultados dos experimentos apresentados nas seções seguintes sempre são relativos
ao conjunto de parâmetros que obteve a melhor média de resultado. Por exemplo, se o
melhor resultado médio de acurácia para o classi�cador Random Forests foi obtido com
o parâmetro numTrees igual a 100, foram comparados os resultados obtidos por todas as
bases para essa mesma con�guração de parâmetro.
O desempenho dos classi�cadores foi obtido utilizando-se a k-validação cruzada (com
k=10), sendo as partições geradas de modo aleatório. Desse modo, para cada base de
dados, os valores das medidas de desempenho dos classi�cadores correspondem às médias
dos valores obtidos em cada uma das partições. Vale ressaltar que as instâncias que
compõem cada partição são exatamente as mesmas para todas as bases de dados utilizadas
nos experimentos deste trabalho, ou seja, o que muda numa partição de uma base de dados
para outra são apenas os atributos utilizados para caracterizar as instâncias.
Além de avaliar o desempenho dos classi�cadores para a base completa (CompBD) e
para as quatro bases que contêm um único grupo de atributos extraídos das sequências de
RT e PR (MutBD, NivBD, SimBD e TamBD), decidiu-se também realizar experimentos
com bases de dados que foram construídas a partir da aplicação de técnicas de seleção
de atributos na base completa (CompBD). Nesse caso, as bases de dados geradas contêm
atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1.
Dado o desbalanceamento de classes das bases de dados adotadas para a realização
deste trabalho e o fato de a literatura da área já ter demonstrado que esse desbalan-
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36
ceamento pode in�uenciar negativamente o resultado da tarefa de classi�cação [21], foi
realizada uma avaliação do impacto do desbalanceamento de classes das bases no desem-
penho dos classi�cadores.
A apresentação dos resultados dos experimentos conduzidos neste trabalho será feita
da seguinte forma. A avaliação do impacto do desbalanceamento de classes das bases no
desempenho dos classi�cadores é apresentada na Seção 5.3. Em seguida, os resultados
da avaliação comparativa das bases de dados listadas na Tabela 5.2 são apresentados na
Seção 5.4. Por �m, a Seção 5.5 apresenta os resultados dos testes conduzidos com as
bases de dados construídas a partir da aplicação de técnicas de seleção de atributos à
base CompBD.
5.3 Avaliação do Impacto do Desbalanceamento de Clas-
ses das Bases de Dados
Nesta seção serão apresentados os resultados dos experimentos realizados para a ava-
liação do impacto do desbalanceamento das bases de dados no desempenho dos classi�-
cadores.
As bases de dados adotadas para a realização deste trabalho possuem 1140 instân-
cias da classe 0 e 552 instâncias da classe 1. Para a realização dos experimentos, essas
bases de dados foram balanceadas utilizando-se o algoritmo SMOTE (Synthetic Minority
Oversampling Technique)[9]. A avaliação do impacto do desbalanceamento foi realizada
comparando-se os resultados de desempenho dos classi�cadores para as bases de dados
existentes antes e depois do balanceamento.
O algoritmo SMOTE realiza um procedimento na base de dados denominado over-
sampling, que tem como objetivo aumentar o número de instâncias da classe minoritária.
O procedimento de oversampling adotado pelo SMOTE gera instâncias sintéticas a partir
das outras instâncias existentes na base. Para o balanceamento das bases de dados, o
parâmetro de taxa de incremento das instâncias da classe minoritária foi ajustado em
100% e o número de vizinhos utilizados para geração de cada instância foi igual a 5. O
incremento do número de instâncias da classe minoritária em 100% gerou bases de dados
com uma distribuição praticamente igualitária das classes. Essas bases de dados foram
consideradas balanceadas nos experimentos conduzidos neste trabalho.
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 37
Vale ressaltar que o balanceamento das bases de dados só foi realizado após a criação
das partições de treinamento e teste. Adotou-se esta abordagem para garantir que apenas
a partição de treinamento seria balanceada e, assim, evitar a existência de instâncias
sintéticas nas partições de teste. Desse modo, as partições de teste continuaram com
a mesma distribuição de classes da base original, ou seja, aproximadamente 67% das
instâncias pertencem a classe 0 e 33% a classe 1.
Os experimentos foram realizados para cada uma das cinco bases descritas na Ta-
bela 5.2 utilizando-se os quatro classi�cadores citados na Seção 5.2. O desempenho dos
classi�cadores foi avaliado em relação ao F-measure obtido por cada uma das classes da
base e pelo F-measure média da mesma.
Os resultados de desempenho dos classi�cadores são apresentados para as bases de
dados desbalanceadas e balanceadas nas Tabelas 5.3, 5.4, 5.5 e 5.6. Essas tabelas estão
divididas em 5 blocos, cada um deles apresentando os resultados do algoritmo de classi-
�cação para a base de dados indicada na primeira coluna da tabela. A segunda coluna
indica a situação da base (balanceada ou desbalanceada). A F-measure para as classes
0 e 1 são apresentados na terceira e quarta colunas, respectivamente. A F-measure mé-
dia (média ponderada pelo número de instâncias pertencentes a cada uma das classes) é
apresentado na quinta coluna. Por �m, a última coluna contém o resultado da diferença
entre a F-measure das classes 0 e 1.
A Tabela 5.3 apresenta os resultados obtidos pelo classi�cador Random Forests. Como
pode ser observado na quinta coluna, as bases balanceadas obtiveram F-measure média
sempre maior ou igual ao das bases desbalanceadas. Outro impacto positivo do balance-
amento das bases foi a redução da diferença entre a F-measure obtida para as classe 0
e 1, o que signi�ca que, para esse classi�cador, o balanceamento ajudou a obtenção de
resultados mais equilibrados entre as duas classes do problema.
Tabela 5.3: Comparação das F-measures para o classi�cador Random Forests
Base Situação F-measure F-measure F-measure Diferença das
Classe 0 Classe 1 médio F-measures
CompBD Desbalanceada 0,82 0,54 0,73 0,28Balanceada 0,81 0,61 0,75 0,21
TamBD Desbalanceada 0,77 0,48 0,68 0,29Balanceada 0,76 0,54 0,69 0,21
NivBD Desbalanceada 0,81 0,53 0,72 0,28Balanceada 0,81 0,59 0,74 0,23
MutBD Desbalanceada 0,81 0,48 0,70 0,33Balanceada 0,78 0,54 0,70 0,24
SimBD Desbalanceada 0,77 0,48 0,68 0,30Balanceada 0,76 0,55 0,70 0,21
5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 38
Os resultados dos experimentos para o classi�cador ADTree são apresentados na Ta-
bela 5.4. No caso desse classi�cador, o balanceamento entre as classes resultou em aumento
do F-measure média apenas para a base NivBD. No entanto, assim como observado para
o classi�cador Random Forests, para todas as bases de dados o balanceamento propor-
cionou um aumento da F-measure da classe minoritária (classe 1) e, consequentemente,
contribuiu para uma redução na diferença entre a F-measure das classes 0 e 1.
Tabela 5.4: Comparação das F-measures para o classi�cador ADTree
Base Situação F-measure F-measure F-measure Diferença das
Classe 0 Classe 1 média F-measures
CompBD Desbalanceada 0,81 0,60 0,74 0,21Balanceada 0,77 0,62 0,72 0,15
TamBD Desbalanceada 0,80 0,54 0,72 0,26Balanceada 0,75 0,60 0,70 0,15
NivBD Desbalanceada 0,81 0,57 0,73 0,23Balanceada 0,79 0,63 0,74 0,15
MutBD Desbalanceada 0,79 0,57 0,71 0,22Balanceada 0,72 0,59 0,67 0,12
SimBD Desbalanceada 0,78 0,57 0,71 0,21Balanceada 0,73 0,58 0,68 0,15
A Tabela 5.5 contém os resultados dos experimentos com o classi�cador SVM. Para
esse classi�cador o balanceamento entre as classes resultou no aumento da F-measure
média para as bases CompBD, MutBD e SimBD. Além disso, assim como ocorreu com os
classi�cadores Random Forests e ADTree, o balanceamento das bases proporcionou para
todas elas uma redução na diferença entre a F-measure obtida para as classes 0 e 1.
Tabela 5.5: Comparação das F-measures para o classi�cador SVM
Base Situação F-measure F-measure F-measure Diferença da
Classe 0 Classe 1 média F-measures
CompBD Desbalanceada 0,81 0,48 0,70 0,33Balanceada 0,77 0,59 0,71 0,18
TamBD Desbalanceada 0,82 0,45 0,70 0,37Balanceada 0,73 0,59 0,69 0,14
NivBD Desbalanceada 0,82 0,58 0,74 0,24Balanceada 0,78 0,64 0,74 0,15
MutBD Desbalanceada 0,80 0,41 0,67 0,39Balanceada 0,76 0,58 0,70 0,18
SimBD Desbalanceada 0,74 0,37 0,62 0,37Balanceada 0,73 0,57 0,68 0,16
Os resultados dos experimentos para o classi�cador Redes Bayesianas são mostrados
na Tabela 5.6. Para esse classi�cador o comportamento dos resultados foi um pouco
diferente daqueles obtidos para os demais classi�cadores. O balanceamento das bases de
dados resultou em um aumento da F-measure para a classe minoritária (classe 1) apenas
para as bases TamBD e SimBD. Isso contribuiu para que a F-measure médio das bases
5.4 Avaliação Comparativa das Bases 39
balanceadas �casse menor do que os obtidos para as bases desbalanceadas na maioria dos
casos. Ainda assim, para as bases TamBD, MutBD e SimBD, o balanceamento entre as
classes resultou numa redução da diferença entre a F-measure obtida para as classes 0 e
1.
Tabela 5.6: Comparação das F-measures para o classi�cador Redes Bayesianas
Base Situação F-measure F-measure F-measure Diferença das
Classe 0 Classe 1 média F-measures
CompBD Desbalanceada 0,75 0,62 0,71 0,13Balanceada 0,74 0,59 0,69 0,15
TamBD Desbalanceada 0,80 0,52 0,71 0,28Balanceada 0,74 0,56 0,68 0,18
NivBD Desbalanceada 0,74 0,62 0,70 0,12Balanceada 0,76 0,62 0,71 0,14
MutBD Desbalanceada 0,77 0,59 0,71 0,18Balanceada 0,74 0,58 0,69 0,16
SimBD Desbalanceada 0,77 0,47 0,67 0,30Balanceada 0,71 0,59 0,67 0,12
Sumarizando os resultados, num total de 20 execuções (cada uma das 5 bases foi
testada em 4 classi�cadores), o balanceamento das bases proporcionou um aumento na
F-measure média em 9 casos e uma redução em 8 casos. Segundo essa medida, os classi�-
cadores Random Forests e SVM foram os que mais se bene�ciaram com o balanceamento
das bases. Portanto, observou-se que a existência de uma in�uência positiva do balan-
ceamento de classes no resultado da F-measure média obtido para cada base depende
fortemente do classi�cador utilizado.
No entanto, para essas 20 execuções, o balanceamento das bases proporcionou a redu-
ção da diferença do F-measure entre as classes majoritária e minoritária em 18 casos. Isso
signi�ca que o balanceamento contribuiu para a obtenção de resultados mais equilibrados
entre as duas classes do problema. Por esse motivo, todos os experimentos descritos a
partir desta seção foram realizados com as bases de dados balanceadas.
5.4 Avaliação Comparativa das Bases
Nesta seção serão apresentados os resultados da avaliação comparativa das bases de dados
listadas na Tabela 5.2. Os experimentos foram realizados utilizando-se as quatro técnicas
de classi�cação mencionadas na Seção 5.2. As comparações de desempenho dos classi�-
cadores para as bases de dados avaliadas neste trabalho foram realizadas a partir de duas
medidas: acurácia e F-measure.
5.4 Avaliação Comparativa das Bases 40
Os resultados da análise comparativa serão apresentados por medida de desempe-
nho. Desse modo, para cada medida de desempenho considerada, serão apresentados os
resultados obtidos pelos classi�cadores para as bases de dados avaliadas.
Como os resultados dos experimentos realizados com as diferentes bases de dados
correspondem a médias aritméticas calculadas a partir dos valores obtidos em cada uma
das dez partições geradas pelo procedimento de validação cruzada, visando identi�car se
existem médias signi�cativamente diferentes, utilizou-se um teste estatístico denominado
Análise de Variância (ANOVA). A partir do resultado desse teste, se con�rmado que pelo
menos uma média é diferente das demais, o método Tukey's Honestly Signi�cant Di�e-
rence (HSD) foi utilizado para determinar quais são as bases que apresentam resultados
signi�cativamente diferentes de outras.
5.4.1 Acurácia
Os resultados médios de acurácia obtidos por cada classi�cador para as diferentes bases
de dados são apresentados nos grá�cos da Figura 5.2.
Como pode ser observado na Figura 5.2, as duas melhores médias de acurácia para
cada classi�cador foram obtidas com as bases CompBD e NivBD, exceto para o classi�ca-
dor Redes Bayesianass, onde o melhor resultado foi obtido com a base NivBD e o segundo
melhor resultado com a base MutBD.
Contudo, uma vez que os resultados apresentados correspondem às médias das acu-
rácias obtidas para cada uma das 10 partições das bases, o teste estatístico ANOVA
foi aplicado para veri�car, para cada classi�cador, se existem médias signi�cativamente
diferentes.
A Tabela 5.7 apresenta o resultado do teste estatístico para cada um dos métodos
utilizados. A primeira coluna indica o classi�cador utilizado, a segunda contém o valor do
teste F, que é calculado como a razão entre as variâncias observadas entre as médias dos
resultado e a média das variâncias de cada teste. A última coluna indica o p-value obtido
e qual é o nível de con�ança obtido para a análise de variância. O nível de con�ança é
indicado pelos símbolos a) *** - indicando 99,9% de con�ança, b) ** 99% de con�ança,
c) * - 95% de con�ança e d) # - 90% de con�ança. A ausência de símbolos indica que
para aquele conjunto de resultados não há diferença estatisticamente signi�cativa entre
as médias dos resultados.
Os resultados do teste estatístico mostram que existem acurácias médias signi�cati-
5.4 Avaliação Comparativa das Bases 41
Figura 5.2: Médias de acurácia para os classi�cadores
vamente diferentes entre pelo menos duas bases a um nível de con�ança de 99,9% para
os classi�cadores Random Forests e ADTree, a 95% para o SVM e a 90% para o Redes
Bayesianas.
Para veri�car entre quais bases existe diferença com signi�cância estatística o teste
Tukey's HSD foi utilizado. A Figura 5.3 contém os resultados obtidos para o teste Tukey's
HSD. Nessa �gura, um quadro é apresentado para cada classi�cador, onde a primeira
linha e a primeira coluna de cada quadro contêm os nomes das bases de dados. Desse
modo, o resultado contido em cada interseção de uma linha com uma coluna de um
quadro indica se as bases relacionadas com a respectivas linha e coluna dessa interseção
Tabela 5.7: Testes ANOVA para os resultados de acuráciaF value Pr(>F)
ADTree 13.218 3.361e-07 ***Random Forests 6.8859 0.0002058 ***Redes Bayesianas 2.2084 0.08317 #SVM 3.6198 0.01217 *
5.4 Avaliação Comparativa das Bases 42
apresentam resultados signi�cativamente diferentes (codi�cado como V � verdadeiro) ou
não (codi�cado como F � falso).
ADTree RandomForest
TamBD NivBD MutBD SimBD TamBD NivBD MutBD SimBDCompBD V F V V CompBD V F V VTamBD V F F TamBD V F FNivBD V V NivBD F VMutBD F MutBD F
SVM
TamBD NivBD MutBD SimBDCompBD F F F FTamBD F F FNivBD F VMutBD F
Figura 5.3: Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade
Vale observar que o teste Tukey's HSD foi realizado apenas para os classi�cadores em
que a análise de variância indicou a existência de médias signi�cativamente diferentes com
um nível de con�ança maior ou igual a 95%. Como a análise de variância para o Redes
Bayesianass detectou diferença entre os resultados das bases com nível de con�ança de
90%, o teste Tukey's HSD não foi realizado para os resultados desse classi�cador.
Para o classi�cador ADTree, os resultados apresentados na Figura 5.3 mostram que,
com um nível de con�ança de 95%, os resultados obtidos para as bases CompBD e NivBD
são estatisticamente iguais entre si. Por outro lado, essas duas bases apresentam resultados
estatisticamente diferentes aos das demais bases de dados avaliadas. Para o classi�cador
Random Forests o resultado obtido com a base CompBD foi o mesmo observado para
o classi�cador ADTree, ou seja, ela apresenta resultado estatisticamente diferente aos
das demais bases de dados. Já para a base NivBD, o seu resultado foi estatisticamente
diferente ao das bases SimBD e TamBD. Por �m, para o classi�cador SVM, o teste Tukey's
HSD detectou diferença com signi�cância estatística somente entre os resultados obtidos
com as bases NivBD e SimBD.
Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.3 e nos
grá�cos da Figura 5.2 observa-se que a base CompBD apresentou resultados de acurácia
preditiva iguais ao da base NivBD e superiores ao das bases MutBD, TamBD e SimBD
em metade dos classi�cadores. Já a base NivBD obteve resultados superiores ao das bases
MutBD, TamBD e SimBD para o classi�cador ADTree e superiores aos das bases TamBD
e SimBD para o classi�cador Random Forests. Além disso, para o classi�cador SVM, a
base NivBD obteve acurácia superior ao da base SimBD.
5.4 Avaliação Comparativa das Bases 43
5.4.2 F-measure
Os resultados médios de F-measure obtidos por cada classi�cador para as diferentes bases
de dados são apresentados nos grá�cos da Figura 5.4. Esses resultados foram semelhantes
àqueles obtidos para a medida de acurácia, ou seja, as bases CompBD e NivBD sempre
obtiveram os dois maiores valores de F-measure em cada classi�cador, exceto para o Redes
Bayesianass, quando o segundo maior valor foi alcançado pela base MutBD.
Figura 5.4: Médias de F-Measure para os classi�cadores
Assim como na análise dos resultados de acurácia, o teste estatístico ANOVA foi
aplicado para veri�car, para cada classi�cador, se existem valores médios de F-measure
signi�cativamente diferentes entre as bases. A Tabela 5.8 apresenta o resultado do teste
estatístico para cada classi�cador utilizado. Relembrando os códigos de nível de con�ança
utilizados na tabela 5.8, o nível de con�ança é indicado pelos símbolos a) *** - 99,9% de
con�ança, b) ** 99% de con�ança, c) * - 95% de con�ança e d) # - 90% de signi�cância.
A ausência de símbolos indica que para aquele conjunto de resultados não há diferença
estatisticamente signi�cativa entre as médias dos resultados.
Os resultados da análise de variância mostram que existem valores de F-measure
5.4 Avaliação Comparativa das Bases 44
Tabela 5.8: Teste ANOVA os resultados de F-measureF value Pr(>F)
ADTree 12.152 8.833e-07 ***Random Forests 5.2754 0.001430 **Redes Bayesianas 2.047 0.1038SVM 5.3941 0.001234 **
médios signi�cativamente diferentes entre pelo menos duas bases a um nível de con�ança
de 99,9% para o classi�cador ADTree e a 99% para o Random Forests e SVM. Já para
o classi�cador Redes Bayesianass, o teste de análise de variância não detectou nenhuma
diferença com signi�cância estatística entre os valores de F-measure média obtidos para
as bases testadas.
A Figura 5.5 apresenta os resultados do teste Tukey's HSD para todos os classi�cadores
em que o teste estatístico ANOVA detectou a existência de resultados signi�cativamente
diferentes com um nível de con�ança maior ou igual a 95%. O resultado contido em cada
interseção de uma linha com uma coluna indica se as bases relacionadas com as respec-
tivas linha e coluna dessa interseção apresentam resultados signi�cativamente diferentes
(codi�cado como V � verdadeiro) ou não (codi�cado como F � falso).
ADTree Random Forests
TamBD NivBD MutBD SimBD TamBD NivBD MutBD SimBDCompBD V F V V CompBD V F V VTamBD V F F TamBD F F FNivBD V V NivBD F FMutBD F MutBD F
SVM
TamBD NivBD MutBD SimBDCompBD F F F VTamBD F F FNivBD F VMutBD F
Figura 5.5: Teste Tukey's HSD para os dados de F-measure a 95% de con�abilidade
Para o classi�cador ADTree, os resultados do teste Tukey's HSD foram iguais àque-
les obtidos para a medida de acurácia neste mesmo classi�cador, ou seja, com um nível
de con�ança de 95%, pode-se a�rmar que os F-measures médios obtidos para as bases
CompBD e NivBD são estatisticamente iguais entre si, mas diferentes daqueles alcançados
pelas demais bases de dados. Para o classi�cador SVM, o teste Tukey's HSD detectou di-
ferença de resultados com signi�cância estatística somente entre a base SimBD e as bases
NivBD e CompBD. Por �m, para o Random Forests, somente a base CompBD apresen-
tou resultado estatisticamente diferente daqueles obtidos pelas bases MutBD, TamBD e
SimBD.
5.5 Análise das Bases Após a Seleção de Atributos 45
Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.5 e nos
grá�cos da Figura 5.4, observa-se que, para dois classi�cadores, a base CompBD apresen-
tou resultados de F-measure média superiores ao das bases MutBD, TamBD e SimBD.
A base NivBD por sua vez obteve resultados superiores ao das bases MutBD, TamBD e
SimBD para o classi�cador ADTree.
Analisando os resultados obtidos pode-se observar que as melhores médias de acurá-
cia e F-measure foram obtidas pelas bases CompBD e NivBD. A partir dos resultados
da médias e dos testes de signi�cância estatística é possível a�rmar, com um nível de
signi�cância maior ou igual a 95%, que para o classi�cador ADTree os resultados das
bases CompBD e NivBD são melhores que os demais resultados. Para o classi�cador
Random Forests este mesmo comportamento é observado para a base CompBD. Por �m,
para o classi�cador SVM somente foi detectada diferença com um nível de signi�cância
estatística maior ou igual a 95% entre os resultados da base NivBD e SimBD.
A partir desses resultados pode-se concluir que as bases CompBD e NivBD fornecem
os melhores desempenhos de classi�cação.
5.5 Análise das Bases Após a Seleção de Atributos
Na seção anterior experimentos foram realizados com o objetivo de se investigar para
qual(is) base(s) de dados os classi�cadores apresentariam o melhor desempenho. No
entanto, as cinco bases utilizadas até o momento (ver Tabela 5.2) contém apenas um
único grupo de atributos extraído das sequências de RT e PR (MutBD, NivBD, SimBD
e TamBD) ou são formadas por todos os grupos de atributos extraídos das sequências
(CompBD). Portanto, visando avaliar também bases de dados contendo subconjuntos de
atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1, decidiu-se rea-
lizar experimentos com bases de dados que foram construídas a partir da aplicação de
técnicas de seleção de atributos na base completa (CompBD). Nesta seção serão apresen-
tados os resultados dos experimentos conduzidos com essas novas bases.
Para a geração das novas bases foram utilizadas as técnicas de seleção de atributos
Correlation-based Feature Selection [19] e Consistency-based Feature Selection [25], imple-
mentadas na ferramenta Weka pelos algoritmos ConsistencySubsetEval e CFSSubSetEval,
respectivamente. Ambos os algoritmos utilizaram os parâmetros padrões da ferramenta
Weka. A partir da técnica Correlation-based Feature Selection gerou-se a base CfsBD
e, a partir da técnica Consistency-based Feature Selection, gerou-se a base ConsBD. As
5.5 Análise das Bases Após a Seleção de Atributos 46
características de cada base podem ser observadas nas Tabelas 5.9 e 5.10.
Tabela 5.9: Características da base CfsBD.Grupos de Atributos Quantidade % em relação
ao tamanho da baseAtributos de mutação 29 90,6%Atributos de Nível de resistência 1 3,1%Atributos de Tamanho 1 3,1%Atributos de similaridade 0 0%Outros (VL) 1 3,1%Total de Atributos Selecionados 32 -
Tabela 5.10: Características da base ConsBD.Grupos de Atributo Quantidade % em relação
ao tamanho da baseAtributos de mutação 36 75%Atributos de Nível de resistência 7 14,6%Atributos de Tamanho 1 2,08%Atributos de Similaridade 2 4,16%Outros (CD4, VL) 2 4,16%Total de Atributos Selecionados 48 -
Através das Tabelas 5.9 e 5.10 pode-se observar que, para as duas bases geradas, a
maioria dos atributos selecionados correspondem a atributos de mutação. Contudo, a base
gerada a partir do algoritmo ConsistencySubsetEval é mais heterogênea, com relação aos
tipos de atributos que a compõe, do que a base CfsBD.
Assim como na seção anterior, os resultados de desempenho dos classi�cadores para as
bases ConsBD e CfsBD foram avaliados utilizando-se a medida de acurácia e F-measure.
Para simpli�car a análise dos resultados os testes foram realizados apenas com os dois
classi�cadores que tiveram o melhor desempenho nos experimentos descritos na Seção 5.4,
a saber, ADTree e Random Forests. Além disso, a análise comparativa dos resultados
para as bases ConsBD e CfsBD foi realizada apenas com as duas bases que obtiveram os
melhores resultados nos demais testes realizados até o momento (CompBD e NivBD).
5.5.1 Acurácia
A Figura 5.6 apresenta os resultados de acurácia média obtidos pelas bases para cada um
dos classi�cadores.
A partir da Figura 5.6, que apresenta os resultados obtidos para o classi�cador AD-
Tree, pode-se observar que ambas as bases ConsBD e CfsBD apresentam acurácia média
5.5 Análise das Bases Após a Seleção de Atributos 47
Figura 5.6: Resultados de acurácia média para os testes com seleção de atributos
superior àquelas obtidas pelas demais bases. Já os resultados obtidos com o classi�cador
Random Forests, mostram que apenas a base ConsBD apresentou resultados superiores
aos das bases CompBD e NivBD.
Como os resultados apresentados na Figura 5.6 correspondem a médias de acurácias
obtidas para 10 partições das bases, o teste estatístico ANOVA foi aplicado para veri�car,
para cada classi�cador, se existem médias signi�cativamente diferentes. Os resultados do
teste ANOVA podem ser vistos na Tabela 5.11. Esses resultados mostram que existem
acurácias médias signi�cativamente diferentes entre pelo menos duas bases, a um nível de
con�ança de 99,9%, entre os resultados do classi�cador Random Forests.
Tabela 5.11: ANOVA para o conjunto de resultados de acurácia nos testes de seleção deatributos
F value Pr(>F)ADTree 2.4332 0.08079 #Random Forests 7.7532 0.000404 ***
Para identi�car entre os resultados de quais bases se encontram as diferenças detecta-
das pelo teste ANOVA, foi aplicado o teste Tukey's HSD, cujos resultados são apresentados
na Figura 5.7.
Analisando os resultados do teste Tukey's HSD (a 95% de con�abilidade) apresenta-
dos na Figura 5.7 juntamente com as acurácias médias apresentadas nos grá�cos da Fi-
gura 5.6, pode-se concluir que, apesar de pelo menos uma dentre as bases CfsBD e ConsBD
apresentar acurácia média superior àquelas obtidas pelas bases CompBD e NivBD, esses
resultados não são signi�cativamente diferentes.
5.5 Análise das Bases Após a Seleção de Atributos 48
Random Forests
NivBD ConsBD CfsBDCompBD F F VNivBD F FConsBD V
Figura 5.7: Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade, testesde seleção de atributos
5.5.2 F-measure
A Figura 5.8 apresenta os resultados médios de F-measure obtidos por cada classi�cador
para cada uma das bases avaliadas. Os resultados médios de F-measure foram semelhantes
aos resultados de acurácia, ou seja, para o classi�cador ADTree o melhor resultado foi
obtido para a base CfsBD e, para o Random Forests, o melhor resultado foi alcançado
pela base ConsBD.
Figura 5.8: Resultados de F-measure média para os testes com seleção de atributos
Novamente, para veri�car se existe diferença estatística entre os resultados obtidos
pelas bases, o teste estatístico ANOVA foi utilizado. Os resultados desse teste, mostrados
na Tabela 5.12, mostram que existem resultados de F-measure médios signi�cativamente
diferentes entre pelo menos duas bases, a um nível de con�ança de 99,9%, entre os resul-
tados do classi�cador Random Forests.
Visando identi�car para quais bases os resultados apresentam as diferenças detectadas
pelo teste ANOVA, utilizou-se o teste Tukey's HSD, cujos resultados encontram-se na
Figura 5.9.
Com os resultados obtidos no teste Tukey's HSD para um nível de con�ança de 95%,
5.5 Análise das Bases Após a Seleção de Atributos 49
Tabela 5.12: ANOVA para o conjunto de resultados de F-measure nos testes de seleçãode atributos
F value Pr(>F)ADTree 2.6826 0.06123 #Random Forests 6.7624 0.0009828 ***
Random Forests
NivBD ConsBD CfsBDCompBD F F VNivBD F FConsBD V
Figura 5.9: Teste Tukey's HSD para os resultados de F-measure a 95% de con�abilidade,testes de seleção de atributos
chega-se à mesma conclusão obtida para os resultados de acurácia, ou seja, apesar de pelo
menos uma dentre as bases CfsBD e ConsBD apresentar F-measure média superior ao
das bases CompBD e NivBD para os classi�cadores utilizados, essa diferença não possui
signi�cância estatística.
5.5.3 Análise dos Resultados da Base CfsBD
Enquanto os resultados de acurácia e F-measure para a base ConsBD são semelhantes para
os dois classi�cadores utilizados nessa análise, o mesmo não ocorre para a base CfsBD.
Por isso, o objetivo desta seção é apresentar as razões para essa discrepância.
Apesar de obter as melhores médias de acurácia e F-measure para o algoritmo ADTree,
no algoritmo Random Forests, os resultados obtidos pela base CfsBD são os piores resul-
tados para esse classi�cador. Observando-se os atributos da base CfsBD, veri�ca-se que a
maior parte dessa base é formada por atributos de mutação. Desse modo, esperava-se que
os resultados obtidos para essa base com o classi�cador ADTree fossem semelhantes àque-
les alcançados pela base MutBD nesse mesmo classi�cador. No entanto, isso não ocorre.
Enquanto a base MutBD esteve sempre entre as bases com os piores desempenhos para o
ADTree, a base CfsBD alcançou os melhores resultados médios de acurácia e F-measure
obtidos até o momento. Esse fato levanta um questionamento sobre a in�uência dos atri-
butos de mutação da base CfsBD no resultado obtido pelo classi�cador ADTree. Para
responder a esse questionamento, uma análise será realizada na árvore de decisão gerada
pelo algoritmo ADTree para a base CfsBD. A Figura 5.10 apresenta a árvore gerada pelo
ADTree.
5.5 Análise das Bases Após a Seleção de Atributos 50
Figura 5.10: ADTree gerada para a base CfsBD
Na árvore de decisão apresentada na Figura 5.10 pode-se notar que, apesar de a base
CfsBD conter 29 atributos de mutação, apenas um desses atributos (A98G) apareceu na
árvore de decisão gerada. Os outros atributos que aparecem no modelo construído são: a
carga viral (VL) do paciente, o tamanho da sequência de RT (TamRT) e o único atributo
de nível de resistência que existe nessa base (NFV � quanti�ca a resistência de um paciente
à droga Nefravir). Essa observação indica que o bom desempenho do classi�cador ADTree
para essa base não está relacionado com os atributos de mutação, mas sim com os demais
atributos presentes na mesma.
Já para o classi�cador Random Forests, assim como se esperava, a base CfsBD teve
um desempenho semelhante àquele obtido com a base MutBD. Isso se deve ao fato de
o classi�cador Random Forest realizar de modo aleatório a escolha dos atributos que
participam de cada um dos nós das árvores geradas para a composição do modelo de
classi�cação. Sendo assim, como mais de 90% da base CfsBD é formada por atributos
de mutação, certamente a maioria dos atributos selecionados para composição do modelo
de classi�cação serão de mutação, o que explica a semelhança entre os resultados obtidos
para essa base e aqueles alcançados pela base MutBD.
Capítulo 6
Conclusões
Atualmente a pandemia de HIV é um dos maiores problemas de saúde pública no mundo.
Devido à sua gravidade e proporção, a busca por soluções para o tratamento dessa do-
ença tem envolvido pesquisadores de diferentes áreas conhecimento, tais como biologia,
medicina e bioinformática. Embora o último relatório da UNAIDS sugira que a porcenta-
gem global de pessoas infectadas permaneça estabilizada, é crescente a preocupação com
o surgimento de fenótipos virais resistentes às drogas antirretrovirais e, principalmente,
com a transmissão de linhagens de vírus resistentes a pacientes recém infectados. Teme-se
que esses problemas possam levar o tratamento dessa doença a uma situação onde não
haverá drogas efetivas no combate à infecção [48].
A Terapia Antirretroviral Altamente Ativa foi um grande avanço no combate à infec-
ção, amenizando o problema do surgimento de fenótipos virais resistentes ou, pelo menos,
retardando o surgimento de linhagens de vírus resistentes. A escolha de drogas adequadas
para compor o tratamento de um paciente exerce um papel chave no sucesso do mesmo
e, por isso, deve ser feita observando-se as características da infecção de cada paciente.
Em [43] foi demonstrado que os pacientes, cujos médicos têm acesso aos dados de resistên-
cia do seu vírus às drogas, respondem melhor à terapia do que os pacientes cujos médicos
não tem acesso a esses dados.
Uma das di�culdades no processo de escolha de tratamentos antirretrovirais está no
fato de não se saber como um paciente responderá ao tratamento escolhido. Portanto,
ter uma maneira de predizer essa resposta de modo automático e com precisão é de
fundamental importância para a obtenção de sucesso nesse tipo de tratamento. Por
isso, o problema de predizer a resposta de um paciente a um tratamento com drogas
antirretrovirais tem sido abordado por alguns trabalhos de bioinformática relatados na
literatura. De forma geral, estes trabalhos utilizam técnicas de mineração de dados para
6 Conclusões 52
a construção de ferramentas computacionais para a predição da resposta de pacientes
ao tratamento com antirretrovirais. Essas ferramentas utilizam tais resultados como base
para indicar conjuntos de drogas antirretrovirais que tenham maior probabilidade de obter
sucesso no tratamento de um paciente.
Apesar da existência de trabalhos que abordam o problema de predição da resposta
de pacientes ao tratamento com drogas antirretrovirais, ainda existem poucas fontes na
literatura que abordem a questão da importância de cada tipo de atributo para o resultado
dessa predição.
Desse modo, este trabalho discutiu e analisou a importância de diferentes tipos de
atributos no problema de predição de resposta de pacientes ao tratamento com drogas
antirretrovirais. Como um primeiro passo para abordar essa questão, a partir de uma base
de dados utilizada numa competição de bioinformática, foram extraídos cinco tipos de
atributos diferentes das sequências de PR e RT do vírus contraído por cada paciente. Dos
cinco tipos de atributos extraídos das sequências de PR e RT, quatro foram selecionados
para compor as bases de dados utilizadas nos experimentos realizados neste trabalho (ver
Tabela 5.1). Os quatro tipos de atributos utilizados referem-se às mutações presentes
nas sequências de PR e RT do vírus de cada paciente, ao nível de resistências às drogas
antirretrovirais, ao tamanho das sequências de PR e RT e à similaridade das sequências
de PR e RT com uma sequência de consenso. Além dessas bases, foi gerada uma quinta
base reunindo todos os atributos das demais. Para cada uma das bases de dados gerada
foram avaliadas as medidas de acurácia e F-measure obtidas em cada um dos quatro
classi�cadores utilizados nos experimentos computacionais.
Uma vez que as bases de dados geradas eram desbalanceadas, os primeiros experimen-
tos realizados buscaram avaliar o impacto desse desbalanceamento de classes no resultado
�nal da predição. De acordo resultados apresentados na Seção 5.3 é possível concluir que
o balanceamento das bases de dados proporcionou resultados mais equilibrados entre as
duas classes do problema para a grande a maioria dos testes realizados. Por este mo-
tivo, todos os demais experimentos realizados neste trabalho utilizaram as bases de dados
balanceadas.
Os resultados advindos da avaliação comparativa entre as bases (Seção 5.4) mostra-
ram que as maiores médias de acurácia e F-measure foram obtidas pelas bases CompBD
e NivBD para todos os classi�cadores. No entanto, após a análise desses resultados
em conjunto com os testes de signi�cância estatística aplicados, é possível a�rmar que,
para o classi�cador Alternating Decicion Tree os resultados das bases CompBD e NivBD
6 Conclusões 53
são superiores aos resultados obtidos pelas demais bases. Essa conclusão se repete para
os resultados obtidos pelo classi�cador Random Forests para a base CompBD. Para o
classi�cador SVM a base NivBD obteve as melhores médias tanto de acurácia quanto
de F-measure, contudo, apresentou diferença estatisticamente signi�cativa somente com
relação aos resultados da base SimBD.
Os resultados da avaliação comparativa entre as bases mostram que, quando avaliados
individualmente, os melhores atributos para a predição da resposta de pacientes às drogas
antirretrovirais são os atributos de nível de resistência (representados na base NivBD). A
base CompBD também apresentou bons resultados de acurácia e F-measure, indicando
que adicionar outros conjuntos de atributos também pode contribuir para melhorar o
poder preditivo dos classi�cadores utilizados na tarefa de predição em questão.
Além dos testes realizados com as bases de dados citadas na Figura 5.1, foram ge-
radas duas novas bases de dados através da aplicação das técnicas de seleção de atri-
butos Correlation-based Feature Selection e Consistency-based Feature Selection na base
CompBD. A aplicação dessas técnicas de seleção de atributos gerou, respectivamente, as
bases CfsBD e ConsBD. A partir dessas duas bases de dados foi possível avaliar: a) Quais
foram os atributos considerados relevantes e, dessa maneira, selecionados pelas diferentes
técnicas de seleção para compor as novas bases, b) Se os atributos de nível de resistência,
que já haviam demonstrado serem bons preditores quanto à resposta de um paciente ao
tratamento, foram selecionados e, c) Se após a seleção de atributos, as bases geradas
melhoraram os resultados de acurácia e F-measure obtidos antes da seleção.
Algumas respostas para as avaliações mencionadas anteriormente foram obtidas a
partir da observação das características das bases geradas por cada uma das técnicas de
seleção de atributos (Figuras 5.9 e 5.10), das quais vale destacar: i)As duas bases foram
formadas majoritariamente por atributos de mutação, ii) o atributo VL, que indica a
carga viral de um paciente no início do tratamento, e o atributo que fornece o tamanho
da sequência de RT, foram selecionados para compor as duas bases, iii) somente a técnica
Consistency-based Feature Selection selecionou um número considerável de atributos de
nível de resistência.
Nos testes realizados na Seção 5.5 foi possível veri�car que a base ConsBD (que
possui um conjunto mais diversi�cado de atributos em relação a base CfsBD) alcançou
bons resultados de predição para os dois classi�cadores utilizados. Ainda para estes
testes, veri�cou-se que os atributos de nível de resistência, tamanho da sequência da
RT e a carga viral, exercem grande in�uência nos resultados obtidos pelo classi�cador
6 Conclusões 54
Alternating Decision Tree para a base CfsBD. Apesar de serem os maiores resultados
médios de acurácia e F-measure, os resultados obtidos pelas bases ConsBD e CfsBD
(para o classi�cador Alternating Decicion Tree) não foram signi�cativamente diferentes
dos resultados alcançados pelas bases CompBD e NivBD.
Por �m, analisando os resultados obtidos por todos os experimentos realizados, nota-
se que, dentre os grupos de atributos avaliados individualmente, o de nível de resistência
apresentou os melhores resultados na tarefa de predição de resposta de pacientes às drogas
antirretrovirais. As bases CompBD e ConsBD também apresentaram bons resultados de
classi�cação nos testes realizados, demonstrando que é interessante utilizar bases de dados
que possuam um conjunto diversi�cado de atributos. Além disso, apesar de não terem
sido realizados testes de signi�cância estatística que comprovem as diferenças entre os
resultados obtidos para os diferentes classi�cadores utilizados neste trabalho, na média,
os melhores valores de acurácia e F-measure foram obtidos pelos classi�cadores Random
Forests e Alternating Decision Tree. Vale ressaltar também que uma importante contri-
buição deste trabalho foi a avaliação dos atributos de similaridade das sequências de PR
e RT com uma sequência de consenso e dos atributos de tamanho dessas sequências, uma
vez que nenhum dos trabalhos encontrados na literatura utilizaram esses atributos.
Os resultados apresentados em [52] fornecem indícios de que motivos lineares exercem
uma in�uência positiva no desempenho da tarefa de predição de resposta de pacientes ao
tratamento com antirretrovirais. Desse modo, como trabalho futuro, sugere-se a avalia-
ção da importância desse tipo de atributo juntamente com todos aqueles avaliados neste
trabalho.
Ainda como trabalhos futuros, avaliações incluindo atributos advindos de outros tipos
de dados não utilizados neste trabalho, como por exemplo o histórico de tratamento de
um paciente, podem ser realizadas.
55
APÊNDICE A -- Exemplo de XML Retornado pelo
Web Service Sierra
<?xml version=" 1 .0 " standalone="yes "?>
<?xml−s t y l e s h e e ttype=" text / x s l " h r e f=" ht tp : // hivdb6 . s t an fo rd . edu/ a s i / deployed / x s l /hivTransform . x s l "?>
<Stanford_Algor i thm_Interpretat ion>
<algor i thmVers ion>6 . 0 . 9F</ algor i thmVers ion>
<webServ iceVers ion>beta −1.0 .1</webServ iceVers ion>
<succ e s s>
<sequence md5sum="d91c88fdba198a56ae987d7a43833101">
CCCATTAGTCCTATTGAAACTGTAC. . .
</ sequence>
<summary>
<PR>
<present>true</ pre sent>
<consensus>PQITLWQRPLVTIKIGGQLK . . .</ consensus>
<alignedNASequence>CCTCAAATCACTCTT. . .</alignedNASequence>
<alignedAASequence>PQITLWQRPVVTVKV. . .</alignedAASequence>
<f i r s tAA>1</ f i r s tAA>
<lastAA>99</lastAA>
<subtype type="B" pe r c en tS im i l a r i t y=" 92 .6 "/>
</PR>
<RT>
<present>true</ pre sent>
<consensus>PISPIETVPVKLKPGMDGPKVKQW. . .</ consensus>
<alignedNASequence>CCCATTAGTCCTATTGAA. . .</alignedNASequence>
<alignedAASequence>PISPIETVPVKLKPGMDG . . .</alignedAASequence>
<f i r s tAA>1</ f i r s tAA>
<lastAA>301</lastAA>
<subtype type="B" pe r c en tS im i l a r i t y=" 95 .3 "/>
</RT>
<IN>
<present>f a l s e</ pre sent>
</IN>
</summary>
<PR_mutations>
<mutation c l a s s i f i c a t i o n="PI_MINOR">L10IV</mutation>
<mutation c l a s s i f i c a t i o n="OTHER">I13V</mutation>
<mutation c l a s s i f i c a t i o n="PI_MAJOR">V32I</mutation>
Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra 56
</PR_mutations>
<RT_mutations>
<mutation c l a s s i f i c a t i o n="NRTI">M41L</mutation>
<mutation c l a s s i f i c a t i o n="NRTI">L74I</mutation>
<mutation c l a s s i f i c a t i o n="NNRTI">K103KN</mutation>
</RT_mutations>
<drugScores>
<drug code="3TC" genericName=" lamivudine " type="NRTI" s co r e=" 77 .0 "
l e v e l S t an f o r d="5" l eve lS IR="R" >
<pa r t i a l S c o r e mutation="M41L" s co r e=" 4 .0 "/>
<pa r t i a l S c o r e mutation="V118I" s co r e=" 5 .0 "/>
<pa r t i a l S c o r e mutation="M184V" sco r e=" 60 .0 "/>
<pa r t i a l S c o r e mutation="L210W" sco r e=" 4 .0 "/>
<pa r t i a l S c o r e mutation="T215Y" sco r e=" 4 .0 "/>
</drug>
<drug code="ABC" genericName=" abacav i r " type="NRTI" s co r e=" 98 .0 "
l e v e l S t an f o r d="5" l eve lS IR="R" >
<pa r t i a l S c o r e mutation="M41L" s co r e=" 12 .0 "/>
<pa r t i a l S c o r e mutation="L74I" s co r e=" 20 .0 "/>
<pa r t i a l S c o r e mutation="V118I" s co r e=" 2 .0 "/>
<pa r t i a l S c o r e mutation="M184V" sco r e=" 12 .0 "/>
<pa r t i a l S c o r e mutation="L210W" sco r e=" 12 .0 "/>
<pa r t i a l S c o r e mutation="T215Y" sco r e=" 20 .0 "/>
<pa r t i a l S c o r e mutation="L74I ,M184V" sco r e=" 20 .0 "/>
</drug>
. . .
</ drugScores>
<comments>
<comment id="RT_POS210W_NRTI">L210W cont r i bu t e s r e s i s t a n c e to each o f the
NRTIs except 3TC and FTC. I t u sua l l y occurs with the mutations M41L and
T215Y .</comment>
</comments>
</ suc c e s s>
</Stanford_Algor i thm_Interpretat ion>
Referências Bibliográ�cas
[1] Altmann, A., Beerenwinkel, N., Sing, T., Savenkov, I., Däumer, M., Kaiser, R., Rhee, S., Fessel, W.,
Shafer, R., Lengauer, T. Improved prediction of response to antiretroviral combination therapy using the genetic
barrier to drug resistance. Antiviral therapy 12, 2 (2007), 169.
[2] Andrew, R., David, P., Crandall, K. A., Holmes, E. C. The causes and consequences of HIV evolution. Nature
Reviews Genetics 5, 1 (2004), 52�61.
[3] Basmaciogullari, S., Babcock, G., Van Ryk, D., Wojtowicz, W., Sodroski, J. Identi�cation of conserved
and variable structures in the human immunode�ciency virus gp120 glycoprotein of importance for cxcr4 binding.
Journal of virology 76, 21 (2002), 10791.
[4] Beerenwinkel, N., Daumer, M., Oette, M., Korn, K., Hoffmann, D., Kaiser, R., Lengauer, T., Selbig,
J., Walter, H. Geno2pheno: estimating phenotypic drug resistance from hiv-1 genotypes. Nucleic Acids Research
31, 13 (2003), 3850�3855.
[5] Breiman, L. Classi�cation and regression trees. Chapman & Hall/CRC, 1984.
[6] Breiman, L. Random forests. Machine Learning 45 (October 2001), 5�32.
[7] Briz, V., Poveda, E., Soriano, V. Hiv entry inhibitors: mechanisms of action and resistance pathways. Journal
of Antimicrobial Chemotherapy 57, 4 (2006), 619�627.
[8] Carr, J., Foley, B., Leitner, T., Salminen, M., Korber, B., McCutchan, F. Reference sequences representing
the principal genetic diversity of hiv-1 in the pandemic. Human retroviruses and AIDS (1998), 111�10.
[9] Chawla, N., Bowyer, K., Hall, L., Kegelmeyer, W. Smote: synthetic minority over-sampling technique.
Journal of Arti�cial Intelligence Research 16, 1 (2002), 321�357.
[10] Clark, S., Calef, C., Mellors, J. Mutations in retroviral genes associated with drug resistance. HIV Sequence
Compendium, Los Alamos National Laboratory, Los Alamos, NM (2007).
[11] Cooper, G., Herskovits, E. A bayesian method for the induction of probabilistic networks from data. Machine
learning 9, 4 (1992), 309�347.
[12] Cortes, C., Vapnik, V. Support-vector networks. Machine learning 20, 3 (1995), 273�297.
[13] Dau, B., Holodniy, M. Novel targets for antiretroviral therapy: clinical progress to date. Drugs 69, 1 (2009), 31�50.
[14] Deeks, S. Treatment of antiretroviral-drug-resistant HIV-1 infection. The Lancet 362, 9400 (2003), 2002�2011.
[15] Frankel, A. D., Young, J. A. T. HIV-1: Fifteen proteins and an rna. Annual Review of Biochemistry 67, 1 (1998),
1�25.
[16] Freed, E. Hiv-1 gag proteins: diverse functions in the virus life cycle. Virology 251, 1 (1998), 1�15.
[17] Freund, Y. The alternating decision tree learning algorithm. In In Machine Learning: Proceedings of the Sixteenth
International Conference (1999), Morgan Kaufmann, p. 124�133.
REFERÊNCIAS BIBLIOGRÁFICAS 58
[18] Hahn, B., Shaw, G., De, K., others. Aids as a zoonosis: scienti�c and public health implications. Science 287,
5453 (2000), 607.
[19] Hall, M. Correlation-based feature selection for machine learning. PhD thesis, The University of Waikato, 1999.
[20] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H. The weka data mining
software: an update. SIGKDD Explor. Newsl. 11 , 10�18.
[21] Japkowicz, N., Stephen, S. The class imbalance problem: A systematic study. Intell. Data Anal. 6 (October 2002),
429�449.
[22] Kamber, M., Pei, J. Data mining: Concepts and techniques. Morgan Kaufmann, 2011.
[23] Klatt, E. Pathology of AIDS. Florida State University College of Medicine, 2002.
[24] Levy, J. Pathogenesis of human immunode�ciency virus infection. Microbiological reviews 57, 1 (1993), 183�289.
[25] Liu, H., Setiono, R. A probabilistic approach to feature selection - a �lter solution. In Proc. of Int. Conf. on
Machine Learning (1996), Morgan Kaufmann, p. 319�327.
[26] Liu, T., Shafer, R. Web resources for hiv type 1 genotypic-resistance test interpretation. Clinical infectious diseases
42, 11 (2006), 1608.
[27] Luciw, P. Human immunode�ciency viruses and their replication. Virology, 3rd edn. Lippincott-Raven, Philadelphia
(1996), 1881�1952.
[28] Madigan, M. Brock biology of microorganisms, 11th edn. International Microbiology 8 (2005), 149�152.
[29] McMichael, A., Phillips, R. Escape of human immunode�ciency virus from immune control. Annual review of
immunology 15, 1 (1997), 271�296.
[30] Mitsuya, H., Weinhold, K., Furman, P., St Clair, M., Lehrman, S., Gallo, R., Bolognesi, D., Barry,
D., Broder, S. 3'-azido-3'-deoxythymidine (bw a509u): an antiviral agent that inhibits the infectivity and cytopathic
e�ect of human t-lymphotropic virus type iii/lymphadenopathy-associated virus in vitro. Proceedings of the National
Academy of Sciences 82, 20 (1985), 7096.
[31] Oliveira, S. E. L., Merschmann, L. H. C., Bouillet, L. E. M. Identifying signi�cant features in hiv sequence to
predict patients' response to therapies. In Proceedings of the 6th Brazilian conference on Advances in bioinformatics
and computational biology (Berlin, Heidelberg, 2011), BSB'11, Springer-Verlag, p. 18�25.
[32] Peeters, M. Recombinant hiv sequences: their role in the global epidemic. HIV sequence compendium (2000), 54�72.
[33] Perelson, A., Neumann, A., Markowitz, M., Leonard, J., Ho, D. Hiv-1 dynamics in vivo: virion clearance
rate, infected cell life-span, and viral generation time. Science 271, 5255 (1996), 1582.
[34] Rambaut, A., Posada, D., Crandall, K., Holmes, E. The causes and consequences of hiv evolution. Nature
Reviews Genetics 5, 1 (2004), 52�61.
[35] Rhee, S., Taylor, J., Wadhera, G., Ben-Hur, A., Brutlag, D., Shafer, R. Genotypic predictors of human
immunode�ciency virus type 1 drug resistance. Proceedings of the National Academy of Sciences 103, 46 (2006),
17355.
[36] Robertson, D., Anderson, J., Bradac, J., Carr, J., Foley, B., Funkhouser, R., Gao, F., Hahn, B.,
Kalish, M., Kuiken, C., others. Hiv-1 nomenclature proposal. Science 288, 5463 (2000), 55.
[37] Rosen-Zvi, M., Altmann, A., Prosperi, M., Aharoni, E., Neuvirth, H., Sönnerborg, A., Schülter, E.,
Struck, D., Peres, Y., Incardona, F., Kaiser, R., Zazzi, M., Lengauer, T. Selecting anti-HIV therapies
based on a variety of genomic and clinical factors. Bioinformatics 24 (July 2008), i399�i406.
REFERÊNCIAS BIBLIOGRÁFICAS 59
[38] Saag, M. The impact of highly active antiretroviral therapy on hiv-speci�c immune function. Aids 15 (2001), S4.
[39] Salminen, M. Hiv inter-subtype recombination-consequences for the epidemic. AIDS Reviews 2, 3 (2000), 178�189.
[40] Schapire, R., Singer, Y. Improved boosting algorithms using con�dence-rated predictions. Machine learning 37, 3
(1999), 297�336.
[41] Scheer, S., Chu, P., Klausner, J., Katz, M., Schwarcz, S. E�ect of highly active antiretroviral therapy on
diagnoses of sexually transmitted diseases in people with aids. The Lancet 357, 9254 (2001), 432�435.
[42] Schwartz, S., Nair, M. Current concepts in human immunode�ciency virus infection and aids. Clinical and Vaccine
Immunology 6, 3 (1999), 295.
[43] Shafer, R., K, D., M.A, W., SH, E. Hiv-1 reverse transcriptase and protease sequencing for drug resistance
studies. HIV Sequence Compendium (2001), 83�133.
[44] Shafer, R., Kantor, R., Gonzales, M. The genetic basis of hiv-1 resistance to reverse transcriptase and protease
inhibitors. AIDS reviews 2, 4 (2000), 211.
[45] Simon, F., Mauclère, P., Roques, P., Loussert-Ajaka, I., Müller-Trutwin, M., Saragosti, S., Georges-
Courbot, M., Barré-Sinoussi, F., Brun-Vézinet, F. Identi�cation of a new human immunode�ciency virus type
1 distinct from group m and group o. Nature medicine 4, 9 (1998), 1032�1037.
[46] Steigbigel, R., Cooper, D., Kumar, P., Eron, J., Schechter, M., Markowitz, M., Loutfy, M., Lennox,
J., Gatell, J., Rockstroh, J., others. Raltegravir with optimized background therapy for resistant hiv-1 infection.
New England Journal of Medicine 359, 4 (2008), 339�354.
[47] Subbarao, S., Schochetman, G. Genetic variability of hiv-1. Aids 10 (1996), S13.
[48] van de Vijver D, A, W., C, B. The epidemiology of transmission of drug resistant hiv-1. HIV Sequence Compendium
(2007), 17�36.
[49] Weiss, R. How does hiv cause aids? Science 260, 5112 (1993), 1273.
[50] Weiss, R., Weiss, R., MCCUNE, J., MCMICHAEL, A., ROWLAND-JONES, S., RICHMAN, D., NABEL,
G., RINGROSE, P. Gulliver's travels in hivland. AIDS 410, 6831 (2001).
[51] White, D., Fenner, F. Medical virology. Academic Pr, 1994.
[52] William Dampier, Perry Evans, L. U., Tozeren, A. Host sequence motifs shared by HIV predict response to
antiretroviral therapy. vol. 47. BMC Med Genomics, 2009.
Top Related