Universidade Estadual de Feira de Santana Programa de Pos...

60
Universidade Estadual de Feira de Santana ProgramadeP´os-Gradua¸c˜ ao em Computa¸ c˜aoAplicada Sistema para an´ alise de sequ ˆ encias nucleot ´ ıdicas do HIV dispon ´ ıveis no GenBank Jos ´ e Irahe Kasprzykowski Gon¸calves Feira de Santana 2016

Transcript of Universidade Estadual de Feira de Santana Programa de Pos...

  • Universidade Estadual de Feira de Santana

    Programa de Pós-Graduação em Computação Aplicada

    Sistema para análise de sequênciasnucleot́ıdicas do HIV dispońıveis no

    GenBank

    José Irahe Kasprzykowski Gonçalves

    Feira de Santana

    2016

  • Universidade Estadual de Feira de Santana

    Programa de Pós-Graduação em Computação Aplicada

    José Irahe Kasprzykowski Gonçalves

    Sistema para análise de sequências nucleot́ıdicas

    do HIV dispońıveis no GenBank

    Dissertação apresentada à Universi-dade Estadual de Feira de Santanacomo parte dos requisitos para a ob-tenção do t́ıtulo de Mestre em Compu-tação Aplicada.

    Orientador: Prof. Dr. Artur Trancoso Lopo de Queiroz

    Feira de Santana

    2016

  • Ficha Catalográfica – Biblioteca Central Julieta Carteado

    Gonçalves, José Irahe Kasprzykowski

    G626s Sistema para análise de sequências nucleotídicas do HIV disponíveis

    no GenBank / José Irahe Kasprzykowski Gonçalves. – Feira de Santana,

    2016.

    59 f. : il.

    Orientador: Artur Trancoso Lopo de Queiroz.

    Dissertação (mestrado) – Universidade Estadual de Feira de Santana,

    Programa de Pós-Graduação em Computação Aplicada, 2016.

    1. Computação – Genética. 2. HIV – Genoma – Banco de dados. I.

    Queiroz, Artur Trancoso Lopo de, orient. II. Universidade Estadual de

    Feira de Santana. III. Título.

    CDU: 004.65:616.9

  • Abstract

    HIV infects over 40 million people worldwide and is considered by the World HealthOrganization a large scale pandemic. Which the associated disease has no cure.New data and analysis can help new treatment and vaccine development. However,the dataset is vast, with over 500,000 sequences available on GenBank. This datastill lacks essential information such as subtyping and genome location. To helpminimize these problems we developed a system for automated analysis from Gen-Bank data. The tool performs sequence map according to HXB2 and subtyping bycomparison with subtype reference sequences. This process uses Needleman-Wuschand Smith-Waterman respectively. All 582,678 sequences were mapped in 5 daysand 14 hours and subtyped in 1 day and 7 hours with our algorithm, while theoriginal approach was estimated to finish in 36 and 97 years respectively. Our toolwas able to analyse the massive data in a reliable time. No current subtyping toolcan analyse this high-throughput data. Our results showed that pol and gag geneswere the most prevalent genes on the dataset, and could be explained because treat-ment and subtyping are based on these genes. Moreover, the structural genes weremost prevalent, with 66.41%. This highlighted the low representation of regulatorygenes on available data. The subtyping results showed that the subtype B was mostfrequent, with 45.96%. The recombinants together represent 43.37%. Furthermore,subtype C presented only 4.12% and the other pure subtypes less than 4%. Also,the geographical data was recovered from database and USA presented higher fre-quency, with 24.50%, showing a significant country bias. Our results present a newHIV subtype distribution with the most complete and recent dataset.Herein, wepresented a new user friendly software for massive data analysis of viruses. Thissoftware is able to analyse highly mutational virus data, such as HCV and HIV inreliable time. Further, severe country bias raises questions regarding world subtypedistribution. The analysis of all sequences from HIV provides new epidemy insightsabout subtypes and country distribution.

    Keywords: HIV, Nucleotide Sequenqces, Subtypes, Genotypes, Genetics

    i

  • Resumo

    O HIV infecta mais de 40 milhões de pessoas no mundo e é considerado pela Or-ganização Mundial de Saúde como uma pandemia. A doença associada não possuicura cĺınica. Novas análises e informações podem ajudar no desenvolvimento denovos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente eti-ológico dispońıvel é vasto, contando com mais de 500 mil sequências no GenBank.Este conjunto de dados ainda carece de informações essenciais, como subtipo virale localização no genoma de referência. Para auxiliar na minimização destes pro-blemas, desenvolvemos um sistema para análise dos dados dispońıveis no GenBank.A ferramenta realiza o mapeamento de acordo com o genoma referencia HXB2 e asubtipagem comparando as sequências de referência dos subtipos. Estes processosutilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente.Todas as 582.678 sequências foram mapeadas em 5 dias e 14 horas, e subtipadas em1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminarem 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem dispońıvelatualmente é capaz de analisar esta quantidade de dados. Nossos resultados mostra-ram que os genes gag e pol são mais prevalentes no conjunto de dados. O que podeser explicado pelo fato de técnicas de avaliação de resistência aos antirretrovirais esubtipagem serem baseadas nesses genes. Além disso, os genes estruturais exibiramuma prevalência absoluta de 66.41%. Isto evidencia a pouca representatividade degenes regulatórios no conjunto de dados. Os resultados da subtipagem mostramque o subtipo B é o mais frequente com 45,96% de prevalência. Os recombinantes,combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12%de prevalência absoluta e outros subtipos puros menos de 4%. Além disso, dadosgeográficos foram recuperados do banco de dados. Os Estados Unidos representama maior frequência de sequências submetidas, com 24,5% de todos os dados dispońı-veis. Nossos resultados apresentam uma nova distribuição genot́ıpica do HIV, com oconjunto de dados mais recente e completo. Neste trabalho apresentamos um novosoftware para análise das sequências nucleot́ıdicas do HIV dispońıveis no GenBank.Este software é capaz de analisar dados de v́ırus com elevado comportamento mu-tacional como HIV e HCV em um curto espaço de tempo. A análise de todas assequências do HIV dispońıveis no GenBank oferece um novo ponto de vista sobre aepidemia, distribuição de subtipos e geográfica.

    Palavras-chave: HIV, Sequências Nucleot́ıdicas, Subtipo, Genótipo, Genética.

    ii

  • Prefácio

    Esta dissertação de mestrado foi submetida a Universidade Estadual de Feira deSantana (UEFS) como requisito parcial para obtenção do grau de Mestre em Com-putação Aplicada.

    A dissertação foi desenvolvida dentro do Programa de Pós-Graduação em Compu-tação Aplicada (PGCA) tendo como orientador o Dr. Artur Trancoso Lopo deQueiroz.

    iii

  • Agradecimentos

    Agradeço inicialmente a Deus, meu amigo, companheiro e pai eterno. Este quesempre esteve do meu lado, nas noites sem dormir, nas viagens intermináveis edesafios intranspońıveis. Gostaria ainda de agradecer à minha mãe, Márcia ElizabethKasprzykowski por ter me colocado no mundo, e me ensinado que um desafio só édesafio até que você o supere. E que é tudo uma questão de manter a mente quieta,a espinha ereta e o coração tranquilo.

    Dedico este trabalho à minha famı́lia que me ensinou a ousar, a tentar, a persistire a nunca desistir. Em especial, gostaria de dedicar à meu irmão, Mario CauheKasprzykowski Gonçalves, meu melhor amigo, meu ı́dolo, meu porto seguro. Àminha Vokita que todos os dias me ensina o significado de superação. Dedico aindaeste trabalho à Ana Caroline Guimarães Silva, sem mais, o amor da minha vida.

    Não posso deixar de mencionar meu agradecimento aos amigos que participaram ati-vamente durante toda essa jornada: Mateus Oliveira Malaquias, Felipe GuimarãesTorres e Leonardo Melo. Obrigado pelos momentos de compreensão, companhei-rismo, perseverança e apoio.

    Gostaria ainda de agradecer a todos os amigos que colaboraram de forma diretaou indireta para que este pudesse tomar forma. Dedico especialmente aos amigosda galera do ”Rei do Patinete”. Assim como aos meus colegas de trabalho e meusamigos da Van que sempre tem uma palavra de carinho e consolo.

    Em especial, gostaria de agradecer ao meu orientador Prof. Dr. Artur Trancoso Lopode Queiróz. Pela paciência, pelos ensinamentos, pela boa vontade de transformarum ”sambarilove” num projeto apresentável. Obrigado por ser um PAI, e ajudar aconstruir o profissional, cientista, professor e ser humano que sou.

    iv

  • Sumário

    Abstract i

    Resumo ii

    Prefácio iii

    Agradecimentos iv

    Sumário vi

    Lista de Figuras viii

    Lista de Abreviações ix

    1 Introdução 11.1 Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2 Objetivos Espećıficos . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2 Revisão da Bibliografia 52.1 HIV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Variabilidade Genética do HIV . . . . . . . . . . . . . . . . . . . . . . 62.3 Alinhamento de Sequências . . . . . . . . . . . . . . . . . . . . . . . 82.4 Mapeamento de Sequências . . . . . . . . . . . . . . . . . . . . . . . 102.5 Subtipagem de Sequências . . . . . . . . . . . . . . . . . . . . . . . . 122.6 Gerenciamento do Conjunto de Dados . . . . . . . . . . . . . . . . . . 122.7 Cenário Atual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3 Metodologia 153.1 Adaptação do modelo de dados . . . . . . . . . . . . . . . . . . . . . 163.2 Obtenção das sequências . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.2.1 Inserção via arquivos de texto . . . . . . . . . . . . . . . . . . 17

    v

  • 3.2.2 Obtenção Automática . . . . . . . . . . . . . . . . . . . . . . 183.3 Mapeamento das sequências do HIV . . . . . . . . . . . . . . . . . . . 183.4 Subtipagem do Conjunto de Dados . . . . . . . . . . . . . . . . . . . 223.5 Disponibilização Pública dos Dados . . . . . . . . . . . . . . . . . . . 26

    4 Resultados 274.1 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.3 Mapeamento de Sequências . . . . . . . . . . . . . . . . . . . . . . . 284.4 Subtipagem das Sequências . . . . . . . . . . . . . . . . . . . . . . . 294.5 Distribuição por páıs das sequências e análise dos subtipos . . . . . . 33

    5 Considerações Finais 41

    Referências Bibliográficas 43

    vi

  • Lista de Figuras

    2.1 Decisões tomadas pelo algoritmo ao percorrer a matriz. Fonte:[Polanski e Kimmel 2007] . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Matriz de escores para o alinhamento utilizando o algoritmo de Nee-dleman e Wunsch. Fonte: [Polanski e Kimmel 2007] . . . . . . . . . . 9

    2.3 Matriz de decisões otimizadas do algoritmo de Needleman e Wunsch.Fonte: [Polanski e Kimmel 2007] . . . . . . . . . . . . . . . . . . . . . 9

    3.1 Sub fluxo de mapeamento das sequências do HIV. Fonte: Próprio Autor 203.2 Processo principal de mapeamento das sequências do HIV. Fonte:

    Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 Subtipos do HIV-1 e suas respectivas derivações. Fonte: Próprio Autor 233.4 Fluxo de subtipagem de sequências Fonte: Próprio Autor . . . . . . . 243.5 Sub fluxo de subtipagem de sequências Fonte: Próprio Autor . . . . . 25

    4.1 Mapa de densidade das regiões do genoma completo do HIV. Fonte:Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.2 Matriz de confusão entre a metodologia clássica de subtipagem, e ametodologia de agrupamento por derivação de recombinação. Fonte:Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    4.3 Prevalência dos subtipos no conjunto de dados gerado pelo software, eno conjunto de dados fornecido pelo Los Alamos National Laboratory.Fonte: Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.4 Matriz de confusão entre os dois dataset’s em questão para subtipospuros. Fonte: Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . 31

    4.5 Matriz de confusão entre os dois dataset’s em questão incluindo sub-tipos recombinantes. Fonte: Próprio Autor . . . . . . . . . . . . . . . 32

    4.6 Distribuição da prevalência de cada forma recombinante presente noconjunto de dados. Fonte: Próprio Autor . . . . . . . . . . . . . . . . 33

    4.7 Relação entre subtipos puros e recombinantes, e tipos de recombinan-tes para ambos os dataset’s. Fonte: Próprio Autor . . . . . . . . . . . 34

    4.8 Representação do montante de submissão de sequências por páıs.Fonte: Próprio Autor . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    4.9 Distribuição de subtipos nos Estados Unidos. Fonte: Próprio Autor . 354.10 Distribuição de subtipos nos África do Sul. Fonte: Próprio Autor . . 364.11 Distribuição de subtipos em Uganda. Fonte: Próprio Autor . . . . . . 37

    vii

  • 4.12 Distribuição de subtipos no Quênia. Fonte: Próprio Autor . . . . . . 374.13 Distribuição de subtipos na China. Fonte: Próprio Autor . . . . . . . 384.14 Distribuição de subtipos no Japão. Fonte: Próprio Autor . . . . . . . 384.15 Distribuição de subtipos no Canadá. Fonte: Próprio Autor . . . . . . 394.16 Distribuição de subtipos na França. Fonte: Próprio Autor . . . . . . 394.17 Distribuição de subtipos no Brasil. Fonte: Próprio Autor . . . . . . . 404.18 Distribuição de subtipos na Tailândia. Fonte: Próprio Autor . . . . . 40

    viii

  • Lista de Abreviações

    Abreviação DescriçãoAIDS Śındrome da Imunodeficiência Adquirida (Acquired Immunodeficiency Syndrome)CRF Forma Recombinante Circulante (Circulating Recombinnant Form)HCV Vı́rus da Hepatite C (Hepatitis C Virus)HIV Vı́rus da Imunodeficiência Humana (Human Immunodeficiency virus)HIV-1 Vı́rus da Imunodeficiência Humana tipo 1 (Human Imunodeficiency Virus type 1)HMM Modelo Oculto de Markov (Hidden Markov Models)MHC Complexo Principal de Histocompatibilidade (Main Histocompatibility Complex)NCBI National Center for Biotechnology InformationORF Quadro Aberto de Leitura(Open Read Frame)SGBD Sistema Gerenciador de Banco de DadosSIV Vı́rus da Imunodeficiência em Śımios (Simian Immunodeficiency virus)VSDBM Gerenciados de Bases de Dados Virais (Viral Sequence Data Base Manager)SOAP Protocolo de Acesso a Objetos Simples (Simple Object Access Protocol)

    URF Forma Recombinante Única (Unique Recombinant Form)XML Linguagem de Marcação Extenśıvel (eXtensible Markup Language)

    ix

  • Caṕıtulo 1

    Introdução

    “Tudo é uma questão de manter amente quieta, a espinha ereta e ocoração tranquilo. ”

    – Walter Franco

    O agente etiológico da śındrome da imunodeficiência adquirida, o HIV, infecta cercade 2,3 milhões de pessoas por ano, num total de 40 milhões de pessoas infectadas nomundo. Já a śındrome, mata cerca de 2 milhões por ano [UNAIDS 2013]. Apesarda prevalência da patologia e do grande número de novas infecções, o tratamentopara esta śındrome ainda apresenta desafios e não existe uma cura cĺınica. Grandeparte do motivo desta dificuldade de tratamento se dá pela taxa mutacional e aconsequente heterogeneidade genot́ıpica associada. O HIV-1 apresenta uma taxamutacional maior que os v́ırus e micro-organismos de DNA [Combe e Sanjuán 2014].

    Essa caracteŕıstica adaptativa apresentada por este v́ırus, associada a muta-ções nas regiões alvo de fármacos conhecidas como ”mutações de escape”, redu-zem as chances de descoberta de novas regiões alvo para intervenções terapêuti-cas [UK Colaborative Group on HIV Droug Resistance 2013]. Este comportamentomutacional facilita a geração de diversas quasiespécies do v́ırus, que por não sofreremação dos fármacos, se proliferam, e consequentemente criam uma heterogeneidadeentre os genótipos do v́ırus [Li et al. 2015].

    Esta heterogeneidade genot́ıpica, aliada a elevada taxa reprodutiva, permite a rápidaadaptação da população viral, o que facilita a ocorrência de mutações nas regiõesreconhecidas pelo sistema imune (eṕıtopos). Estas mutações geralmente causam onão pareamento dos eṕıtopos com as moléculas do complexo principal de histocom-patibilidade (MHC). Desta forma, o sistema imune falha em identificar o organismoinvasor, o que causa a ausência relevante de resposta imune. Isso permite que ov́ırus seja poupado da influência do sistema imunológico e haja a persistência destegenótipo viral [Neher e Leitner 2010]).

    1

  • Caṕıtulo 1. Introdução 2

    Para amenizar estes problemas, diversos estudos sobre a estrutura genética do HIVvem sendo realizados para identificar informações que levem a formas eficazes detratamento [Johannessen et al. 2011, Crous et al. 2012]. A identificação de regiõesimunogênicas evolutivamente estáveis no HIV seria o ponto chave para o desenvolvi-mento de um tratamento eficaz. A existência de regiões desta natureza é altamenteprovável, se levadas em consideração as restrições funcionais e estruturais do genoma[Snoeck et al. 2011].

    Para identificar tais áreas, é necessário compreender a diversidade genética dos or-ganismos, suas caracteŕısticas e comportamento [de Queiróz et al. 2011]. Sendo as-sim, os genomas são sequenciados e formatados em arquivos ou em bancos de dadosbiológicos, para posteriormente aplicar modelos de análise matemáticos e compu-tacionais. Assim, serão geradas informações sobre as caracteŕısticas genot́ıpicas doconjunto de dados, e assim desenvolvidas intervenções mais eficazes para a doença[Chan et al. 2014, Crous et al. 2012, McGovern et al. 2010].

    Na última década as tecnologias de sequenciamento vem crescendo exponencialmentepara atender às demandas de compreensão genética. Partindo da identificação dogenoma de referência humano, este desenvolvimento tecnológico possibilita o au-mento na geração de dados sobre a estrutura genética. O crescimento no conjuntode dados, por sua vez, possibilita estudos em escalas antes infact́ıveis. Na abrangên-cia das tecnologias de nova(ou próxima) geração (next generation) a disponibilidadede cepas sequenciadas nos bancos de dados biológicos cresceu na última década[Mardis 2011].

    Deste modo, o HIV, como um agente etiológico largamente estudado, apresenta umconsiderável conjunto de dados dispońıvel. Apenas no GenBank, são disponibiliza-das mais de 550 mil sequências distribúıdas em mais de 60 grupos, entre subtipospuros e formas recombinantes únicas e circulantes. Desta forma, com um conjuntode dados tão grande como o dispońıvel no GenBank, os procedimentos de obten-ção de informações como mapeamento e subtipagem tornam-se relativamente árduos[Hemelaar 2012].

    Seguindo a estratégia serial utilizada atualmente seriam necessários cerca 40 milhõesde alinhamentos para que se localize o subtipo mais provável de cada sequência o queseria inviável computacionalmente. Percebe-se então a necessidade de implementa-ção de um modelo computacional que obtenha de forma recursiva o conjunto dedados dispońıvel no GenBank, e realize o alinhamento, mapeamento e subtipagemdas sequências dispońıveis neste, armazenando os dados gerados pelos procedimentospara futuras análises.

    1.1 Considerações Preliminares

    A heterogeneidade genot́ıpica e a elevada taxa mutacional apresentada pelo HIVrepresentam fatores importantes que contribuem para a dificuldade do combate a

  • Caṕıtulo 1. Introdução 3

    Śındrome da Imunodeficiência Adquirida (AIDS). Para melhor compreender essesfatores é necessário o estudo extensivo da estrutura genética do v́ırus e da distri-buição dos subtipos virais. Desta forma será posśıvel identificar principalmente, osfatores relacionados com essa elevada taxa mutacional e suas consequências. A iden-tificação de áreas imunogênicas evolutivamente estáveis entre os diversos subtipos eelementos virais seria o ponto chave para o desenvolvimento de tratamentos efica-zes para as doenças cujos agentes etiológicos possuam comportamento mutacionalsimilar ao do v́ırus em questão [de Queiróz et al. 2011].

    Dessa maneira, é necessário obter constantemente a informação genética dispońıvelnos bancos de dados, indexar e então mapear e subtipar as sequências nucleot́ıdicas.Os dados resultantes deste processo vão determinar as frequências e os quantitati-vos de variação genot́ıpica viral destes indiv́ıduos facilitando a compreensão de suadinâmica evolutiva e apresentando um quadro claro do estado atual do organismo[Hemelaar 2012]. Este quadro de informações sobre a dinâmica evolutiva é relevantepara o desenvolvimento de tratamentos eficazes para a patologia associada. Umavez que a elevada taxa mutacional é a principal causa da ausência de intervençõeseficazes [Castro-Nallar et al. 2012]. Entretanto, o grande volume de dados referen-tes ao HIV e o elevado custo computacional para analisar essas sequências tornamessa tarefa laboriosa e complexa.

    A avaliação de grandes volumes de dados requer algoŕıtimos espećıficos, otimizados edirecionados à aquisição, mapeamento e alinhamento de sequências virais. Para su-prir tal necessidade, a plataforma de gerenciamento de sequências nucleot́ıdicas virais(VSDBM) oferece um workbech para obtenção, inserção e indexação das sequênciasnucleot́ıdicas dispońıveis. Além disso, oferece um extenso framework para desenvol-vimento e aplicação de análises nas sequências inseridas [Irahe Kasprzykowski 2013].

    1.2 Objetivos

    1.2.1 Objetivo Geral

    Um software de obtenção recursiva e análise das sequências nucleot́ıdicas do HIVdispońıveis no GenBank.

    1.2.2 Objetivos Espećıficos

    • Desenvolver um modelo de dados adaptado às caracteŕısticas genot́ıpicas doorganismo.

    • Criar um banco de dados biológico com as sequências provenientes do Gen-Bank.

  • Caṕıtulo 1. Introdução 4

    • Modelar, Desenvolver e aplicar o mapeamento das sequências no genoma com-pleto.

    • Modelar, Desenvolver e aplicar a classificação das sequências nos subtipos eformas recombinantes conhecidas atualmente.

    • Disponibilizar publicamente a aplicação e o conjunto de dados.

    1.3 Contribuições

    Visando melhorar o workflow, este trabalho pretende implementar um modelo dedados capaz de armazenar o conjunto de dados obtidos, além de permitir sua inde-xação. Este modelo deve ainda apresentar uma flexibilidade que permita a posteriorinserção e indexação das informações obtidas com as análises. Além de permitir abusca recursiva diária nos principais bancos de dados por novas sequências.

    Serão implementados novos protocolos de análise de sequências para identificar novascaracteŕısticas e adiciona-las às features da sequência. Assim, a necessidade dodesenvolvimento de um modelo computacional capaz de alinhar, mapear e subtiparas sequências inseridas nesta plataforma fica evidente. Isto possibilita a identificaçãode novas informações relevantes sobre a estrutura genética viral, reconhecimentoimunológico e aspectos evolutivos, auxiliando o desenvolvimento de técnicas eficazesde combate às doenças causadas pelos mesmos.

    1.4 Organização do Trabalho

    Este trabalho esta organizado em seis caṕıtulos: Introdução, Revisão da Bibliografia,Metodologia, Resultados, considerações finais e Referências.Na Introdução o leitorentra em contato com o problema de estudo deste trabalho e é apresentado uma brevecontextualização na temática que será mais profundamente abordada na próximaseção. Foi feita uma revisão bibliográfica sobre os principais temas abordados nestetrabalho.

    Na Metodologia, é descrito o processo utilizado para alcançar o objetivo esperado.Na seção de Resultados Parciais, estão descritos todos os resultados obtidos atéo momento com a aplicação dessa metodologia. As considerações finais apontamas contribuições e impactos deste trabalho aliados uma breve discussão sobre osresultados. A seção Referências é onde podem ser encontradas os trabalhos e fontesque embasaram esta pesquisa.

  • Caṕıtulo 2

    Revisão da Bibliografia

    2.1 HIV

    O Human Imunodeficiency Virus type 1 (HIV-1), pertencente à famı́lia Re-troviridae, gênero Lentivirus, foi identificado como agente etiológico da Śın-drome da Imunodeficiência Humana Adquirida (AIDS)[Barré-Sinoussi et al. 2013,Barre-Sinoussi, F., J. C. Chermann 1983, Gallo et al. 1983]. Esta patologia atingiuno Brasil cerca de 700 mil casos entre 1980 e 2012 [MINISTÉRIO DA SAÚDE 2012].

    Nas primeiras duas semanas de infecção ocorre a disseminação viral pelo organismodo hospedeiro, porém sem apresentação de sintomas. Até a quarta semana de in-fecção é apresentada uma elevação na viremia, uma alta taxa de infecção de célulasT CD4+ e linfonodos acompanhados de sintomas similares a uma gripe viral. Apósesta fase, existem apenas mais duas, uma que pode chegar a vinte anos de duração,onde se observa um crescimento acentuado da viremia e por via de regra não há apre-sentação de sintomas. A última fase de infecção se caracteriza pelo decaimento nacontagem das células T CD4+ o que ocasiona a falha imune no organismo infectadoabrindo caminho para infecções oportunistas podendo levar à morte do indiv́ıduo[Coffin e Swanstrom 2013].

    A principal caracteŕıstica da infecção por HIV é a disfunção progressiva do sistemaimune, avançando para a śındrome da imunodeficiência adquirida, na maioria dos ca-sos observados. A dinâmica evolutiva apresentada pelo agente etiológico em questãodurante a infecção é guiada inicialmente pelo sistema imune do paciente, e posterior-mente pela pressão seletiva inferida pelos fármacos. Normalmente, um peŕıodo nãosintomático é apresentado pelo paciente durante os primeiros anos de infecção ondeos ńıveis virais são baixos, porém os ńıveis de replicação e variabilidade chegam a1010 por dia [Neher e Leitner 2010].

    Este organismo apresenta em seu genoma completo cerca de 9 mil pares de base.Seu genoma é flanqueados por regiões não traduzidas, que participam diretamente

    5

  • Caṕıtulo 2. Revisão da Bibliografia 6

    na reprodução viral e na integração com o material genético do hospedeiro. Estasregiões estão divididas em LTR-3’ e LTR-5’ [van der Kuyl e Berkhout 2012].

    Os genes apresentados no genoma do HIV são o gag que codifica as protéınas p1,p2 e p6, além das das estruturas do capśıdeo (p24 ), nucleocapśıdio (p7 ) e ma-triz (p17 ), o env que codifica as protéınas do envelope viral (gp120 e gp41 ), eo pol que codifica as enzimas responsáveis pela protease, transcriptase reversa, eintegrase. Outras regiões com quadros abertos de leitura menores, codificam pro-téınas adicionais como Vpr, Vpu, Vif, Tat, Nef, Rev, possuem função regulatória[van der Kuyl e Berkhout 2012].

    As polimerases responsáveis pela replicação viral do organismo, não possuem ativi-dades de correção possuem taxas de erro elevadas se comparadas às das polimerasescodificadas por eucariotos. Este fator então, juntamente com a elevada taxa dereplicação viral e a recombinação genética apresentada por este organismo, causainserções e deleções no genoma viral, além de produzir diversos tipos de mutações.Isto posto, estas mutações contribuem diretamente para a resistência apresentadapor este v́ırus em relação aos fármacos [Coffin e Swanstrom 2013].

    Estas modificações no genoma viral do HIV ocasionam uma elevada heterogenei-dade genot́ıpica. Esta caracteŕıstica contribui significativamente para a adaptabi-lidade dos organismos virais em questão. Uma vez que mutações nas áreas reco-nhecidas pelo sistema imune ou nas áreas de ação dos fármacos, causam não pa-reamento com o MHC e a consequente ausência de resposta imune. Estes fatorescontribuem para a sobrevivência desta quasiespécie, proliferando assim este genótipo[Rouzine et al. 2014]. Além de facilitar a sobrevivência dos patógenos no organismo,mutações em determinadas áreas do genoma geram uma elevada diversidade geno-t́ıpica viral, o que dificulta a identificação de novas regiões alvo para intervençõesterapêuticas [UK Colaborative Group on HIV Droug Resistance 2013].

    2.2 Variabilidade Genética do HIV

    A variabilidade genética do v́ırus em questão é uma das principais causas da au-sência de tratamentos eficazes para as doenças causadas pelos mesmos. Estudosforam realizados sobre a variabilidade genot́ıpica do HIV onde se inferiu que esteé dividido filogeneticamente em três grupos principais: O (at́ıpico), N (novo, não-N, não-O) e M (principal). Destes grupos, é posśıvel destacar o grupo M, poisos v́ırus que pertencem a este grupo são os principais responsáveis pela pande-mia da doença. Estes estão subdivididos em 9 subtipos distintos, além de apre-sentar mais de 70 formas recombinantes circulantes e únicas (CRF’s e URF’s)[UK Colaborative Group on HIV Droug Resistance 2013, Hemelaar 2012].

    A variação viral responsável pela infecção em seres humanos, se originou na Áfricacentral, onde ocorreu infecção de seres humanos por variações do v́ırus da imunode-ficiência śımia (SIV). Estre processo de infecção ocorreu provavelmente no processo

  • Caṕıtulo 2. Revisão da Bibliografia 7

    de caça e corte da carne para alimentação, além da venda e distribuição de śımioscomo animais de estumação [Hahn et al. 2000]. Desta forma, eventos independentesde transmissão do v́ırus de primatas não humanos para humanos ocasionou a criaçãode algumas linhagens virais agrupadas em dois tipos principais, o HIV-1 e o HIV-2.O tipo 1 é apontado como mais prevalente na pandemia, por conter o grupo M, queinfecta cerca de 33 milhões de pessoas[Hemelaar 2012].

    Um dos principais fatores que contribuem para a dispersão da pandemia no mundo,é a variabilidade genética apresentada pelo agente etiológico, associada à rápidaevolução viral. Esta variabilidade é causada pela elevada taxa de replicação viralaliada a elevada taxa mutacional e de recombinação da enzima transcriptase reversa,que não possui mecanismo de auto-correção [Roberts et al. 1988, Ho et al. 1995] .

    Tendo em vista a elevada taxa mutacional, a identificação de regiões imunogênicasevolutivamente estáveis no HIV seria o ponto chave para o desenvolvimento de trata-mentos eficazes. Para identificar estas regiões, é necessário obter informações acercada estrutura genética, genot́ıpica e comportamento mutacional. Como demonstradopara o HCV (Hepatitis C Virus), que possui comportamento mutacional semelhanteao do HIV [de Queiróz et al. 2011].

    Para obter informações desta natureza a respeito do v́ırus em questão, é necessárioaplicar alguns tratamentos ao conjunto de dados dispońıvel. Sendo assim, amos-tras destes organismos são sequenciadas e armazenadas formando um conjunto dedados. Posteriormente são aplicados a estes, técnicas de bioinformática como ali-nhamento, mapeamento e subtipagem que resultarão em informações a respeito darelação genot́ıpica das sequências com as estruturas mapeadas anteriormente.

    Desta forma é posśıvel fornecer um conjunto de dados mais completo e confiável.Um dos pontos importantes no desenvolvimento de estratégias de tratamentos efi-cazes para a etiologia em questão, é o acompanhamento de variantes virais emer-gentes. É necessário então conhecer a variabilidade apresentada no cenário atuallevando em consideração o conjunto de dados completo, e não só uma secção res-trita [Chan et al. 2014].

    Para observar o comportamento mutacional do organismo em questão e a ocorrên-cias de regiões codificantes é necessário analisar as sequências dispońıveis nos bancosde dados primários como o GenBank. Para obter informações como a localizaçãode uma determinada sequência no genoma completo, é realizado o processo de ali-nhamento global da sequência de referência com a sequência query (assumindo suahomologia, ou seja, que ambos partem de um ancestral comum) para identificar oposicionamento dos nucleot́ıdeos de uma em relação à outra.

    O processo de alinhamento geralmente é feito através de algoritmos matemáticos,modelados computacionalmente de forma a implementar técnicas de matriz de score.Por exemplo, o algoritmo de Needleman e Wunsch utiliza conceitos de programa-ção dinâmica para buscar o alinhamento global ótimo [Needleman e Wunsch 1970,Day 2010].

  • Caṕıtulo 2. Revisão da Bibliografia 8

    2.3 Alinhamento de Sequências

    Para comparar duas sequências nucleot́ıdicas é necessário alinha-las. O alinhamentode sequências, se trata do processo de pareamento entre duas ou mais sequências.Esse processo leva em consideração a similaridade entre determinadas regiões destassequências, assim como indels, que são inserções ou deleção de nucleot́ıdeos. Otermo é originado, pois não é posśıvel determinar, sem análises filogenéticas, sehouve inserção ou deleção no śıtio em questão.

    Por exemplo, assumindo a comparação entre duas sequências, é posśıvel representá-las em duas dimensões para identificar as possibilidades de pareamento entre assequências em questão. O resultado do processo de alinhamento trata-se do coefici-ente de similaridade entre as duas sequências, além de uma sequência que representao pareamento entre as regiões [Deshmukh e Kharat 2015].

    Em diversos estudos, os alinhamentos são descritos em dois formatos funcionais quesão local e global. O alinhamento global, pressupõe a homologia ou ancestralidadecomum entre as duas sequências e constrói um alinhamento partindo da suposição deque as sequências possuem o mesmo tamanho, enquanto o alinhamento local, buscao local de maior ńıvel de similaridade [Deshmukh e Kharat 2015]. No alinhamentoglobal, o algoritmo considera que o śıtio 1 da sequência A, trata-se do śıtio 1 dasequência B, enquanto o śıtio n da sequência A refere-se aos śıtio n da sequência B.

    O alinhamento ótimo é obtido como resultado de algoritmos exaustivos(ou exatos) dealinhamento, e é bastante utilizado no processo obtenção de informações de sequên-cias nucleot́ıdicas, pois se trata do melhor alinhamento posśıvel levando em consi-deração a ponderação das deleções e inserções de nucleot́ıdeos no genoma. Além daprogressão de tais inserções ou deleções. Já a utilização de heuŕısticas no processo dealinhamento, surgiu pela necessidade de tratamento de bases de dados grandes. Umavez que a estratégia utilizada no encadeamento de algoritmos exatos não satisfaziaas necessidades de otimização de recursos [Chakraborty e Bandyopadhyay 2013].

    Os alinhamentos ótimos de sequências como os propostos por Needleman e Wunsch, eSmith e Waterman, [Needleman e Wunsch 1970, Smith, T. F.; Waterman 1981] pos-suem uma ordem de complexidade computacional proporcionais ao tamanho dassequências trabalhadas ou seja, de ordem quadrática de tempo e recurso de má-quina. Uma vez que ambos utilizam matrizes de computação dinâmica, onde cadapossibilidade de alinhamento é calculada, e posteriormente anotada, para que estetipo de algoritmo possa garantir sempre o melhor alinhamento posśıvel entre estasduas sequências.

    Um algoritmo de alinhamento exaustivo, utilizado para realizar alinhamentos dotipo global, é o Needleman e Wunsch [Needleman e Wunsch 1970]. Este algoritmoutiliza técnicas de programação dinâmica para construir e percorrer uma matriz,que se refere à relação entre os nucleot́ıdeos das sequências em questão. Duranteo processo de construção da matriz (Figura 2.2), o algoritmo toma uma série dedecisões, que podem ser uma das representadas na Figura 2.1.

  • Caṕıtulo 2. Revisão da Bibliografia 9

    Figura 2.1: Decisões tomadas pelo algoritmo ao percorrer a matriz. Fonte:[Polanski e Kimmel 2007]

    Figura 2.2: Matriz de escores para o alinhamento utilizando o algoritmo de Needle-man e Wunsch. Fonte: [Polanski e Kimmel 2007]

    Cada decisão tomada em uma posição da matriz gera um estado, construindo umamatriz de estados, onde o próximo estado é definido pelo estado atual, dada asposições nas sequência e a decisão atual. Esta matriz de estados é constrúıda comodefinido na Figura 2.3, e posteriormente percorrida construindo a sequência final dealinhamento.

    Figura 2.3: Matriz de decisões otimizadas do algoritmo de Needleman e Wunsch.Fonte: [Polanski e Kimmel 2007]

  • Caṕıtulo 2. Revisão da Bibliografia 10

    O coeficiente de similaridade entre as sequências é calculado de forma cumulativa àmatriz de estados atuais, de forma que é levado em consideração o valor resultantede cada pareamento, e em seu somatório é obtido o escore final de similaridade entreas sequências como exibido na seguinte fórmula:

    Outro algoritmo exato largamente utilizado no processo de análise de sequências nu-cleot́ıdicas é o Smith e Waterman. Este algoritmo não pressupõe homologia entre assequências, por tanto oferece um alinhamento local entre as sequências(local de maiorsimilaridade). Para tanto, uma matriz é criada, posteriormente preenchida, e final-mente percorrida. Desta forma é gerado o alinhamento entre as regiões com maior si-milaridade. Para identificar tais regiões, o algoritmo atribui uma penalidade às áreasnão pareadas. Estas penalidades permitem que a alinhamento final não possua neces-sariamente o mesmo tamanho das sequências alinhadas [Deshmukh e Kharat 2015].

    Outras técnicas de alinhamento de sequências largamente utilizadas são as conside-radas Heuŕısticas [Pruesse et al. 2012, Chakraborty e Bandyopadhyay 2013]. Estastécnicas não trabalham com a totalidade das possibilidades de alinhamento de duasdeterminadas sequências para inferir o melhor alinhamento. Este tipo de algoritmodetermina dinamicamente as possibilidades de alinhamento menos prováveis e aselimina do processo de alinhamento.

    Entretanto a utilização de técnicas heuŕısticas como Hidden Markov Models(HMM), alinhamento progressivo, técnicas iterativas determińısticas e com-putação evolutiva (Algoritmos Genéticos) reduz a acurácia do alinhamento.Além de depender diretamente da forma como os dados estão dispostos[Chakraborty e Bandyopadhyay 2013].

    Desta forma, o tratamento heuŕıstico em bases de dados extremamente dinâmicase evolutivas não seria recomendável. Uma vez que dados são inseridos constante-mente, modificando a configuração do conjunto de dados. Desta forma é modificadaconsequentemente a dinâmica da análise heuŕıstica. O que impacta diretamente emsua parametrização e consequentemente o resultado. Sendo assim é ratificada a ne-cessidade de um sistema adaptativo, que utilize algoritmos pré-parametrizados quese adaptem à um conjunto de dados dinâmico.

    2.4 Mapeamento de Sequências

    O procedimento de mapeamento de sequências no genoma completo é consideradoessencial para a análise de dados provenientes sequenciamento de alto desempenho.Este procedimento permite determinar quais genes a sequência compreende. Além

  • Caṕıtulo 2. Revisão da Bibliografia 11

    disso, caso alguma mutação tenha ocorrido é posśıvel rastrear o gene em que aquelamutação ocorreu, e assim melhorar a abordagem de tratamentos antirretrovirais[Combe e Sanjuán 2014].

    No conjunto de dados disponibilizado pelo GenBank por exemplo, a média de ta-manho de sequências do HIV é de apenas 1000 pares de base. Enquanto o genomacompleto do v́ırus possui mais de 10 vezes esse tamanho(10700pb). Isso ocorredevido a variação das técnicas de sequenciamento e abordagens de montagem doscontigs. Desta forma, o processo de identificação da correlação entre uma determi-nada sequência, e o genoma completo torna a informação contida no fragmento maisrelevante.[Vrancken et al. 2016]

    Essencialmente, o processo de mapeamento de uma sequência nucleot́ıdica parte daconstrução de um mapa de caracteŕısticas. Este mapa é criado a partir de umasequência de referência ou genoma completo onde informações funcionais e posici-onais são levadas em consideração. A partir do alinhamento entre a sequência emquestão e a sequência de referência, é posśıvel identificar quais áreas da sequênciainicial se referem em relação à sequência de referência do organismo, desta formaé posśıvel identificar quais caracteŕısticas são comuns. Este processo possui umaordem de complexidade proporcional ao tamanho das sequências alinhadas.

    Durante o processo de mapeamento, é realizado o alinhamento global entre a sequên-cia em questão e a sequência de referência do organismo. Este processo de alinha-mento indicará quais regiões do genoma completo são ”cobertas”pelo genoma emquestão. A partir desta ”cobertura”́e posśıvel identificar quais caracteŕısticas pre-sentes no genoma completo são completamente expressas na sequência em questão,e quais são apenas parcialmente expressas.

    A ”cobertura”de uma determinada sequência é determinada pela posição de ińıcioe fim do alinhamento. A posição de ińıcio do alinhamento é determinada pela pri-meira posição pareada em relação ao genoma completo. Enquanto a última posiçãopareada do alinhamento corresponde ao final da cobertura.

    Ao analisar cada caracteŕıstica mapeada do genoma completo, é necessário verificara presença de indels na região observada. Desta forma é posśıvel qualificar a ”co-bertura”como parcial ou total, indicando respectivamente se a sequência em questãocodifica totalmente ou apenas parcialmente a caracteŕıstica observada.

    Com este mapa de ”coberturas”, é posśıvel identificar conjuntos de dados alvo paradeterminados estudos. É posśıvel ainda selecionar sequências que codifiquem regiõesespećıficas, como por exemplo, regiões que codificam eṕıtopos (estruturas reconheci-das pelo sistema imune). Desta forma, o processo de mapeamento contribui direta-mente para o desenvolvimento de novos tratamentos, e qualificação dos existentes.

  • Caṕıtulo 2. Revisão da Bibliografia 12

    2.5 Subtipagem de Sequências

    Além de informações sobre localização da sequência query, no genoma completo, énecessária a identificação do subtipo viral para identificar as restrições e caracteŕıs-ticas deste organismo em espećıfico, a partir de um perfil já traçado de seu grupo[Chan et al. 2014].

    O processo de subtipagem de uma determinada sequência, se trata de selecionarentre os subtipos já identificados do organismo, aquele em que a sequência melhorse encaixa. É necessário então, determinar todas as sequências de referência (querepresentam as caracteŕısticas do subtipo) do subtipo.

    As sequências de referência são alinhadas localmente com a sequência em questão,obtendo-se um escore (coeficiente de similaridade) para cada alinhamento. Comeste escore é posśıvel identificar o ńıvel de similaridade da sequência query com ossubtipos, permitindo assim, que o subtipo mais similar seja selecionado.

    Como o processo de subtipagem demanda um ou mais alinhamentos, a complexidadedeste é proporcional ao tamanho das sequências alinhadas em relação a quantidadede subtipos identificados no organismo em questão. Sendo assim, se um organismopossui dez subtipos com apenas uma sequência de referência cada um, é necessáriorealizar dez alinhamentos da ordem dos tamanhos das referências de cada um deles.

    O processo de subtipagem exaustivo é essencial para a investigação da resistênciaviral e das diferenças na patogênese entre os subtipos [Pineda-Peña et al. 2013].Por consequência são necessárias as sequências de referência de subtipos e recom-binantes deste organismo. Estas sequências devem ser alinhadas localmente com asequência da cepa alvo. Desta forma, os valores de similaridade entre a cepa alvo eos subtipos informam a qual subtipo aquela determinada sequência mais se parece[Chan et al. 2014].

    2.6 Gerenciamento do Conjunto de Dados

    Devido ao avanço tecnológico e do baixo custo do sequenciamento de alta demanda,os conjuntos de dados biológicos cresce exponencialmente. O desenvolvimento dedispositivos para o gerenciamento de grandes quantidades de dados biológicos é con-siderado fundamental em bioinformática [Zou et al. 2015]. Em 2014 foi reportada aexistência de 1552 bases de dados de acesso público [Fernández-Suárez et al. 2014].

    Em termos de classificação de bases de dados biológicas, se pode dividir em trêsprincipais: Escopo da cobertura dos dados, tipo de dados gerenciados, método decuragem dos dados. A respeito do processo de curagem, os bancos de dados bioló-gicos podem der divididos em primários, secundários e especializados.

    Os bancos de dados considerados primários contém dados brutos, geralmente nãocurados, como o GenBank. Já os bancos de dados secundários possuem um certo

  • Caṕıtulo 2. Revisão da Bibliografia 13

    ńıvel de curagem. Os bancos de dados especializados, possuem por sua vez dadosde um determinado organismo, com um certo ńıvel de curagem [Zou et al. 2015].

    O conjunto de dados dispońıvel no Genbank sobre o v́ırus da imunodeficiência hu-mana é muito grande, o que torna o processo de aplicação de modelos matemáticose computacionais uma tarefa árdua. Este conjunto de dados é composto por maisde meio milhão de sequências nucleot́ıdicas dispońıveis no Genbank.

    Estas sequências são distribúıdas em 4 grupos, dos quais o M se destaca comoprincipal e apresenta 9 subtipos ou tipos subordinados puros, e mais de 70 formasrecombinantes que são quimerizações entre mais de um subtipo puro. Atualmentesão necessários cerca de 40 milhões de alinhamentos apenas para que se obtenha osubtipo no qual cada sequência está classificada [Crous et al. 2012], o que seria umprocesso laborioso, complexo e computacionalmente inviável.

    Além da extensão do conjunto de dados, ao utilizar matrizes de escore como basepara a comparação de sequências, seja local ou global, o modelo estratégico atual,encontra a restrição do tamanho das sequências. Uma vez que computacionalmente,existem limites para a quantidade registros de uma matriz. Este limite é associadodiretamente à quantidade de endereços que podem ser criados e gerenciados paraum mesmo objeto. Desta forma é criado mais um grande desafio no tratamento dedados.

    Recentemente nosso grupo demonstrou a possibilidade de obtenção e indexaçãode sequências nucleot́ıdicas a partir de diversas técnicas de busca e padrões deformatação. Um exemplo de trabalho neste sentido, é a plataforma VSDBM[Irahe Kasprzykowski 2013]. Plataforma esta que disponibiliza um extenso fra-mework de desenvolvimento de técnicas de bioinformática. Este framework pos-sibilita o desenvolvimento de um modelo computacional capaz de unir a inserçãootimizada e a indexação de sequências nucleot́ıdicas virais à novas técnicas avan-çadas de tratamento de dados biológicos em um software que possua os principaisprocedimentos de bioinformática como alinhamento, mapeamento e subtipagem desequências.

    2.7 Cenário Atual

    No cenário atual, a base de dados utilizada como padrão de consulta de informaçõessobre o HIV é a ”HIV Databases”, disponibilizada pelo Laboratório Nacional de LosAlamos. Apesar de existirem outros bancos de dados com informações sobre o agenteetiológico, este conjunto de dados é considerado um banco de dados biológico espe-cializado, com informações a respeito de sequências genéticas, eṕıtopos, mutaçõesassociadas a resistência a fármacos e testes de vacinas [Brander et al. 2014].

    Esta base de dados representa o padrão adotado pela maioria dos pesquisadoresda área, contendo dados curados do organismo em questão. Estes dados referem-se não só ao HIV-1, mas aos tipos 2, 3 e ao SIV (simian imunodeficiency virus).

  • Caṕıtulo 2. Revisão da Bibliografia 14

    Com informações sobre sua estrutura genética e resposta imune, além de diversasferramentas de gerenciamento e aux́ılio à análise [Brander et al. 2014].

    Das sequências dispońıveis no HIV Databases, é posśıvel destacar a presença de580.490 sequências curadas. Tais sequências representam uma população proporcio-nal aos três organismos representados por este banco de dados biológico. É posśıvelrealizar o download de cerca de 350.000 sequências nucleot́ıdicas do HIV-1. Dentreestas sequências, temos ainda sequências que representam o grupo N, O e P emmenor número [Foley et al. 2012].

    A classificação das sequências no HIV Databases é geralmente realizada pelo autororiginal. Portanto, os métodos de classificação variam de acordo com o que foiabordado pelo autor do sequenciamento original. Apenas sequências já classificadassão inseridas no conjunto de dados, uma vez que não existe uma técnica centralizadade classificação deste dados [Los Alamos National Laboratory 2015b]).

    Este processo de classificação não leva em consideração a atualização das classesdispońıveis, uma vez que os autores que identificaram sequências mais antigas sóclassificaram suas sequências utilizando como base os subtipos e formas recombi-nantes dispońıveis no momento da classificação. Este processo vem ocorrendo desdea década de 80, enquanto as formas recombinantes circulantes mais recentes foramidentificadas ainda em 2015.

    No GenBank existem cerca de 580.000 sequências relacionadas ao HIV-1. Estassequências estão dispońıveis. Em termos de cobertura, o genoma do HIV se encontrade forma fragmentada no GenBank, principalmente devido à variação nas técnicas desequenciamento. É posśıvel constatar este fato ao observar que apesar de o genomacompleto deste organismo possuir cerca de 10.000 pares de base, o tamanho médiodas sequências dispońıveis é de apenas 1.000 pares de dados.

  • Caṕıtulo 3

    Metodologia

    O trabalho consistiu na modelagem e construção de um software capaz de obter,indexar, e aplicar técnicas de bioinformática nas sequências de HIV-1 dispońıveis noGenBank. Para isso, foi necessária a obtenção e análise das sequências dispońıveispermitindo a identificação das caracteŕısticas espećıficas de genes, subtipos e genó-tipos. Estas caracteŕısticas foram essenciais para o desenvolvimento de um modelorelacional que pudesse oferecer o suporte necessário ao desenvolvimento do módulode análise das informações genômicas do agente etiológico.

    A partir das informações genot́ıpicas das estruturas virais, foram desenvolvidos doismodelos de armazenamento de dados: o modelo de armazenamento de dados deapoio à análise, e o modelo de dados de armazenamento final das informações. Am-bos os modelos foram adaptados ao modelo de gerência de organismos virais jádispońıvel no pacote do VSDBM e finalmente fundidos em um único modelo.

    Com o modelo de dados pronto, foi necessário modelar um software que realizea obtenção, modulação e importação das sequências nucleot́ıdicas dispońıveis noGenBank. Após o processo de modelagem do software, o processo de importaçãofoi executado e completado para que o conjunto de dados de apoio à análise possafornecer as informações necessárias.

    Em posse do conjunto de dados organizado e indexado, foi então desenvolvida aestratégia de mapeamento. Esta estratégia consiste na interação de fatores comocomputação dinâmica, relacionamento direto entre objetos de baixo ńıvel, mate-mática computacional, computação paralela e etc. Estes fatores foram dispostosde forma que o processo de mapeamento das sequências seja realizado no menortempo posśıvel com a máxima acurácia oferecida pelos algoritmos de alinhamentoexaustivos.

    A partir do mapeamento foi desenvolvida a estratégia de subtipagem das sequências,que conceitualmente é o processo mais árduo. Isso se dá pois o conjunto de dadosdispońıvel é grande e em relação a um número relativamente grande de subtipos co-nhecidos, gera uma quantidade de comparações elevada. A estratégia de subtipagem

    15

  • Caṕıtulo 3. Metodologia 16

    contemplou esta caracteŕıstica do conjunto de dados, objetivando reduzir a quan-tidade de comparações necessárias. Desta forma foram utilizadas principalmenteestratégias de agrupamento por derivação de recombinação, desistência sumária,pré-comparação, clusterização e pré-estruturação dos dados.

    Com o processo de subtipagem dos dados pronto, foi realizada uma validação dosdados gerados com o Dataset. Desta forma foi posśıvel identificar o ńıvel de simi-laridade do cenário em escala global, com o cenário dispońıvel no HIV Database.Além deste processo de validação, foi realizada a subtipagem dos dados utilizandoa técnica de comparação todos contra todos. Onde todos os alinhamentos com assequências de referência são realizados, no intuito de identificar divergências nasestratégias de subtipagem aplicadas.

    Após o processo de análise e armazenamento dos dados, as bases de dados foramdisponibilizadas online para download, no portal do VSDBM. Além dos dados ob-tidos na análise, o aplicativo desenvolvido será disponibilizado no mesmo portal,juntamente com seu código fonte para posteriores implementações e análises.

    Visando a dinamização do conjunto de dados e a melhor vigilância da pandemiacausada pelo HIV, foi constrúıdo um módulo de obtenção e análise recursiva, queestará constantemente atualizando o conjunto de dados, para mante-lo sempre atu-alizado. Obtendo assim um conjunto de dados sempre mais completo acerca doagente etiológico em questão.

    3.1 Adaptação do modelo de dados

    O modelo de dados proposto foi modelado e desenvolvido levando em consideração aheterogeneidade apresentada pelo HIV. Onde a taxa de substituição anual por locoé de ∼0,002 (10−3 mutações por śıtio por ano), e a taxa de mutação no genoma porgeração é de 0,2. Estas taxas representam um comportamento mutacional elevado,se levado em consideração o fato de que o HIV-1 apresenta alta reprodutibilidadeem um curto espaço de tempo [Castro-Nallar et al. 2012].

    Por tanto, o modelo de dados foi implementado alinhado às peculiaridades geno-t́ıpicas do HIV, de forma a contemplar inclusive as formas recombinantes circu-lantes. Essas formas são recombinações geradas a partir da coinfecção de doisou mais subtipos e/ou formas recombinantes. Já as formas recombinantes únicassão recombinações entre cepas do mesmo subtipo com histórico evolutivo diferente[UK Colaborative Group on HIV Droug Resistance 2013].

    O modelo desenvolvido permite ainda a identificação de quadros abertos de leitura(ORF’s). Desta forma possibilita a posterior identificação de códons de ińıcio eparada. Esta identificação facilita o mapeamento de regiões codificantes e não co-dificante nas sequências virais dispońıveis no conjunto de dados. Assim, o modeloproposto pela plataforma VSDBM atendeu apenas parcialmente ao funcionamento

  • Caṕıtulo 3. Metodologia 17

    deste sistema, pois contempla apenas de forma generalizada a análise de subtiposde um determinado organismo.

    O modelo sintetizado teve ainda que tratar as subdivisões e inter-conexões apresenta-das pela recombinação viral, onde uma determinada forma recombinante circulantepode ter derivado de dois ou mais subtipos considerados puros. Estas subdivisões einter-conexões foram completamente satisfeitas durante o processo de cadastro dossubtipos e facilitaram o processo de estruturação dos dados para comparação.

    Além dos dados necessários para a aplicação dos procedimentos de bioinformática,o modelo ainda dispõe de vertentes que possibilitam a inserção dos resultados domapeamento e subtipagem. No processo de subtipagem das sequência é posśıvelarmazenar todos os alinhamentos realizados, ou apenas o melhor alinhamento.

    Este formato de indexação dos dados permite a aplicação posterior de novas análises,de forma a considerar os procedimentos já realizados e assim evitar a repetição dosprocedimentos. Caso novos subtipos sejam identificados, só será necessário compararas sequências dispońıveis na base com este novo subtipo, comparando o coeficiente desimilaridade obtido com aquele já dispońıvel no modelo. Isso evitará a repetição doprocesso de subtipagem, fazendo com que a eficácia do sistema seja exponencialmenteelevada a medida que novos dados sejam adicionados.

    Para criar o modelo de dados foi utilizado a ferramenta gráfica de modelagem debases de dados MySQL Worckbench, onde o modelo foi sintetizado e posteriormenteaplicado ao servidor de banco de dados. A versão 5.6 do referido SGBD foi utilizadaem sua licença Community.

    3.2 Obtenção das sequências

    A obtenção de sequências será feita de 2 formas diferentes, de forma que seja ofe-recida uma maior flexibilidade da base de dados, montando um conjunto de dadosmais especificado. As formas de obtenção e inserção de sequências são:

    3.2.1 Inserção via arquivos de texto

    Esta técnica de inserção é baseada na inserção de arquivos de sequências em massano formato GenBank(gbk). O sistema irá executar a leitura gradual deste arquivopara extrair neste processo, as sequências. Devido à natureza dos arquivos gbk, seránecessário criar uma estratégia de modulação dos dados, adaptando-os aos modelosde suporte a análise.

    Observando que várias sequências podem ser armazenadas no mesmo arquivo Gen-bank, é necessário que este arquivo não seja completamente carregado em memória.A abertura e leitura gradual do stream de dados foi implementada como solução

  • Caṕıtulo 3. Metodologia 18

    para o tamanho do arquivo e a marcação de finalização das sequências deve serrespeitada como final da sequência em questão.

    3.2.2 Obtenção Automática

    Cadastrado o organismo, o sistema realiza uma busca utilizando o cadastro do or-ganismo no serviço externo do GenBank pelos id’s das sequências dispońıveis paradownload através da utilização da ferramenta ENTREZ através do protocolo SOAP.Os dados são então transferidos no formato intermediário em XML. Durante esteprocesso é realizada uma verificação na base de dados local e a construção de umalista de sequências a obter, através de técnicas de busca em profundidade, evitandoa repetição de sequências e o download desnecessário.

    Após gerada a lista de id’s exclusivos das sequências que ainda não estão dispońıveisna base de dados, o sistema deve utilizar esta como parâmetro para contabilizaçãoe obtenção. O processo de obtenção ocorre através do consumo de um serviço webou webservice disponibilizado pelo próprio NCBI. Após este passo os downloadssumários são realizados, discriminando seu progresso. A medida que os downloadsdas sequências são finalizados, um processo paralelo deve, antes de armazenar estassequências na base de dados, modular os dados lendo o modelo padrão de obtençãoe traduzindo o para o formato reconhecido pela plataforma.

    3.3 Mapeamento das sequências do HIV

    A interação do v́ırus com o hospedeiro, assim como a dinâmica da infecção é influen-ciada diretamente pelas caracteŕısticas do v́ırus. Estas caracteŕısticas são determina-das pro estruturas codificas em regiões diferentes no genoma. Assim, a determinaçãoe mapeamento destas regiões no conjunto de dados seria um ponto chave para o de-senvolvimento de tratamentos eficazes.

    A inibição de resposta imune por parte do hospedeiro é associada diretamente à altavariabilidade apresentada pelo HIV. Desta forma, o estudo do processo de interaçãoentre o agente etiológico e o sistema imune do hospedeiro se torna um ponto relevantepara o desenvolvimento de uma vacina eficaz [Henn et al. 2012].

    Desta forma, é necessário conhecer a interação e a dinâmica viral, principalmenteos eṕıtopos que são reconhecidos pelo sistema imune e sua prevalência mutacional.Apesar de ser um processo complexo e laborioso, a identificação de eṕıtopos imuno-logicamente relevantes é criticamente importante para o controle da infecção. Umavez que se observa que a ausência de resposta imune por parte do hospedeiro emrelação ao v́ırus, se dá principalmente por mutações de escape. Estas mutações sãomutações em regiões do genoma que codificam eṕıtopos [Roider et al. 2014] .

  • Caṕıtulo 3. Metodologia 19

    Considerando a existência de uma gama de eṕıtopos já identificados, é necessárioidentificar sua prevalência. Então mapear suas regiões codificantes dentro do con-junto de dados, para que se possa validar um posśıvel preditor se torna essencial.Este preditor possibilitará a indicação melhores estratégias de combate à patologiaassociada ao agente etiológico em questão [Abidi et al. 2014].

    Entretanto, além da interação com o sistema imune do hospedeiro, é necessárioidentificar regiões alvo para ação de fármacos que inibem determinadas funções dov́ırus. Estas funções são codificadas em regiões do genoma. Assim, o mapeamentodestas regiões representa um relevante avanço para a criação de conjuntos de dadospara estudos nesse sentido.

    Além dos eṕıtopos, os dados dispońıveis no NCBI dispõem de caracteŕısticas préidentificadas nas sequências. Porém não necessariamente relacionadas ao genomacompleto, de forma que diversas sequências podem não representar em sua estrutura,toda a sequência do genoma completo, representando apenas alguns de seus aspectos.Onde esta representação pode ser total ou parcial, indicando uma área de elevadataxa mutacional. Obter tais informações de mapeamento dos traços das sequênciasseria relevante no processo de organização das informações(sequências).

    O mapeamento de sequências, ocorre para organizar as sequências dispońıveis nobanco de dados por áreas relacionadas ao genoma completo do organismo. De formaa agrupar aquelas que possuem ”cobertura”completa ou parcial das propriedades jádispońıveis e mapeadas no genoma completo.

    Sendo assim, um mapa baseado nas peculiaridades pré-mapeadas da sequência dereferência HXB2 [Li et al. 2015] foi criado. Este mapa contém informações sobreas faculdades pré identificadas, além da informação da localização desta no genomacompleto. De forma a considerar os atributos genot́ıpicos apresentadas pelo v́ırus, énecessário realizar o processo de alinhamento entre a sequência query e a sequênciade referência, para selecionar identificar as regiões pareáveis e sua cobertura.

    A técnica de alinhamento exaustivo descrita inicialmente por Needleman e Wunschem 1970 [Needleman e Wunsch 1970] foi implementada no software para utilizar assequências dispońıveis na base de dados. De forma a considerar o tamanho médiodas sequências em relação à utilização de recursos de máquina, o que influenciadiretamente no desempenho da técnica.

    Desta forma, no processo de alinhamento apenas uma quantidade de sequênciasquery são obtidas do banco de dados por vez. Assim o processo fica livre de umasobrecarga de informações desnecessária. O processo é baseado em uma busca pa-ginada, onde toda a tabela no banco é bloqueada, evitando que o processo sofrainterferências externas.

    Todo o processo ocorre de forma que mais de um alinhamento possa acontecer simul-taneamente reduzindo assim o tempo total do mapeamento. Para isso, é necessáriodividir as tarefas de alinhamento em threads. Porém, um limite na quantidade de

  • Caṕıtulo 3. Metodologia 20

    threads em execução deve ser aplicado, resguardado a capacidade f́ısica da máquinaservidora.

    Desta forma, foi utilizado o conceito de pool de threads que limita e controla astarefas simultâneas em execução, além de manter, atualizar e controlar uma filade execução. Este controlador de execução foi implementado de forma a limitar aquantidade de tarefas a um valor menor que o tamanho da ”página”de sequênciasobtidas na base de dados. Desta forma, o desempenho da aplicação durante oprocesso se adapta aos recursos oferecidos pela máquina servidora, variando o tempode execução de acordo com os recursos dispońıveis.

    O processo de preparação e mapeamento das sequências a partir da sequência dereferência do organismo está descrita em forma de fluxograma na Figura 3.1. Ondeo sub fluxo ”Executa Tarefas de Alinhamento” representa o a tarefa mapeamento deuma única sequência.

    Figura 3.1: Sub fluxo de mapeamento das sequências do HIV. Fonte: Próprio Autor

    Cada thread criada e inseria do pool representa uma tarefa de mapeamento. Estatarefa é responsável pelo processamento do alinhamento entre a sequência não ma-peada e a sequência de referência do organismo. Ademais de ser responsável peloprocesso de armazenamento do resultado final na base de dados. Estas tarefas devemocorrer até que não hajam mais sequências não mapeadas na base de dados.

  • Caṕıtulo 3. Metodologia 21

    A abordagem utilizada na implementação do algoritmo para o mapeamento dassequências foi baseada em desempenho e acurácia. A acurácia foi mantida em 100%enquanto o desempenho foi variado durante o processo de desenvolvimento. Paratanto, o algoritmo foi intensamente testado e modificado, utilizando um modelo dedesenvolvimento incremental.

    Por fim, o processo de alinhamento foi levemente alterado para que a técnica utilizemenos recursos de máquina, e implemente alguns padrões de projeto. Isso facilitaa reutilização de espaço em memória e reduzindo o tempo de processamento paracada alinhamento. Além de aumentar a manutenibilidade do software em questão.

    Ao observar o processo de alinhamento global, é posśıvel constatar que o processo dealinhamento dura em torno de 47% do tempo do mapeamento. Enquanto o processode ”backtrack”, que consiste na construção das strings de alinhamento a partir damatriz gerada pelo alinhamento, consome os 53% do tempo restante. O processode construção das strings foi otimizado com alguns recursos dispońıveis na próprialinguagem como a utilização de ”StringBuilders”, Iteração paralela e etc. Reduzindoassim o tempo total do alinhamento.

    A tarefa responsável pelo alinhamento da sequência query e do posterior armaze-namento do resultado está representado na Figura 3.2 de forma que cada sequêncianão mapeada da base de dados deve passar pro este procedimento. O resultado foientão armazenado na base de dados de forma a respeitar o limite de conexões ativase a concorrência entre transações.

    Figura 3.2: Processo principal de mapeamento das sequências do HIV. Fonte: Pró-prio Autor

  • Caṕıtulo 3. Metodologia 22

    Por se tratar de uma técnica de alinhamento não heuŕıstica, é necessária a criaçãode uma matriz de caminhos(posśıveis alinhamentos). Essa matriz é baseada nosnucleot́ıdeos dispońıveis das sequências a serem alinhadas. Desta forma, o tempo deprocessamento e a utilização de memória permanecem proporcionais à quantidadede nucleot́ıdeos das sequências. Por tanto a complexidade do pareamento permanecede ordem quadrática.

    Durante o processo de alinhamento, a similaridade entre as duas sequências em ques-tão é calculada a partir dos matches, dos mismatches e dos gaps. Estes componentessão representados em uma matriz de similaridade gerada a partir das sequências.Nesta matriz são atribúıdos a cada um, valores e computado no resultado final.Este escore possibilita uma futura curagem dos dados a partir da similaridade en-tre as sequências descritas como pertencendo ao organismo e aquelas que realmentepertencem.

    O escore gerado representa a maximização das semelhanças entre as sequências emquestão. Estas sequências são representadas pelos posśıveis caminhos que percor-rem a matriz e assim formam alinhamentos. O total então é calculado através dosomatório do peso de cada decisão. Estas decisões são geradas a partir de um pa-reamento de duas posições da matriz e a consecutiva função de pareamento. Asdecisões podem ser representadas da seguinte forma:

    Após implementado, o algoritmo foi adaptado para utilizar os dados já obtidosde forma que diversos alinhamentos pudessem ocorrer ao mesmo tempo. Por setratarem de processos que tratam de I/O bound’s, as leituras e escritas no banco dedados tiveram que ser limitadas por um processo de paginação da informação.

    Este procedimento foi então aplicado para criar um conjunto de informações rele-vantes a respeito da posição das sequências em relação ao genoma completo. Issopossibilita a posterior utilização deste mapa para a montagem de um conjunto detreinamento para um posśıvel preditor de eṕıtopos.

    3.4 Subtipagem do Conjunto de Dados

    Para obter informações consistentes sobre o comportamento mutacional e a hete-rogeneidade genot́ıpica do organismo em questão, é necessário conhecer suas carac-teŕısticas genot́ıpicas e classificá-las entre os grupos pré determinados. O HIV-1possui 9 subtipos puros e cerca de 70 subtipos relacionados, fruto de recombinações[Hemelaar 2012, Los Alamos National Laboratory 2015a].

  • Caṕıtulo 3. Metodologia 23

    Tal variabilidade genot́ıpica contribui diretamente para a prevalência do agente eti-ológico [Abidi et al. 2014], uma vez que o organismo apresenta uma adaptabilidadeconsiderável. Isso dificulta a identificação de uma estratégia de combate eficaz[Cohen e Dolin 2013]. Estudos demonstram que as cepas podem variar no ńıvelde aminoácidos em ate 42% [Hemelaar 2012].

    Para obter informações sobre a disposição genot́ıpica do agente etiológico, é ne-cessário classificar as sequências dispońıveis no conjunto de dados entre os grupospreviamente determinados pela comunidade cient́ıfica que podem ser observadosjuntamente com suas respectivas interconexões e derivações na Figura 3.3 . Destaforma, é necessário realizar o processo de subtipagem das sequências.

    Figura 3.3: Subtipos do HIV-1 e suas respectivas derivações. Fonte: Próprio Autor

    Para o processo de subtipagem das sequências são comparadas as sequências dispońı-veis no conjunto de dados com as sequências de referência dos subtipos identificadospela comunidade cientifica. Não obstante, é necessário observar o tamanho do con-junto de dados dispońıvel (cerca de 580.000 sequências) em relação a quantidadede subtipos e formas recombinantes. Por conseguinte, para que se possa realizar aanálise e classificação dos dados em tempo hábil, é necessário o desenvolvimento deuma estratégia de comparações que evite alinhamentos desnecessários e portanto, odesperd́ıcio de tempo de análise.

    A estratégia desenvolvida leva em consideração a estrutura genot́ıpica do organismo,suas formas recombinantes e seus h́ıbridos. Assim, é levado em consideração otamanho das sequências de referência de cada subtipo, em relação ao score máximoposśıvel, aplicando a estratégia de desistência sumária caso este valor não possa seralcançado.

  • Caṕıtulo 3. Metodologia 24

    Além de organizar os dados por tamanho durante o processo de estruturação dosdados, as inter-relações entre os diversos grupos são levados em consideração, nointuito de reduzir a quantidade de alinhamentos por sequência da base de dados,acelerando assim o processo de análise.

    Este processo de preparação dos dados antes do processo de análise é feito base-ado nas derivações de recombinação, onde um determinado recombinante é derivadode um ou mais subtipos puros a partir da coinfecção dos mesmos. Se considerar-mos o subtipo puro como a centroide de um agrupamento é posśıvel identificar osalinhamentos mais prováveis, os menos prováveis e os dispensáveis. Estes dispen-sáveis provém à análise uma maior agilidade e praticidade, evitando alinhamentosdesnecessários.

    Ademais, é necessário observar que os procedimentos de alinhamento e classificaçãodas diversas sequências dispońıveis no conjunto de dados não são dependentes entresi. Dessa maneira é posśıvel a paralelização dos procedimentos, conferindo agilidadeno processo de classificação mesmo com um conjunto de dados extenso. Assim, fluxode trabalho da classificação das sequências nos nichos genéticos pode ser visualizadona Figura 3.4 em forma de fluxograma.

    Figura 3.4: Fluxo de subtipagem de sequências Fonte: Próprio Autor

    Para criar um conjunto de dados dinâmico que melhor represente o quadro do orga-nismo no banco de dados, se faz necessário utilizar algoritmos ótimos (ou exaustivos)

  • Caṕıtulo 3. Metodologia 25

    para o alinhamento. Os algoritmos considerados ótimos são aqueles que retornam omelhor alinhamento posśıvel entre duas sequências nucleot́ıdicas enquanto os algorit-mos heuŕısticos retornam um dos melhores. A abordagem heuŕıstica, apesar de maisrápida, é diretamente dependente da disposição dos dados e pode vir a comprometera qualidade do alinhamento [Chakraborty e Bandyopadhyay 2013] além do conjuntofinal de dados.

    Esta abordagem é necessária pois o organismo é heterogêneo genotipicamente. Dessaforma, quanto mais acurácia o alinhamento tiver, com mais certeza é posśıvel orga-nizar os dados nos nichos genéticos apresentados pelo organismo. Assim, maior seráa qualidade do conjunto de dados e as informações geradas a partir deste.

    O Algoritmo aplicado no processo de alinhamento local das sequências, baseado noalgoritmo proposto por Smith Waterman [Smith, T. F.; Waterman 1981] pode servisualizado em forma de fluxograma na Figura 3.5.

    Figura 3.5: Sub fluxo de subtipagem de sequências Fonte: Próprio Autor

    O processo de subtipagem ocorre quando a sequência query é plotada em uma ma-triz juntamente com sequência de referência. Nesta matriz serão preenchidos osescores para cada possibilidade de alinhamento. Posteriormente esta matriz é com-pletamente percorrida no intuito de identificar a área de melhor pareamento entreas duas sequências.

    Por fim, é realizado o processo de backtracking para identificar que o alinhamento sejaconstrúıdo em forma de cadeia de caracteres. Cada um destes caracteres representa

  • Caṕıtulo 3. Metodologia 26

    um pareamento positivo (match) negativo (missmatch) ou um gap.

    Porém, o algoritmo como definido inicialmente pode vir a atrasar o processo dealinhamento, pois as técnicas exaustivas são mais demoradas e necessitam de maisrecursos de máquina. Sendo assim, novas estratégias foram introduzidas no algo-ritmo. Foram removidos procedimentos desnecessários à subtipagem. Além disso, autilização dos recursos de máquina e tempo de processamento foram otimizados.

    Levando em consideração que o processo de backtracking não fornece informaçõesrelevantes para a classificação da sequência, e este representa cerca de 57% do tempode processamento do algoritmo, este foi removido do workflow para fornecer maisperformance. Outro processo moroso é o processo de alocação e leitura da matriz.

    Portanto, este processo foi analisado e modificado, no intuito de otimizar os recursosde máquina e o tempo de processamento do algoritmo. O processo de montagemdo score de similaridade entre as duas sequências ocorre então em um único laço,onde dois vetores dinâmicos representando a linha atual da matriz e a linha anterior,necessárias para o cálculo do score atual. Cada interação do laço a linha anteriorpassa a ser a atual. A atual é limpa e o score parcial é computado. Ao final do laçoprincipal, o score do alinhamento local exaustivo já foi calculado e armazenado.

    Após o cálculo de todos os escores parciais para a sequência em questão, é selecionadoo maior entre estes. O maior escore representa a maior similaridade entre um de-terminado grupo de derivação. A partir deste escore são realizados os alinhamentoscom todos os membros do grupo de maior similaridade. Por fim, é posśıvel identi-ficar o mair coeficiente de similaridade entre a sequência em questão e a sequênciade referência do subtipo ao qual esta é dita a pertencer.

    3.5 Disponibilização Pública dos Dados

    Os dados resultantes da análise serão disponibilizados publicamente no portal doVSDBM, hospedado em http://vsdbm.tk e posteriormente em http://vsdbmsa.tk,juntamente com o código fonte e executável do software implementado. Além disto,um acesso remoto aos dados vai ser garantido através de um usuário público nobanco de dados, que poderá acessar os dados com permissão apenas de leitura.

    A criação do usuário de acesso avançado ao conjunto de dados será feito mediantecontato prévio com a equipe responsável pela manutenção dos servidores, respei-tando as regras e os prazos da fundação que hospeda os servidores. O banco dedados de suporte à análise foi extráıdo, comprimido e disponibilizado para down-load no portal, possibilitando assim que novas análises possam ser feitas, e novosdados possam ser adicionados a este conjunto, tornando o mesmo ainda mais rico ecompleto.

  • Caṕıtulo 4

    Resultados

    4.1 Software

    Ao final do processo de desenvolvimento, é apresentado um software otimizado paraanálise de sequências nucleot́ıdicas virais. Este software é otimizado e preparado paratratar de organismos com comportamento mutacional e heterogeneidade genot́ıpicasimilares ao HIV, a exemplo do HCV (Hepatitis C Virus).

    Além do software, foi disponibilizado no portal da plataforma VSDBM, o modelofinal de dados, contendo o script de criação de um novo banco de dados, além dobackup inicial. Para que novos estudos possam ser realizados acerca do HIV-1 oude outros organismos.

    4.2 Conjunto de dados

    O conjunto de dados disponibilizado ao final dos processos, contém informaçõesrelevantes e atualizadas sobre do agente etiológico em questão. Este conjunto dedados possui no total 255GB de informação, o banco de dados conta com informaçõesacerca do mapeamento das sequências em relação ao genoma completo. Além deduas estruturas de classificação, a subtipagem clássica e a subtipagem utilizando atécnica de agrupamento por derivação de recombinação.

    As informações contidas neste conjunto de dados poderão auxiliar diretamente nodesenvolvimento de tratamentos eficazes para a patologia associada ao organismoem questão. Pois estas agregam informações sobre a dinâmica viral, disposiçãogenot́ıpica e ainda validam a produção de analisadores de padrão, classificadores epreditores de eṕıtopos.

    27

  • Caṕıtulo 4. Resultados 28

    4.3 Mapeamento de Sequências

    Para conhecer melhor a interação e a dinâmica deste agente etiológico, uma vez quese observa que a ausência de resposta imune do hospedeiro, se dá principalmentepor mutações de escape. Estas mutações são mutações em regiões que codificameṕıtopos [Roider et al. 2014]. Por tanto, seria relevante identificar principalmenteos eṕıtopos que são reconhecidos pelo sistema imune, e sua prevalência mutacional.

    No intuito de identificar a prevalência de tais estruturas é necessário observar a den-sidade da representação das regiões do genoma do agente etiológico no conjunto dedados. Uma vez que cada estrutura possui uma função diferente que influi direta-mente na dinâmica da infecção. Por conseguinte, será posśıvel identificar a preva-lência das estruturas pré-identificadas do agente etiológico no conjunto de dados.

    A identificação da prevalência das regiões do genoma do v́ırus é relevante para oaprestamento de diversos estudos acerca da pandemia. Visto que é necessário iden-tificar um dataset para a realização dos estudos e este processo parte da obtençãodas sequências que codificam as áreas ”alvo”dos estudos.

    Assim, o processo de mapeamento ocorreu de forma que as coordenadas de cadaalinhamento foram armazenadas, para que posteriormente a prevalência de cadaregião possa ser obtida e observada. Não obstante, nem todo alinhamento tem”cobertura”completa sobre a região observada, sendo assim necessária uma análisequalitativa da ”cobertura”do alinhamento em relação à região.

    Os dados foram então coletados de forma agrupada, onde os alinhamentos que re-presentam de forma completa a região observada foram classificados como total eaqueles que representam apenas uma fração da área como parcial. Podemo observarna Figura 4.1 a densidade de cobertura em cada região do genoma completo, levandoem consideração o mapa criado usando as coordenadas do genoma completo.

    Figura 4.1: Mapa de densidade das regiões do genoma completo do HIV. Fonte:Próprio Autor

  • Caṕıtulo 4. Resultados 29

    4.4 Subtipagem das Sequências

    Para obter informações relevantes a respeito da heterogeneidade genot́ıpica do agenteetiológico presente no conjunto de dados, foram aplicadas técnicas de alinhamentoexaustivo em duas metodologias de classificação. Levando ou não em consideraçãoa derivação de recombinação, no intuito de reduzir a quantidade de alinhamentosnecessários e assim o custo computacional do processo.

    A metodologia clássica de classificação compara todas as sequências com todos ossubtipos dispońıveis, levou cerca de dois dias e cinco horas. Foram realizados emtorno de 40 milhões de alinhamentos durante esse peŕıodo. Já a metodologia oti-mizada reduziu esse tempo e quantidade de alinhamentos em cerca de 50%. Destaforma, terminando todo o processo de classificação dos dados em apenas um dia esete horas de processamento.

    Entretanto, foi necessário validar a acurácia das técnicas de agrupamento por deri-vação de recombinação e desistência sumária por tamanho da referência aplicadasà metodologia otimizada. Assim, foram criadas duas bases de dados cada umacontendo os resultados de uma metodologia de mapeamento, e posteriormente foirealizado um teste de semelhança sequência por sequência.

    Este teste de semelhança gerou a matriz de confusão que pode ser visualizada naFigura 4.2, onde pode ser observado que independente do subtipo ou forma recom-binante. Todas as sequências comparadas foram classificadas da mesma forma nasduas metodologias. O que significa que o ńıvel de similaridade da técnica de agru-pamento e desistência sumária é de 100% para os subtipos observados.

    Figura 4.2: Matriz de confusão entre a metodologia clássica de subtipagem, e ametodologia de agrupamento por derivação de recombinação. Fonte: Próprio Autor

    Assim, é posśıvel validar a técnica de agrupamento, uma vez que esta representacom exatidão a técnica exaustiva clássica de classificação, porém em um tempo 50%

  • Caṕıtulo 4. Resultados 30

    menor de processamento. Desta forma, é posśıvel preparar o conjunto de dados e osoftware para o crescimento recursivo do mesmo, uma vez que novas sequências vãosendo sequenciadas e disponibilizadas.

    A partir da validação da metodologia adotada para a classificação das sequências, énecessário comparar os resultados obtidos com o cenário disponibilizado pelos bancosde dados biológicos especializados. É posśıvel observar na Figura 4.3 o cenárioapresentado pelo dataset em questão, gerado pelo software em relação ao datasetfornecido pelo HIV Databases onde é posśıvel observar uma prevalência já esperadado subtipo B em ambos os casos, cerca de 50%, enquanto que os recombinantesrepresentam uma disparidade de cerca de 20%.

    Figura 4.3: Prevalência dos subtipos no conjunto de dados gerado pelo software, e noconjunto de dados fornecido pelo Los Alamos National Laboratory. Fonte: PróprioAutor

    Esta variação na similaridade pode ser explicada a partir da observação do pro-cesso de classificação aplicado pelo HIV Databases, onde este utiliza a classificaçãorealizada pelo autor que sequenciou a amostra (LOS ALAMOS NATIONAL LABO-RATORY, 2015c). Além disso, o banco de dados disponibilizado pelo Los Alamospossui cerca de 200.000 sequências a menos que o conjunto de dados utilizado pelosoftware.

  • Caṕıtulo 4. Resultados 31

    Assim, pode-se constatar uma instabilidade no processo de classificação do banco,uma vez que autores diferentes, utilizam técnicas diferentes que variam o ńıvel deacurácia entre si. Desta forma, na Figura 4.4 é plotada uma matriz de confusãoque compara a classificação entre os dois conjuntos de dados classificados, nestecaso considerando apenas subtipos puros. Desta comparação, podemos observarque 97% das sequências foram classificadas de forma semelhante nos dois