Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os...

75
Modelos e M´ etodos para Alinhamento de Transcritoma Andreia Sofia Monteiro Teixeira Disserta¸c˜ ao para obten¸ c˜ao do Grau de Mestre em Engenharia Inform´ atica e de Computadores uri Presidente: Professor Doutor Jos´ e Carlos Alves Pereira Monteiro Orientador: Professor Doutor Alexandre Paulo Louren¸co Francisco Vogais: Doutor Lu´ ıs Manuel Silveira Russo Doutora Alexandra Sofia Martins de Carvalho Outubro 2012

Transcript of Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os...

Page 1: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Modelos e Metodos para Alinhamento de Transcritoma

Andreia Sofia Monteiro Teixeira

Dissertacao para obtencao do Grau de Mestre em

Engenharia Informatica e de Computadores

Juri

Presidente: Professor Doutor Jose Carlos Alves Pereira Monteiro

Orientador: Professor Doutor Alexandre Paulo Lourenco Francisco

Vogais: Doutor Luıs Manuel Silveira Russo

Doutora Alexandra Sofia Martins de Carvalho

Outubro 2012

Page 2: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2

Page 3: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Agradecimentos

Apesar de todo um curso parecer confinado a dissertacao de mestrado, a verdade e que foi um

processo bem mais longo, cheio de altos e baixos, e que nao teria sido possıvel sem o apoio

incondicional de algumas pessoas e entidades.

Todas as conquistas conseguidas ao longo deste tempo so foram possıveis por ter sempre o

apoio e o amor incondicional de toda a minha famılia. Em especial, pai e mae, por toda a forca

e motivacao que me transmitiram ao longo deste tempo e por todas as birras e pilhas de nervos

que tiveram de aturar.

Obrigada tambem aos meus amigos, eles sabem quem sao, mas especialmente a minha famılia

academica (Pedro Nogueira, Renato Vieira, Eugenio Ribeiro, Henrique Moises e Diana Pingui-

cha), ao Henrique Campos, Paulo Goncalves, Eduardo Camoes Fernandes, Ricardo Monteiro e

Rui Sebastiao. Todos vos, em momentos diferentes, fostes cruciais para que a minha sanidade

mental nao se desvanecesse por completo e para que eu me mantivesse no caminho certo.

Tambem o desporto teve o seu papel, contribuindo sempre para o meu bem-estar fısico e

psicologico. Acabei por travar amizades que se tornaram indispensaveis neste ultimo ano. Aqui

o agradecimento vai para ambas as equipas, feminina e masculina, de basquetebol da Associacao

dos Estudantes do Instituto Superior Tecnico, com um especial agradecimento aos treinadores

Joao Lima, Joao Coelho e Fernando Gomes, eles sabem porque.

Nao podia deixar de referir os leitores do meu blogue, Morrighan. Tem sido incansaveis nas

suas mensagens de apoio, tanto no blogue como no facebook, e extremamente compreensivos com

o meu inevitavel desleixo nos ultimos meses. Tambem eles levaram com imensos desabafos e

mesmo assim arranjaram sempre maneira de me fazer sorrir com as suas mensagens de motivacao.

Desculpem a minha ausencia, mas quero acreditar que foi por uma boa causa. A serio, voces

sao os melhores! Obrigada!

Relativamente a este ultimo ano em especifico, gostaria de agradecer a FCT (Fundacao para

a Ciencia e Tecnologia) pois sem o seu apoio financeiro atraves do projecto TAGS (The power

of the short - Tools and Algorithms for next Generation Sequencing applications), liderado pela

3

Page 4: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4

professora Ana Teresa Freitas, o desenvolvimento desta dissertacao de mestrado nao teria sido

possıvel. Agradeco tambem a professora, pela sua iniciativa em me colocar neste projecto e

pelo tempo em que me pode acompanhar e a toda a equipa do projecto, em especial ao meu co-

orientador Paulo Fonseca e ao Francisco Fernandes, pela disponibilidade mostrada sempre que

solicitada e pelo apoio. Na sequencia deste evento, quero agradecer ao grupo KDBIO, sediado

no INESC-ID, por me terem acolhido e dado as condicooes necessarias para que a realizacao

deste projecto corresse da melhor maneira possıel.

Quero tambem deixar aqui um agradecimento a algumas pessoas que apenas entraram na

minha vida neste derradeiro ano e que se mostraram uma ajuda preciosa. Obrigada Joana Neto,

Mara Rosado e Melissa Diogo por todas as partilhas e por se terem mostrado sempre disponıveis

para me ouvir quando mais precisei.

Por ultimo, mas nao menos importante, muito pelo contrario, quero deixar um agradecimento

do fundo do coracao ao meu orientador, o professor Alexandre Francisco. Sinceramente, nao

podia ter desejado melhor orientador. O caminho que percorremos nao foi, de todo, linear, mas

gracas ao seu apoio e confianca em mim, fui tendo sempre a motivacao necessaria, mesmo quando

parecia estar a beira do desespero. Muito obrigada tambem pela sua paciencia e disponibilidade

incondicionais. Mais uma vez, obrigada.

Page 5: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

�Existem tres fundamentos da sabedoria: discricao ao aprender, memoria ao reter e

eloquencia ao contar.�

- Antiga trıade irlandesa

5

Page 6: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

6

Page 7: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Resumo

Nos ultimos anos, a introducao de novas plataformas de sequenciacao de DNA veio mudar

substancialmente o panorama dos estudos geneticos. Estes protocolos de sequenciacao de nova

geracao (protocolos NGS - Next Generation Sequencing) geram quantidades massivas de dados,

levando a necessidade de criacao de novas ferramentas computacionais que permitam lidar de

forma rapida e economica com estes dados. Com o desenvolvimento da metodologia RNA-Seq,

que utiliza os novos protocolos de sequenciacao para obter informacao sobre amostras de RNA,

o estudo do transcritoma ganhou um novo impulso. Problemas como a identificacao de nıveis de

expressao de genes e de splicing alternativo podem ser resolvidos com a montagem e estudo do

transcritoma. Ao mesmo tempo, a utilizacao desta tecnologia tem a grande vantagem de permitir

que se facam novas descobertas e observacoes biologicas, tendo, no entanto, a contrapartida de

requerer um esforco computacional bastante consideravel. Neste trabalho apresento um estudo

detalhado sobre o problema de alinhamento de transcritomas e uma solucao computacional

eficiente para tal, que passa pelo desenvolvimento de heurısticas para identificacao de pontos de

juncao utilizando metodos e estruturas de dados para um mapeamento eficiente.

Palavras-chave: transcritoma, sequenciacao, RNA-Seq, protocolos de sequenciacao de nova

geracao, NGS, pontos de juncao

7

Page 8: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

8

Page 9: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Abstract

In recent years, the introduction of new DNA sequencing platforms dramatically changed the

landscape of genetic studies. These protocols for next-generation sequencing (NGS) are able to

generate massive amounts of data, requiring the creation of new computational tools to deal

with this data quickly and economically. With the development of the RNA-Seq methodology,

which uses the new sequencing protocols to get information about RNA samples, the study of the

transcriptome gained a new boost. Problems such as the identification of genes expression levels

and alternative splicing can be solved with the assembly and the study of the transcriptome.

At the same time, the use of this technology has the great advantage of allowing new biological

discoveries and observations. This technology has, however, the downside of requiring a very

considerable computational effort. This work aims to present a detailed study about the problem

of transcriptome alignment, presenting an efficient computational solution, which requires the

development of heuristics to identify splice junctions using methods and data structures for an

efficient mapping.

Keywords: transcriptome, RNA-Seq, Next-Generation Sequencing, NGS, sequecing, splice

junctions

9

Page 10: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

10

Page 11: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Glossario

Acido Nucleico

Polımero celular em que as unidades basicas sao os nucleotidos.

Codigo Genetico

Linguagem que a celula utiliza na transferencia da informacao genetica e na expressao dessa

informacao em proteınas.

DNA (acido desoxirribonucleico)

Molecula, enrolada em dupla helice, que e a base do material genetico encontrado em todas

as celulas. O DNA controla a actividade celular e transmite a informacao hereditaria as novas

celulas.

EST

Abreviatura para Expressed Sequence Tag, terminologia inglesa para uma subsequencia de

cDNA sequenciado atraves de clonagem.

Eucariota

Organismo cujas celulas apresentam um nucleo individualizado, separado no citoplasma por

uma membrana que o envolve.

Exoes

Regioes do DNA que codificam proteınas. Estas regioes normalmente sao encontradas se-

paradas ao longo de uma determinada cadeia de DNA. Durante a transcricao, do DNA para o

RNA, os exoes separados sao unidos para formar uma regiao de codificacao contınua.

Gene

Seccao da molecula de DNA que codifica uma sequencia de aminoacidos que vai originar

uma proteına em particular.

Genoma

Informacao hereditaria de um organismo, codificada no DNA.

11

Page 12: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

12

Introes

Regioes nao codificantes dentro de um gene que separam os exoes. Sao removidos durante o

processo de splicing.

mRNA

Molecula de RNA, transcrita a partir de uma cadeia de DNA, que transporta a mensagem

para a sıntese de proteınas.

NGS

Abreviatura para Next Generation Sequencing, terminologia inglesa para tecnologias de se-

quenciacao de nova geracao.

Nucleotidos

Unidades basicas que constituem os acidos nucleicos. Cada um e constituıdo por uma pen-

tose, um fosfato e uma base azotada.

Polımero

Macromolecula formada a partir de unidades estruturais mais pequenas.

Pontos de Juncao

Pontos, no genoma, que assinalam as fronteiras entre exoes e introes.

Procariota

Organismo cujas celulas nao apresentam nucleo individualizado, por falta de membrana.

Reads

Terminologia inglesa para os fragmentos de cDNA gerados pelas tecnologias NGS.

Ribossoma

Estrutura da celula onde o mRNA e traduzido durante a sıntese de proteınas.

RNA (acido ribonucleico)

Acido nucleico constituıdo por ribonucleotidos.

RNA-Seq

Metodologia para estudar o transcritoma utilizando as tecnologias NGS.

Seeds

No contexto da Informatica, correspondem a subsequencias de uma dada string.

Splice Sites

Page 13: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

13

Sıtios, no genoma, onde se encontram os dinucleotidos que assinalam os pontos de juncao.

Splicing

Processo que separa os exoes dos introes no processo de transcricao, removendo os introes e

juntando os exoes.

Splicing Alternativo

Processo no qual os exoes se juntam em diversas combinacoes gerando cadeias de mRNA

diferentes, dando origem a diferentes proteınas.

String

Sequencia de caracteres.

Traducao

Processo celular que utiliza um RNA mensageiro como molde para sintetizar uma proteına.

Transcricao

Processo celular que utiliza o DNA como molde para a sıntese da molecula de RNA comple-

mentar. E o primeiro passo da expressao do gene.

Transcritoma

Conjunto de todos os transcritos, ou seja, de todos os RNAs.

Page 14: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

14

Page 15: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Conteudo

1 Introducao 21

1.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.2 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Organizacao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Sequenciacao de Nova Geracao 23

2.1 Conceitos de Biologia Molecular e Genetica . . . . . . . . . . . . . . . . . . . . . 23

2.1.1 Estrutura dos Acidos Nucleicos . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.2 Expressao dos Genes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2 Tecnologias de Sequenciacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1 Roche/454 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.2 Illumina/Solexa Genome Analyzer . . . . . . . . . . . . . . . . . . . . . . 30

2.2.3 Applied Biosystems SOLiD . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.4 Outras Tecnologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.3 RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4 Desafios para a Bioinformatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Alinhamento de Transcritomas 37

3.1 Alinhamento de Reads Contra um Genoma de Referencia . . . . . . . . . . . . . 37

3.1.1 Estrategias de Mapeamento Directo contra Genoma de Referencia . . . . 38

3.1.2 Estruturas de Dados e Metodos de Indexacao . . . . . . . . . . . . . . . . 41

3.1.3 Bowtie vs TAPyR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2 Metodos de Identificacao de Pontos de Juncao . . . . . . . . . . . . . . . . . . . . 47

3.2.1 QPalma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

15

Page 16: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

16 CONTEUDO

3.2.2 SpliceMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2.3 TopHat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.4 MapSplice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Novo Metodo de Alinhamento de Transcritomas 53

4.1 Problemas em Relacao as Pipelines Existentes . . . . . . . . . . . . . . . . . . . . 54

4.2 Criacao de Uma Nova Abordagem . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2.1 Adaptacao do TAPyR ao Alinhamento de Transcritomas . . . . . . . . . 56

4.2.2 Vantagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.2.3 Limitacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5 Resultados 65

5.1 Dados Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.2 Performance do TAPyR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.3 Comparacao de Resultados Com Outros Modelos Existentes . . . . . . . . . . . . 69

6 Conclusoes 71

6.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Page 17: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Lista de Figuras

2.1 Estrutura 3D do DNA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2 Tabela do Codigo Genetico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3 Dogma Central da Biologia Molecular. . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4 Processo de Transcricao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5 Fluxo de trabalho da plataforma 454. . . . . . . . . . . . . . . . . . . . . . . . . 29

2.6 Fluxo de trabalho da plataforma Illumina. . . . . . . . . . . . . . . . . . . . . . . 30

2.7 Fluxo de trabalho da plataforma SOLiD. . . . . . . . . . . . . . . . . . . . . . . . 31

2.8 Alinhamento contra Genoma de Referencia e Alinhamento de novo. . . . . . . . . 32

3.1 Pipeline Computacional RNA-Seq, baseado no trabalho de Costa et al [26]. . . . 38

3.2 Exemplo do metodo seed-and-extend. . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3 Exemplo do metodo spaced seeds. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4 Exemplo de uma tabela de dispersao para o texto T = ACGTTTTGCGTA$. . . 42

3.5 Exemplo de uma arvore de sufixos o texto T = ACACGCT$. . . . . . . . . . . . 43

3.6 Exemplo de uma tabela de sufixos para o texto T = ACACGCT$. . . . . . . . . 43

3.7 Exemplo da BWT para o texto T = ACACGCT$. . . . . . . . . . . . . . . . . . 44

3.8 Exemplo de um splice site canonico. . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.9 Pipeline do QPalma [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.10 Pipeline do SpliceMap [58]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.11 Pipeline do TopHat [33]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.12 Pipeline do MapSplice [59]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1 Seleccao de seeds do TAPyR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2 Formacao de chains do TAPyR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

17

Page 18: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

18 LISTA DE FIGURAS

4.3 Fluxograma do TAPyR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.4 Caso 1 gapSizeInRead = 0 e Caso 2 gapSizeInRead > 0. . . . . . . . . . . . . . 60

4.5 Vizinhancas, no genoma de referencia, considerada para a procura dos pontos de

juncao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.1 Alinhamento entre as posicoes 275000 e 365000 do TAPyR em modo DNA e em

modo RNA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Page 19: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

1Introdu�c~ao1.1 Contexto

A investigacao que constituiu a base deste trabalho decorreu no ambito do projecto ”TAGS :

The power of the short - Tools and Algorithms for next Generation Sequencing applications”,

executado pelo grupo KDBIO (Knowledge Discovery and BIOinformatics) do INESC-ID, Lisboa,

e que contou com a participacao do Instituto Gulbenkian de Ciencia. O projecto em questao

tem como objectivo, no ambito da sequenciacao, o desenvolvimento de modelos de erros precisos

para as plataformas de sequenciacao seleccionadas, o desenvolvimento de metodos de indexacao

aproximados, o desenvolvimento e aplicacao de estruturas de dados distribuıdas e a definicao de

uma arquitectura computacional distrıbuida.

O trabalho subjacente a esta dissertacao consistiu, essencialmente, na disponibilizacao de

uma nova ferramenta de alinhamento de RNA, atraves do desenvolvimento de um modulo para

identificacao de pontos de juncao com o objectivo de o integrar no algoritmo TAPyR desenvolvido

no KDBIO. Isto e, o desenvolvimento de um metodo para o alinhamento de reads de cDNA,

resultantes das plataformas de sequenciacao de nova geracao, usando metodos de indexacao e

estruturas de dados eficientes, e a sua validacao com dados reais.

Este trabalho foi parcialmente suportado pelo projecto TAGS PTDC/EIA-EIA/112283/2009,

financiado pela Fundacao para a Ciencia e Tecnologia.

1.2 Motivacao

A sequenciacao completa do genoma de varios organismos, incluindo o do genoma humano,

tem sido, na ultima decada, um dos centros da atencao da comunidade cientıfica. De todo

este esforco de sequenciacao, que consiste em determinar as moleculas que constituem o acido

desoxirribonucleico (DNA), resulta uma grande quantidade de informacao biologica que tem de

ser armazenada em bases de dados, manipulada e analisada de forma a transformar estes dados

em conhecimento. Daqui resultou uma nova area de interligacao entre a biologia molecular, a

estatıstica e a informatica, a area da Bioinformatica.

19

Page 20: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

20 CAPITULO 1. INTRODUCAO

A area da Bioinformatica tem como principal objectivo o desenvolvimento de modelos e

ferramentas que permitam a analise e extracao de informacao, de forma eficiente, da enorme

quantidade de dados biologicos actualmente existentes.

Durante muitos anos, os metodos padrao para determinar a sequencia de genes transcritos

envolveram a sequenciacao do acido ribonucleico mensageiro (mRNA) utilizando DNA comple-

mentar (cDNA) atraves do metodo convencional de Sanger [2] usando ESTs (Expressed Sequence

Tags) [18] ou atraves de microarrays [3]. Recentemente surgiu um novo metodo experimental, o

metodo RNA-Seq, que trouxe inumeras vantagens em relacao aos outros metodos convencionais.

Este novo metodo usa tecnologias NGS (NGS - Next Generation Sequencing), dando origem

a obtencao de sequencias de RNA mensageiro (mRNA) com menos erros. Esta nova aborda-

gem gera muitos mais dados por experiencia, permitindo que esses dados possam ser usados

como medida directa de nıvel de expressao genica. As experiencias RNA-Seq nao so capturam o

transcritoma, isto e, todas as sequencias de RNA presentes numa celula, como vem substituir as

experiencias convencionais com microarrays. Um dos passos crıticos numa experiencia RNA-Seq

e o mapeamento dos fragmentos, gerados pelas tecnologias NGS, num genoma de referencia.

Actualmente existem varias ferramentas desenvolvidas para concretizar o alinhamento di-

recto desses fragmentos num genoma de referencia. Porem, como as celulas eucariotas sofrem

do fenomeno de splicing (um transcrito pode conter partes de mais do que um exao), estas

ferramentas nao cobrem o caso em que um fragmento se estende por mais que um exao. Para

conseguir alinhar estes fragmentos e necessario desenvolver metodos que consigam identificar os

pontos de juncao, pontos de fronteira entre exoes e introes, permitindo assim que se consiga

identificar correctamente a origem do transcrito em causa. O tema deste trabalho consiste pre-

cisamente na analise de metodos e modelos de identificacao de pontos de juncao, essenciais para

o problema do alinhamento do transcritoma, e na sugestao de uma solucao computacional para

tal.

1.3 Organizacao do Documento

O restante relatorio esta organizado da seguinte forma: no Capıtulo 2 estao descritos os conceitos

fundamentais para a compreensao do problema do alinhamento do transcritoma; o Capıtulo 3

contem os metodos e modelos existentes para alinhamento de reads; no Capıtulo 4 encontra-se

documentada a nova abordagem criada para o alinhamento de transcritomas; no Capıtulo 5 sao

apresentados os resultados obtidos pela nova abordagem e respectiva discussao; o Capıtulo 6

contem as conclusoes sobre todo o trabalho desenvolvido e perspectivas de trabalho futuro.

Page 21: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2Sequencia�c~ao de Nova Gera�c~ao

Um transcritoma e o conjunto completo de todas as sequencias de RNA (transcritos) de uma

celula. A interpretacao do transcritoma e essencial para compreender os elementos fundamentais

de um genoma e para identificar os constituintes moleculares de celulas e tecidos. E tambem

fundamental para compreender as pequenas alteracoes dos genes (mutacoes) que dao origem a

doencas. Os principais objectivos da transcritomica sao: catalogar todas as especies de trans-

critos que existem, incluindo RNAs mensageiros (mRNA), RNAs nao codificantes (non-coding

RNA) e pequenos RNAs (small RNA); determinar a estrutura transcritomica dos genes, em

termos dos seus sıtios iniciais (start sites) e dos seus terminais 5’ e 3’; padroes de splicing e

outras modificacoes pos-transcricionais; e, por ultimo, para quantificar as mudancas de nıveis de

expressao de cada transcrito durante o seu desenvolvimento e sob diferentes condicoes [1]. Por

todas estas razoes, e cada vez mais importante sequenciar o transcritoma.

As tecnologias NGS vieram facilitar em muito a acessibilidade aos dados (em termos de custo

e de tempo) e, com a chegada da metodologia RNA-Seq, varias solucoes, mas tambem desafios,

foram surgindo.

Assim sendo, na Secccao 2.1 sao apresentados todos os conceitos de Biologia Molecular e

Genetica necessarios a compreensao do problema; na Seccao 2.2 estao detalhadas as tecnologias

NGS escolhidas; na Seccao 3.3 esta descrita a mais recente metodologia para alinhamento de

RNA (RNA-Seq); e a Seccao 2.4 contem todos os desafios que surgiram para a Bioinformatica.

2.1 Conceitos de Biologia Molecular e Genetica

2.1.1 Estrutura dos Acidos Nucleicos

O Acido Nucleico e um polımero celular com funcoes de armazenamento, transmissao e utilizacao

de informacao. A sua unidade basica e o nucleotido. Existem dois tipos de acidos nucleicos: o

acido desoxirribonucleico (DNA na terminologia inglesa ou ADN na terminologia portuguesa) e

o acido ribonucleico (RNA na terminologia inglesa ou ARN na terminologia portuguesa). Neste

documento serao usados os termos DNA e RNA.

21

Page 22: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

22 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Figura 2.1: Estrutura 3D do DNA.

O DNA e o suporte universal da informacao genetica que define as caracterısticas de cada

organismo vivo. E constituıdo por quatro nucleotidos que se associam de uma forma especıfica,

formando uma cadeia dupla enrolada em helice [4] (Figura 2.1). Cada nucleotido e constituıdo

por: uma pentose (desoxirribose), um grupo fosfato e uma de quatro bases azotadas: a adenina

(A), a guanina (G), a citosina (C) e a timina (T). As cadeias sao complementares antiparalelas e

mantem-se emparelhadas atraves de pontes de hidrogenio estabelecidas entre as bases azotadas

de cada par de nucleotidos: timina com adenina e citosina com guanina. Assim, uma vez

conhecida a sequencia de bases de uma cadeia, deduz-se imediatamente a sequencia de bases da

cadeia complementar.

De uma forma simples, abstraindo as propriedades quımicas, podemos ver o DNA como uma

sequencia de caracteres cujo alfabeto contem apenas quatro letras {A,C, T,G}, em que cada

caracter representa uma base. A ordem pela qual as quatro bases aparecem ao longo da cadeia

de DNA e determinante pois representa as instrucoes contidas no codigo genetico (Figura 2.2) de

cada organismo. Como unidade de medida de comprimento de uma molecula de DNA utiliza-se

o numero de pares de bases que a formam.

Os genes sao segmentos de uma cadeia de DNA que controlam a sıntese proteica. Ao conjunto

de genes que constitui a informacao genetica de um organismo da-se o nome de genoma. Alem

dos genes, existem regioes no DNA que servem para regular a activacao dos genes e outras para

as quais ainda nao ha funcoes conhecidas.

E sabido que existem diferencas entre o material genetico de organismos procariotas (carac-

terizados pela ausencia de um nucleo individualizado) e eucariotas (estes organismos contem um

Page 23: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.1. CONCEITOS DE BIOLOGIA MOLECULAR E GENETICA 23

Figura 2.2: Tabela do Codigo Genetico.

nucleo). Apesar do DNA ser considerado, do ponto de vista da sua estrutura molecular, identico

em todos os organismos, este apresenta-se de forma diferente nestes dois tipos de organismos.

Nas celulas procariotas apresenta-se na forma de uma unica molecula circular. Nas eucariotas o

DNA esta combinado com numerosas proteınas, formando o complexo DNA-proteınas, denomi-

nado cromatina. Esta esta localizada no nucleo da celula e apresenta uma estrutura molecular

complexa. A estrutura dos genes, nos organismos eucariotas, e tambem mais complexa que a

dos organismos procariotas. Os genes sao constituıdos por regioes codificantes, os exoes, que

vao dar origem a proteına, intercaladas por regioes nao codificantes, os introes. Os genes dos

organismos procariotas nao apresentam introes.

Para alem do DNA, outro acido nucleico e o RNA. Quando comparado com o DNA, este

apresenta uma constituicao diferente: enquanto que o acucar do DNA e uma desoxirribose, o do

RNA e uma ribose e a base timina (T) e substituıda pela base de uracilo (U). O RNA existe nas

celulas vivas em quantidades superiores a do DNA. Enquanto que a quantidade de DNA e igual

em todas as celulas somaticas, a de RNA celular e variavel e relaciona-se com a maior ou menor

actividade metabolica da celula. Nas celulas, podem ser encontrados diferentes tipos de RNA,

cada um com o seu papel: RNA mensageiros (mRNA) que servem como molde para a sıntese

proteica; os RNA ribossomais (rRNA) que constituem o ribossoma; os RNA de transferencia

que sao utilizados no processo de traducao (tRNA) e ainda uma inumera variedade de pequenos

RNAs nao codificantes que desempenham um papel determinante em todos os mecanismos de

regulacao de genes. O conjunto de todos os RNAs, denomina-se de transcritoma.

Atraves de processos bioquımicos complexos, tais como a transcricao e a traducao, os genes

codificam todas as proteınas necessarias a vida. As proteınas sao responsaveis por controlar a

Page 24: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

24 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Figura 2.3: Dogma Central da Biologia Molecular.

grande maioria das funcoes fisiologicas. Podem ter um caracter estrutural, como e o caso da

proteına Miosina que e um dos constituintes das fibras musculares, ou podem ser agentes activos

em determinadas actividades como e o caso da coagulacao sanguınea, do transporte de materiais

nos fluıdos do organismo, da producao de anticorpos, etc.

As proteınas sao constituıdas por aminoacidos que estao ordenados numa sequencia linear.

A ordenacao dos aminoacidos confere a proteına caracterısticas e uma funcao muito especıfica.

A alteracao de um aminoacido numa sequencia pode conduzir a uma modificacao na estrutura e

funcao biologica da molecula em causa. Cada grupo de tres nucleotidos de um gene, designado

por um codao ou tripleto, codifica um aminoacido em particular.

Como existem 64 codoes diferentes e apenas 20 aminoacidos, o codigo genetico e degenerado,

ou seja, varios codoes podem codificar o mesmo aminoacido.

Independentemente do grau de complexidade estrutural, todos os organismos vivos dependem

da producao de proteınas sintetizadas a partir da informacao contida no DNA. Da mesma forma,

todas as celulas usam o mesmo mecanismo geral para transformar a informacao contida no DNA

em proteınas, denominado de expressao genetica. Descreve-se de seguida parte desse mecanismo

para os organismos eucariotas, que serao objecto de estudo neste trabalho, deixando-se de lado

os organismos procariotas.

2.1.2 Expressao dos Genes

A expressao dos genes e o processo pelo qual as proteınas sao produzidas a partir da informacao

contida no DNA. Este processo e tambem designado por Dogma Central da Biologia (Figura

2.3) e envolve dois passos crıticos: a transcricao e a traducao.

Page 25: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.1. CONCEITOS DE BIOLOGIA MOLECULAR E GENETICA 25

Figura 2.4: Processo de Transcricao.

Transcricao

A transcricao (Figura 2.4) nos organismos eucariotas ocorre no nucleo das celulas (que contem o

DNA) e consiste na sıntese de moleculas de RNA mensageiro (mRNA), RNA ribossomal (rRNA)

e RNA de transferencia (tRNA), a partir da molecula de DNA. Existem tres enzimas RNA

polimerases. Os genes que codificam proteınas sao transcritos pela enzima RNA polimerase II.

A enzima liga-se ao gene numa area especıfica, chamada regiao promotora, e comeca a construir

a cadeia de mRNA com uma sequencia de bases complementar a sequencia de DNA. Quando

a transcricao termina, a porcao de DNA que codifica a proteına e agora representada por uma

molecula de mRNA que ira ser usada na traducao. Os rRNA e os tRNA sao transcritos pelas

RNA polimerases I e III.

Deste processo resulta o pre-mRNA ou transcrito primario, que vai sofrer um conjunto de

modificacoes, descritas por maturacao. Como foi dito anteriormente, os organismos eucariotas

tem regioes codificantes, exoes, e nao codificantes, introes. Durante a fase de maturacao, os

introes sao removidos do pre-mRNA por um processo designado de splicing, sendo os exoes

unidos posteriormente, resultando no mRNA maduro. Neste processo pode ocorrer o fenomeno

de splicing alternativo, uma vez que a mesma sequencia de pre-mRNA pode dar origem a

diferentes moleculas de mRNA e, por sua vez, a diferentes proteınas. O splicing alternativo

ocorre com frequencia neste tipo de organismos e e um mecanismo importante na regulacao dos

genes complementando o controlo da transcricao. O mRNA maduro e depois transportado do

nucleo para o citoplasma da celula, atravessando a membrana nuclear. Uma vez no citoplasma,

ocorre a traducao dos codoes do mRNA em aminoacidos de acordo com o codigo genetico.

Page 26: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

26 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Tal como ja foi referido anteriormente, ao conjunto de todos os RNAs resultantes do processo

de transcricao da-se o nome de transcritoma.

Apos terem sido referidos os conceitos fundamentais de biologia molecular, assim como o

mecanismo fundamental que da origem ao transcritoma, sera omitida parte de traducao (em

que as moleculas de RNA dao origem as proteınas) pois foge ao ambito deste trabalho.

2.2 Tecnologias de Sequenciacao

Com a sequenciacao de um genoma, processo que determina a ordem dos nucleotidos na cadeia

inteira do DNA de um indivıduo, consegue-se obter os dados necessarios ao estudo da variacao

fenotıpica entre indivıduos, a compreensao das doencas geneticas e a rapida formulacao de

diagnosticos geneticos, contribuindo para uma medicina cada vez mais personalizada.

Desde que a sequenciacao do DNA foi conseguida pela primeira vez em 1977 com o metodo

de Sanger [2] novos metodos foram criados.

Recentemente surgiram os chamados protocolos de nova geracao (NGS - Next Generation

Sequencing) [5, 6] que sao bastante eficientes e que permitem uma sequenciacao massiva em

paralelo. Existem neste momento no mercado tres grandes companhias que comercializam fer-

ramentas baseadas nesses protocolos: Roche/454 [7], Illumina/Solexa Genome Analyzer [8] e

Applied Biosystems/SOLiD [12]. A quantidade de reads (fragmentos de cDNA) geradas, o seu

tamanho e ainda o tipo de erros de sequenciacao, variam de plataforma para plataforma.

Todas estas tecnologias dao origem a quantidades consideraveis de dados, que representam

fragmentos aleatorios da sequencia original e precisam de ser alinhados de forma a fornecerem

informacao util. Estes dados sao normalmente apresentados em formato FASTA - ficheiro de

texto que contem as bases da sequencia de cada read e a sua identificacao, o seu id. Por

vezes as reads podem tambem conter informacao associada sobre a qualidade do sinal usado

pela ferramenta, para a determinacao de cada base individualmente. Neste caso o formato do

ficheiro gerado e FASTAQ.

Outro aspecto destas plataformas e o conceito de paired-end reads, as vezes tambem apelidado

de mate-pair reads. Sao pares de reads associados com alguma informacao sobre a sua posicao

relativamente uma a outra, isto e, a distancia aproximada que separa uma read da outra e

conhecida. Esta informacao extra sobre o posicionamento das reads ajuda de forma consideravel

a sinalizar a correcta localizacao de ambos os fragmentos aquando do alinhamento das mesmas.

Pelo processo da sequenciacao sao geradas as reads ainda em estado puro para mais tarde

Page 27: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.2. TECNOLOGIAS DE SEQUENCIACAO 27

Figura 2.5: Fluxo de trabalho da plataforma 454.

serem analisadas, interpretadas e processadas, por ferramentas de mapeamento e montagem.

2.2.1 Roche/454

Os instrumentos da tecnologia Roche/454 [7] utilizam o metodo de pirosequenciacao.

Inicialmente as amostras genomicas a serem sequenciadas sao divididas em pequenos frag-

mentos. Em cada molecula de DNA sao ligados adaptadores de modo a que a molecula seja

purificada, quantificada, amplificada e sequenciada. Esses adaptadores permitirao que o DNA

se ligue a uma, e apenas uma, micela (bead) na fase de amplificacao. De seguida da-se a emulsi-

ficacao do fragmento, em meio aquoso, juntamente com os reagentes da reacao PCR (Polymerase

Chain Reaction). Neste processo todos os fragmentos ligados a beads sao amplificados simul-

taneamente, sendo que cada bead apresentara varias copias do unico fragmento que lhe estava

ligado inicialmente. Depois da amplificacao, as beads que contem as moleculas de DNA sao colo-

cadas no suporte de sequenciacao. Nesta fase, a incorporacao de cada nucleotido complementar

ao DNA da bead liberta um pirofosfato que e entao detectado atraves de um sinal quimiolumi-

nescente e e capturado pela camera CCD da ferramenta. A intensidade do sinal e a informacao

sobre a posicao do fragmento e convertido num flowgram, permitindo que seja determinada a

sequencia de nucleotidos de cada read. Cada fragmento corresponde a uma read. Uma ilustracao

deste processo encontra-se na Figura 2.5.

Esta tecnologia processa mais de um milhao de reads de tamanho medio de 400 pares de bases

(400bp) num unico processamento de 10 horas. Apesar deste sistema ser capaz de produzir reads

mais compridas do que as restantes tecnologias, e mais susceptıvel a erros de homopolımeros

(insercoes ou remocoes consecutivas da mesma base).

Page 28: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

28 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Figura 2.6: Fluxo de trabalho da plataforma Illumina.

2.2.2 Illumina/Solexa Genome Analyzer

A Illumina/Solexa [8] desenvolveu uma tecnologia de sequenciacao baseada em terminadores de

fluoroforo reversıveis.

O DNA e fragmentado aleatoriamente e os adaptadores sao ligados a ambas as extremidades

dos fragmentos. De seguida, cada fragmento liga-se aos oligonucleotidos imobilizados a superfıcie

das celulas de fluxo do instrumento e sao amplificados milhoes de vezes formando um cluster.

Os modelos sao sequenciados em paralelo, base a base, usando quatro tipos de terminadores

fluorescentes reversıveis nos nucleotidos, que competem simultaneamente para se ligarem ao

modelo. De seguida, os clusters sao excitados atraves de um laser, emitindo uma cor que

identifica a nova base que foi adicionada (Figura 2.6). O marcador fluorescente e o grupo

bloqueador sao entao removidos, permitindo a adicao da proxima base.

O sistema e capaz de produzir cerca de 6.5Gb de dados por dia para um processamento de

2x100bp de paired-end reads. O tamanho das reads varia entre 1x35bp para single-end reads

num processamento de dois dias, e 2x150bp para paired-end reads num processamento de 14

dias. Apesar de ter o melhor rendimento, em termos de quantidade de dados gerados, por

processamento de entre as tres tecnologias, cada processamento e muito longo e o tamanho das

reads e relativamente pequeno. Os erros mais comuns nas reads geradas por esta tecnologia sao

as substituicoes de bases [9]. Uma possıvel desvantagem e a sub-representacao de zonas ricas em

dinucleotidos AT e GT, provavelmente por causa da fase de amplificacao durante a preparacao

dos fragmentos [9, 10, 11].

2.2.3 Applied Biosystems SOLiD

A tecnologia Applied Biosystems [12] e baseada num metodo chamado sequenciacao por ligacao

(Figura 2.7).

Este metodo processa-se atraves de rondas sequenciais de ligacao de nucleotidos usando

sondas que codificam as duas bases de cada vez. Cada sonda tem uma das combinacoes de 16

Page 29: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.2. TECNOLOGIAS DE SEQUENCIACAO 29

Figura 2.7: Fluxo de trabalho da plataforma SOLiD.

dinucleotidos e um dos quatro corantes fluorescentes. Assim, em vez de usar uma sequencia de

referencia baseada em quatro nucleotidos, usa uma sequencia de referencia baseada num espaco

de quatro cores. Como cada corante pode corresponder a quatro dinucleotidos, uma matriz de

descodificacao e usada para converter a sequencia de cores numa sequencia base. Esta codificacao

a duas bases permite que os erros de sequenciacao possam ser distinguidos, de forma eficiente,

das insercoes de uma unica base real, remocoes e SNPs (Single-Nucleotide Polymorphism).

Tal como no sistema Roche/454, as amostras de DNA sao fragmentadas, modificadas com

adaptadores em ambos os fins, sao ligadas a beads, clonadas por emulsao PCR em microreactores

e, por fim, depositadas numa lamina de vidro.

O equipamento e capaz de gerar 30Gb de dados por dia, em que as reads sao de tamanho

35bp, mas suporta reads de tamanho ate 70bp. O espaco das cores das reads e retornado por

este equipamento atraves de ficheiros em formato CSFASTA e CSFASTAQ, onde cada read e

definida por uma base inicial seguida de uma sequencia de numeros entre 0 e 3 representando

as quatro cores. Os tipos de erros mais comuns sao as substituicoes e, de forma semelhante a

plataforma Illumina, tambem apresenta uma sub-representacao de zonas ricas em dinucleotidos

AT e GT [10].

2.2.4 Outras Tecnologias

De todas as tecnologias NGS existentes, as tres acima mencionadas sao consideradas como

fazendo parte da categoria de tecnologias de segunda geracao, existindo ja algumas classificadas

de terceira geracao [13].

Ainda nas de segunda geracao existe a tecnologia Helicos, primeiro sequenciador de molecula-

Page 30: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

30 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Figura 2.8: Alinhamento contra Genoma de Referencia e Alinhamento de novo.

unica (single-molecule), ou seja, nao utiliza amplificacao [14] no processo de sequenciacao, que

produz, por cada execucao, 400 milhoes de reads de tamanho 25-35bp.

As tecnologias de terceira geracao sao caracterizadas pelo esforco de tornar a sequenciacao

ainda mais barata e rapida, utilizando nanotecnologias e outras ferramentas avancadas com

o objectivo de eliminar a amplificacao e a necessidade da deteccao optica de eventos de se-

quenciacao [13]. Como exemplo dessas tecnologias temos a Pacific Biosciences and Complete

Genomics [15], Ion Torrent [16] e Oxford Nanopore [17].

2.3 RNA-Seq

RNA-Seq [1] e uma metodologia desenvolvida recentemente cujo objectivo e estudar o transcri-

toma, usufruindo das tecnologias de sequenciacao em larga escala que foram descritas na seccao

anterior.

De uma forma geral, uma populacao de RNA (total ou fraccionada) e convertida numa

biblioteca de fragmentos de cDNA. Consoante o protocolo de preparacao das amostras inerente

a cada tecnologia, cada fragmento recebe adaptadores, e sequenciado e gera uma sequencia curta

(cada read e da ordem de 30-400pb, dependendo da tecnologia utilizada). Apos a sequenciacao,

as reads resultantes sao alinhadas contra um genoma de referencia ou um transcritoma de

referencia. Podem ainda ser montadas de novo, ou seja, sem uma sequencia de referencia (Figura

2.8). O objectivo e produzir um mapa transcricional em escala genomica composto pela estrutura

transcricional e/ou o nıvel de expressao de cada gene.

As principais vantagens do RNA-Seq sao: a deteccao dos transcritos nao fica restrita somente

Page 31: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.4. DESAFIOS PARA A BIOINFORMATICA 31

aqueles correspondentes a uma sequencia genomica pre-existente (tal como ocorre com as abor-

dagens baseadas em hibridizacao), tornando o metodo atractivo para a pesquisa em organismos

cujos genomas ainda nao foram determinados; podem ser determinadas localizacoes precisas dos

limites de transcricao; e possıvel a deteccao de variacoes da sequencia genomica (SNPs) nas

regioes transcritas; como nao existem etapas de clonagem nas tecnologias de nova geracao, o

RNA-Seq requer uma quantidade muito menor de amostras de RNA [1].

O RNA-Seq e ainda o primeiro metodo baseado em sequenciacao que permite que um trans-

critoma completo seja pesquisado em larga-escala e de maneira quantitativa. Oferece resolucao

de uma unica base para anotacao e de nıveis de expressao genica digital em escala genomica,

normalmente a um custo bem menor, quando comparado com as tecnicas de microarrays ou de

sequenciamento EST (Expressed Sequence Tag) [18]. Sera, certamente, uma ferramenta valiosa

para compreender a dinamica transcricional, nao so durante as mudancas fisiologicas normais as-

sociadas ao desenvolvimento do organismo, mas tambem na comparacao entre tecidos saudaveis

e doentes.

2.4 Desafios para a Bioinformatica

Com as plataformas NGS sao gerados dados de uma sensibilidade sem precedentes, o que permite

que sejam descobertos novos factos biologicos. No entanto, isto requer um esforco consideravel no

desenvolvimento de novas ferramentas bioinformaticas para lidar com esta quantidade massiva

de dados.

Um dos primeiros desafios para a informatica consiste no armazenamento e transferencia

de grandes volumes de dados entre computadores. Numa unica execucao de qualquer uma das

tecnologias NGS, os dados gerados e ainda por processar podem ser da ordem dos terabytes. Ou

seja, transferir estes ficheiros pode representar um desafio tecnico para as redes de computadores

de muitos centros de pesquisa. Adicionalmente, mesmo quando os dados sao passıveis de serem

transferidos para processamento, um computador (desktop) comum apresenta limitacoes em

termos de CPU e memoria face ao enorme volume de dados. Uma solucao possıvel e utilizar um

cluster de computadores para aumentar a capacidade computacional [26].

Outro problema e a disponibilidade do software necessario para realizar a analise dos dados.

O resultado de uma experiencia RNA-Seq pode consistir em milhoes de reads com centenas de

pares de bases, dependendo da tecnologia usada, da sua versao e do custo total da experiencia.

A analise destes dados baseia-se muito num mapeamento adequado das reads numa sequencia

Page 32: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

32 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

de referencia ou numa montagem eficiente de novo. Mapear estas reads de forma eficiente e

fidedigna enfrenta alguns obstaculos. Tal como foi identificado por McPherson [19], as diferencas

entre as varias plataformas de sequenciacao na preparacao das amostras, nos quımicos usados,

no tipo, volume e formato de dados em cru, sao bastante consideraveis. Isto faz com que cada

plataforma produza dados com erros de um determinado perfil. Por exemplo, o sistema 454

pode produzir reads com erros de insercao ou remocao em homopolımeros (polımeros que sao

formados por unidades identicas de monomeros) e gera menos, mas mais longas sequencias

num formato FASTA, permitindo a sua adaptacao a algoritmos classicos de alinhamento; as

ferramentas Illumina tem uma grande probabilidade de acumular erros de sequenciacao no final

das reads e, embora estas estejam em formato FASTA, sao consideravelmente mais pequenas

(short reads) que as 454 requerendo algoritmos de alinhamento mais especıficos; a tecnologia

SOLiD tambem tende a acumular erros no final das reads, mas usa uma codificacao a duas

bases e cada sequencia de saıda esta codificada num espaco de cores no formato CSFASTA.

Consequentemente, alguns erros de sequenciacao sao corrigıveis, providenciando uma melhor

descriminacao entre erros de sequenciacao e polimorfismos (variacoes genotıpicas), com o custo

de ser necessario ter ferramentas direccionadas especificamente para este tipo de problema.

Relativamente ao mapeamento das reads num genoma de referencia, o desafio poderia ser

mais simples se todas alinhassem de forma exacta nas regioes exonicas da sequencia de referencia.

Porem, tal como foi visto anteriormente, as celulas eucariotas dispoem de um mecanismo de

splicing e, portanto, e possıvel que uma read se estenda por mais do que um exao. Para

conseguirmos alinhar estas reads correctamente, e necessario identificar os pontos de juncao

(pontos de fronteira que separam os exoes dos introes). Estes pontos de juncao podem ser

identificados de varias formas, algumas delas descritas na seccao seguinte. No entanto, uma

solucao parcial e a construcao de uma biblioteca, em que estao compiladas todas as regioes

exonicas conhecidas e previstas, e mapear as reads contra essa biblioteca [20, 21].

Um outro obstaculo surge pelo simples facto de uma quantidade significativa de reads poder

alinhar em multiplos sıtios no genoma. Uma solucao para alinhar estes fragmentos e atribuı-

los de forma proporcional com base no numero de reads mapeadas nas suas sequencias unicas

vizinhas [21, 22]. As short reads que tem um numero elevado de copias (mais de 100) e em

que grande parte se repete muitas vezes, representam um desafio ainda maior. Utilizar reads

maiores, como as da tecnologia 454, e uma possıvel solucao para a questao de alinhamento

multiplo. Uma alternativa e usar uma estrategia paired-end, em que as sequencias pequenas sao

determinadas a partir das duas extremidades de um fragmento de DNA [23, 24, 25], e o tamanho

Page 33: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

2.4. DESAFIOS PARA A BIOINFORMATICA 33

dos fragmentos mapeados e ampliado para 200-500bp sendo, certamente, util no futuro. Erros

de sequenciacao e de polimorfismos representam problemas de mapeamento nao so para o DNA

repetitivo, mas para todos os genomas.

Nao e surpreendente que nao exista software padrao para um utilizador final. Assim sendo,

a implementacao de pipelines individuais de processamento para os diversos dados, combinada

com alguns packages existentes e novos metodos computacionais, e uma abordagem a seguir.

No entanto, mesmo com alguns packages a permitirem que varios aspectos do RNA-Seq sejam

resolvidos, estes requerem um grande esforco temporal, muito devido a falta de documentacao

clara na maioria dos algoritmos e a variacao dos formatos dos dados. Como tal, uma docu-

mentacao muito bem definida e precisa e necessaria para assegurar uma total compreensao dos

dados processados, tal como e util adoptar um formato comum para os dados (input/output)

de forma a tornar mais simples a sua manipulacao: alinhamentos, montagens de referencia e

deteccao de variacoes.

A resolucao destes problemas pode fazer com que a lacuna que existe no software de proces-

samento de sequencias (alinhamento, montagem, posicionamento e deteccao de variacoes) passe

para a de analise de sequencias (anotacao e impacto funcional) [26].

Page 34: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

34 CAPITULO 2. SEQUENCIACAO DE NOVA GERACAO

Page 35: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3Alinhamento de Transcritomas

Com a evolucao das tecnologias e das metodologias, surgiu a necessidade urgente de desenvolver

novas abordagens computacionais que permitam que a sequenciacao seja cada vez mais rapida e

barata. O volume de dados gerado e cada vez maior e torna-se fundamental existirem metodos

e ferramentas que permitam uma facil manipulacao dos mesmos.

A pipeline computacional classica do RNA-Seq esta ilustrada na Figura 3.1 (o ambito deste

projecto restringe-se a fase do software de alinhamento/mapeamento). A figura mostra-nos que

numa primeira fase as reads, resultantes de uma das experiencias NGS, sao alinhadas contra

um genoma de referencia. Alinhar o transcritoma de organismos sem um genoma de referencia

requer uma montagem de novo. Dado que esta foge ao ambito do projecto, sugere-se a leitura

de artigos de revisao para uma compreensao do problema em causa [27, 28]. A decisao de qual

das estrategias a utilizar depende muito da aplicacao a que se propoe. No entanto, indepen-

dentemente da abordagem seguida, ha sempre uma fase preliminar que consiste na filtragem de

reads removendo as de ma qualidade, reduzindo o tempo e esforco computacional na altura da

analise dos dados.

Nas proximas seccoes estao explicados, de forma detalhada, os mecanismos e etapas ne-

cessarias ao alinhamento de qualquer transcritoma. Na Seccao 3.1 encontram-se descritas as

abordagens computacionais existentes para o alinhamento directo de reads contra um genoma

de referencia. Como esse mapeamento em si nao resolve o problema de alinhamento do trans-

critoma, pois as reads podem estender-se por mais do que um exao, e necessario desenvolver

metodos para a identificacao dos limites de transcricao, ou seja, dos pontos de juncao. Na Seccao

3.2 estao explicados alguns mecanismos, ja existentes, para a identificacao desses pontos.

3.1 Alinhamento de Reads Contra um Genoma de Referencia

O desafio de alinhamento/mapeamento e um dos problemas mais antigos na Bioinformatica, mas

os algoritmos que sao tradicionalmente usados (baseados em programacao dinamica simples)

para o resolver de forma eficiente, nao sao passıveis de serem utilizados em problemas que

envolvam a manipulacao de grandes volumes de dados. Dado que e necessario alinhar reads

35

Page 36: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

36 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.1: Pipeline Computacional RNA-Seq, baseado no trabalho de Costa et al [26].

de tamanho muito pequeno num genoma de referencia, que pode chegar aos Gbs de tamanho,

outras estrategias foram desenvolvidas, na sua maioria baseadas em seeds (seed-and-extend ou

spaced seeds, por exemplo) tal como algumas tecnicas de indexacao que visam acelerar todo o

processo de alinhamento.

Nas proximas subseccoes, serao descritas essas estrategias, os metodos de indexacao mais

utilizados, e ainda e feita uma analise comparativa de dois dos algoritmos mais eficientes de

alinhamento directo contra um genoma de referencia.

3.1.1 Estrategias de Mapeamento Directo contra Genoma de Referencia

Dado que o DNA e composto por um alfabeto de quatro letras {A,C, T,G}, os problemas

relacionados com o alinhamento de reads contra um genoma de referencia podem reduzir-se

a problemas de emparelhamento de cadeias de caracteres (string matching). No entanto, nao

deixa de ser necessario fazer alguns ajustamentos devido a grande discrepancia que existe nos

tamanhos das cadeias de caracteres (a partir de agora utilizar-se-a a terminologia inglesa strings)

a serem alinhadas em aplicacoes de sequenciacao.

Programacao Dinamica

Varios algoritmos de programacao dinamica foram testados e aprovados na area da sequenciacao,

mas nem todos contribuem para a resolucao do problema de alinhamento de reads contra um

Page 37: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERENCIA 37

Figura 3.2: Exemplo do metodo seed-and-extend.

genoma de referencia. O objectivo nao e tentar alinha-las contra o genoma inteiro, isto e,

um alinhamento global, mas sim contra pequenas regioes do genoma, ou seja, encontrar um

alinhamento local optimo utilizando um algoritmo como o Smith-Waterman-Gotoh [34].

Apesar deste algoritmo garantir que se encontra uma solucao optima, e muito exigente em

termos de tempo e memoria, tornando impraticavel a sua utilizacao. Como tal, as ferramen-

tas de alinhamento procuram por strings que tenham um alinhamento exacto, seeds, e depois

alinham as lacunas (na terminologia inglesa gaps) existentes entre essas seeds. Neste caso, um

alinhamento semi-global e executado entre as gaps que separam as seeds na read e as gaps

correspondentes na referencia. Para tal, e aplicada uma variante do algoritmo de alinhamento

global Needleman-Wunsch [35].

Exemplos de metodos que utilizam programacao dinamica para resolver o alinhamento nas

regioes entre as seeds, sao as ferramentas BWA [51] e RazerS [52].

Seed-and-Extend

Devido a inviabilidade do uso directo de algoritmos de programacao dinamica para alinhar cada

read contra a sequencia de referencia, outras estrategias nao tao precisas, mas praticaveis, tem

que ser usadas. E aqui que entra o paradigma seed-and-extend. Sendo um metodo heurıstico,

visa o aumento de velocidade em troca de uma menor sensibilidade e, apesar de nao garantir o

melhor alinhamento entre duas sequencias, faz com que seja pratico aplica-lo.

O algoritmo baseia-se numa estrategia de alinhamento local, ou seja, comeca por encontrar

um alinhamento exacto de palavras de tamanho fixo, as seeds, presentes tanto nas reads como

na referencia. Neste passo, as seeds sao normalmente alinhadas com o auxılio de uma estrutura

de indexacao. As ocorrencias destas seeds sao depois estendidas para ambos os lados atraves do

alinhamento exacto entre as reads e a referencia, usando eventualmente programacao dinamica

entre essas seeds para completar o alinhamento. Atraves destes passos, uma aproximacao ao

algoritmo Smith-Waterman-Gotoh e conseguida. Apesar de admitir alguns erros, executa muito

mais rapidamente e requer menos espaco de memoria. Uma ferramenta muito util que utiliza

Page 38: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

38 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.3: Exemplo do metodo spaced seeds.

esta estrategia e a aplicacao BLAST [29].

Spaced seeds

Na estrategia anterior, as seeds precisam de ser alinhadas de forma exacta e por isso os tamanhos

usados para as mesmas sao muito importantes. Seeds muito compridas irao falhar algumas cor-

respondencias, e quando muito pequenas irao aumentar o tempo de execucao. Para superar isto,

o conceito de seeds espacadas (spaced seeds) foi criado [36]. Sao seeds normais, mas em que nem

todos os caracteres precisam de ser alinhados de forma exacta, fazendo com que certas posicoes

sejam ignoradas (Figura 3.3). Em sequencias onde as falhas no emparelhamento (mismatches na

terminologia inglesa) sao muitas e estao bastante dispersas, as spaced seeds produzem melhores

resultados do que usando seeds contıguas com o mesmo numero de posicoes de emparelhamento

requiridas, obtendo assim uma maior sensibilidade no alinhamento. Nao obstante, e necessario

ter cuidado para nao descurar na especificidade do alinhamento [37].

Esta estrategia revela-se extremamente importante quando na fase de sequenciacao ocorrem

alguns erros como insercao, remocao ou substituicao em homopolımeros.

Um numero consideravel de ferramentas utilizam esta estrategia de seeding eficiente, tais

como ZOOM [39], SHRiMP [40] e PerM [43].

Princıpio Pigeon-hole

O Princıpio Pigeon-hole [38] define que se quisermos alinhar uma string de tamanho n permitindo

que hajam no maximo k erros, entao podemos dividi-la de forma igual em k+1 seeds de tamanho

bn/(k+1)c, com k << n . Esta divisao garante que pelo menos uma delas tera um alinhamento

exacto, isto e, sem erros.

Muitas ferramentas como a RMAP [44] e a SeqMap [45], especificam um numero maximo de

erros a priori e depois aplicam este princıpio para obter pelo menos uma seed de alinhamento

exacto que sera estendida mais tarde.

Page 39: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERENCIA 39

3.1.2 Estruturas de Dados e Metodos de Indexacao

A simples procura de uma read em grandes genomas de referencia seria computacionalmente

pesada se nao houvessem mecanismos para acelerar o processo. Assim sendo, os algoritmos de

sequenciacao precisam de alguns tipos de estruturas de dados especıficos para tornar possıvel

essa aceleracao. Como tal, quase todas as ferramentas utilizam alguma especie de ındice.

As estruturas mais comuns sao em forma de tabelas de dispersao, tabelas construıdas para

fazer corresponder cada string as posicoes em que ocorrem na sequencia. No entanto, as tec-

nologias mais recentes tiram vantagem de tecnicas de indexacao mais avancadas como a FM-

Index [47], uma estrutura que vem directamente da Transformada de Burrows-Wheeler [46] e

que esta intimamente ligada as tabelas e as arvores de sufixos.

Algumas ferramentas optam por indexar o genoma de referencia, outras as reads, e algumas

chegam a indexar ambas. No entanto, esta indexacao permite obter de forma rapida e eficiente

as posicoes em que uma determinada sequencia ocorre exactamente, sem erros.

Tabelas de Dispersao

As tabelas de dispersao sao uma estrutura simples, e ainda assim eficiente, que mapeiam uma

chave num valor (chave, valor) em que a chave e unica (Figura 3.5). Na area do alinhamento de

sequencias, as chaves sao representadas por k-mers (palavras de tamanho k), tambem chamadas

de k-grams, e os valores que lhes estao associados sao as posicoes correspondentes em que os

k-mers ocorrem na sequencia de referencia.

A maior parte das ferramentas utiliza as tabelas de dispersao para rapidamente obter a

posicao das seeds. Cada ferramenta escolhe o tamanho k que melhor corresponde as suas neces-

sidades, tendo em conta um valor pre-definido ou um numero de erros que o utilizador define.

Os tipos de implementacao variam bastante, mas a implementacao mais comum e mais

eficiente e obtida quando cada k-gram e convertida numa representacao de bitwise (bit a bit)

comprimido que encaixa numa unidade de processamento, ou seja, num numero inteiro. Sendo

o DNA um alfabeto de tamanho 4, sao apenas precisos 2 bits para cada caracter, permitindo

que cada combinacao de 16 bases seja representada por um numero unico de 32 bits, resultando

num meio rapido e directo de obter uma entrada da tabela.

Apesar de o tempo de procura ser O(1), nao e tao flexıvel como as estruturas que serao apre-

sentadas de seguida e, mesmo usando alguns truques como funcoes de dispersao eficientes, entre

outros, no geral, as tabelas de dispersao continuam a requerer muito espaco de armazenamento,

para alem da sua construcao nao ser trivial.

Page 40: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

40 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.4: Exemplo de uma tabela de dispersao para o texto T = ACGTTTTGCGTA$.

As ferramentas RMAP [44], ZOOM [39], SeqMap [45] e SHRiMP [40] usam as tabelas de

dispersao para indexar as reads; as ferramentas SOAPv1 [41] e BFAST [42], entre outras, usam-

nas para indexar o genoma.

Arvores de Sufixos

As Arvores de Sufixos [53] (suffix trees segundo a terminologia inglesa) foram a primeia estru-

tura de dados eficiente a permitir encontrar solucoes em tempo linear para varios problemas de

emparelhamento de strings. O algoritmo de Ukkonen [49] permite a sua construcao em tempo e

espaco linear. No entanto, quando comparadas com estruturas de dados como as tabelas de sufi-

xos ou como o FM-Index, descritas em seguida, o factor espaco continua a ser consideravelmente

maior.

Dado um texto T de tamanho n e um alfabeto Σ , seja T [i] o caracter da posicao i do texto

e seja T [i...j] a substring de T de tamanho (j − i+ 1) definida da posicao i a posicao j, com

i = 1, ..., n e j = i, ..., n. Desta forma define-se T [i...n] como o sufixo i de T e T [1...i] como o

prefixo i de T . A arvore de sufixos de T e definida, adicionando ao fim de T um sımbolo extra

$, que nao ocorre em Σ e que cujo codigo e mais pequeno que qualquer um dos seus elementos,

ordenando de forma lexicografica todos os (n+ 1) sufixos de T$. De seguida colapsam-se os

prefixos comuns de prefixos adjacentes num mesmo no. Ao no de onde partem todos os ramos,

chama-se raiz. Cada no interno tem uma etiqueta nao vazia e entre dois e (|Σ|+ 1) nos filhos.

Cada no final sem filhos, ou folha, tem uma etiqueta acabada com o sımbolo $(Figura 3.6). A

complexidade espacial e O(n).

A operacao de procura de um padrao P de tamanho m em T pode ser feita em O(m)

passos, ou ainda retornar todas as k ocorrencias do padrao P no texto T num tempo O(m+ k)

independente do tamanho de T . Esses passos podem ser optimizados atraves de estruturas

Page 41: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERENCIA 41

Figura 3.5: Exemplo de uma arvore de sufixos o texto T = ACACGCT$.

Figura 3.6: Exemplo de uma tabela de sufixos para o texto T = ACACGCT$.

chamadas suffix links que ligam nos cujas etiquetas representam sufixos consecutivos da mesma

substring.

Embora nao haja conhecimento de uma ferramenta especıfica que use arvores de sufixos, a

sua introducao e importante pois podem ser usadas (embora nao obrigatoriamente) para derivar

de forma directa as tabelas de sufixos, uma estrutura da mesma famılia, mas mais eficiente em

termos de espaco.

Tabelas de Sufixos

As Tabelas de Sufixos [54] sao definidas atraves de listas de inteiros que representam as posicoes

iniciais de todos os sufixos, ordenados lexicograficamente, de um texto T$. Por apenas guardar

esta lista de posicoes (numeros inteiros) e o texto original, as tabelas de sufixos conseguem

reduzir o espaco de memoria utilizado, quando comparadas com as outras estruturas de dados

descritas anteriormente. Esta estrutura pode ser enriquecida se mantiver informacao sobre os

prefixos comuns mais longos (LCP - longest common prefixes) [55], guardando o numero de

caracteres iniciais comuns que cada sufixo tem com o anterior (Figura 3.7). O algoritmo de

pesquisa usado e o de procura binaria com uma complexidade temporal O(m+ logn) no pior

caso e um texto de tamanho n.

Page 42: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

42 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.7: Exemplo da BWT para o texto T = ACACGCT$.

BWT/FM-Index

A Transformada de Burrows-Wheeler (BWT) [46] foi inicialmente desenvolvida para a com-

pressao de dados e por isso e a estrutura de indexacao mais eficiente a nıvel do espaco ocupado.

Existem alguns ındices baseados na BWT, um deles o FM-Index.

O FM-Index e um ındice comprimido baseado na Transformada de Burrows-Wheeler que em

termos de memoria requer apenas O(n log σ) , em que σ e o tamanho do alfabeto (σ = 4 para

DNA e σ = 20 para proteınas, por exemplo) [47].

A BWT de um texto consiste na rotacao dos caracteres desse texto T$ sendo construıda

atraves da ordenacao lexicografica, nao de todos os sufixos como nas tabelas e nas arvores de

sufixos, mas de todas as rotacoes cıclicas do texto retirando o ultimo caracter em cada rotacao.

Tambem pode ser obtida da tabela de sufixos de T$ definindo BWT [i] = T [SA[i]− 1], isto e, o

caracter i da BWT de T e o caracter de T localizado na posicao imediatamente antes do inıcio

do sufixo i, ordenado lexicograficamente, em que SA[i] e a posicao i da tabela de sufixos (SA -

Suffix Array) (Figura 3.8).

Esta estrutura de dados e usada de forma muito eficiente pela ultima geracao de softwares

de alinhamento, nomeadamente o Bowtie [50], o TAPyR [56], o BWA [51] e o SOAP2 [57],

atingindo velocidades que superam em muito as que utilizam tabelas de dispersao, ao mesmo

tempo que consegue consumir muito pouca memoria. Esta estrutura de dados revelou-se como

a melhor estrutura para lidar com grandes quantidades de dados como e o caso da montagem

do genoma de referencia humano, por exemplo.

3.1.3 Bowtie vs TAPyR

Os algoritmos Bowtie e TAPyR foram desenhados com um mesmo proposito - alinhar da forma

mais rapida, eficiente e economicamente possıvel as reads geradas pelas tecnologias NGS. Ambos

utilizam o FM-Index como metodo de indexacao para o genoma de referencia tornando-as, assim,

duas das ferramentas de maior sucesso nesta tarefa.

Page 43: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERENCIA 43

Embora nao exista uma comparacao documentada entre estes dois algoritmos, durante o

desenvolvimento deste projecto e dado o seu contexto, tornou-se oportuno fazer uma analise

mais minunciosa de ambos e perceber que vantagens se podem obter mediante a utilizacao de

cada uma. Apesar de ter sido provado que o TAPyR e uma das ferramentas de alinhamento

mais rapidas a sequenciar genomas [56], o Bowtie tem sido a ferramenta a que mais se tem

recorrido para inserir em pipelines de alinhamento de transcritomas. Apos um estudo desses

pipelines conclui-se que essa opcao deve-se as caracterısticas que os distinguem.

Um dos factores, e talvez o mais determinante, que os diferencia e a plataforma NGS para a

qual foram desenhados. Como ja foi visto anteriormente, cada tecnologia gera reads de diferentes

tamanhos com diferentes tipos de erros. Dados estes factos, tanto o Bowtie como o TAPyR foram

desenhados para melhor corresponderem as necessidades de tratamento das reads geradas por

diferentes tecnologias.

De seguida, sao apresentadas as especificidades inerentes a cada um dos softwares, sendo,

por fim, feito um pequeno balanco entre os dois.

Bowtie e a Tecnologia Illumina

O Bowtie foi especialmente concebido para alinhar reads produzidas pela tecnologia Illumina,

ou seja, reads de tamanho reduzido. O seu melhor desempenho da-se quando os fragmentos sao

de tamanho menor do que 100bp, idealmente no intervalo 35bp-75bp. Sendo as reads muito

pequenas, apesar de o algoritmo de pesquisa em estruturas FM-Index ser o Exactmatch de-

senvolvido por Ferragina e Manzini [48], este sofre algumas alteracoes, para permitir que os

erros e os mismatches sejam tidos em conta durante o alinhamento, baseadas em estrategias de

rastreio [50].

Para que o Bowtie possa ter uma elevada performance, o algoritmo assume alguns compro-

missos que rapidamente sao postos a prova se um utilizador mais exigente quiser obter resultados

com uma margem de erro mınima. Isto, porque quando existe mais que um alinhamento exacto

para uma read, e garantido que o Bowtie reporta um, mas quando se trata de um alinhamento

nao exacto, nao e garantida a qualidade desse alinhamento para todos os casos. No entanto, se o

utilizador desejar um aumento da fidelidade do alinhamento, o Bowtie disponibiliza mecanismos

de parameterizacao para tal, com a consequencia de um maior custo computacional.

Page 44: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

44 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

TAPyR e a Tecnologia Roche/454

A criacao do TAPyR veio no contexto de, nao obstante existirem ja varios algoritmos de alinha-

mento directo, haver ainda espaco para melhorias. O TAPyR e dos poucos sistemas computa-

cionais preparados para lidar de forma rapida e eficaz com as reads resultantes da plataforma

Roche/454, ou seja, com reads de tamanho superior a 100bp e tendo em conta as caracterısticas

dos dados resultantes da pirosequenciacao.

A abordagem seguida por este algoritmo usa a estrutura FM-Index optimizada para o alfa-

beto do DNA, juntamente com uma estrategia baseada em seeds flexıvel [56]. Contrariamente

a outras ferramentas de alinhamento baseadas em seeds, a estrategia do TAPyR fornece uma

maior flexibilidade ao dispensar a necessidade de previamente definir o numero e comprimento

das seeds. A sua heurıstica baseia-se em algumas assumpcoes razoaveis que sao expectaveis

dos projectos de sequenciacao baseados em pirosequenciacao, nomeadamente que os alinhamen-

tos optimos sao, na sua maioria, compostos por grandes blocos de emparelhamentos exactos,

intercalados por pequenas regioes contendo possivelmente algumas gaps. Mais, como as reads

sao de poucas centenas de bases, este assume que as regioes de emparelhamento exacto sejam

grandes o suficiente para poderem usar partes destas, as seeds, como espinha dorsal para definir

a posicao real do alinhamento na sequencia de referencia ou, pelo menos, para reduzir a quanti-

dade de posicoes candidatas para esse alinhamento ao ponto de poderem ser tratadas e testadas

individualmente.

Balanco Final

As reads geradas pelas diferentes plataformas de sequenciacao requerem cuidados e tratamentos

bastante especıficos se queremos tirar o maior proveito possıvel da informacao que podem trans-

mitir quando alinhadas. Apesar de o mercado estar inundado de software de alinhamento de

short reads, tais como as produzidas pela tecnologia Illumina, ate a criacao do TAPyR havia uma

grande lacuna nos modelos de alinhamento de reads geradas pela pirosequenciacao (Roche/454).

Apesar de se poder cair na tentacao de comparar estes dois metodos de alinhamento de DNA,

Bowtie e TAPyR, a verdade e que apos uma analise mais profunda chega-se a conclusao que

estes acabam por se complementar. O Bowtie so tem uma performance eficiente e rapida para

reads inferiores a 100bp e o TAPyR para reads superiores a 100bp. Se se juntar isto ao facto de

o TAPyR utilizar as caracterısticas das reads geradas pela pirosequenciacao como base de co-

nhecimento para o desenho do seu algoritmo, torna-se complicado fazer uma comparacao directa

do desempenho de ambas as ferramentas. Porem, utilizando dados minimamente favoraveis as

Page 45: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.2. METODOS DE IDENTIFICACAO DE PONTOS DE JUNCAO 45

duas ferramentas, mesmo assim o TAPyR obtem uma performance um pouco melhor que a do

Bowtie.

Esta conclusao foi obtida apos se ter executado o Bowtie e o TAPyR contra um mesmo

genoma de referencia, mas em que no caso do Bowtie as reads eram de 36bp e no caso do

TAPyR as reads eram de 100bp. Cada pacote de reads, originadas pela tecnologia Illumina,

continha a volta de um milhao delas e os tempos e as percentagens de alinhamento para o

Bowtie foram:

• Tempo de Alinhamento - 17 segundos

• Percentagem de Alinhamento - 88.50%

E para o TAPyR foram:

• Tempo de Alinhamento - 16 segundos

• Percentagem de Alinhamento - 90.20%

E de notar que o TAPyR foi executado para alinhar reads Illumina com o tamanho mınimo

para uma performance aceitavel. Talvez nao seja inapropriado extrapolar que com reads 454 e

de maior comprimento, a sua performance seria ainda melhor.

A baixa percentagem de alinhamento de ambas as ferramentas deve-se ao facto de as reads

provirem de uma experiencia RNA-Seq que sera analisada no Capıtulo 5.

Relativamente ao alinhamento do transcritoma, como a grande maioria dos dados RNA-Seq

disponıveis sao Illumina e dado que o Bowtie e, de entre os demais algoritmos de alinhamento

exacto, dos mais rapidos e eficientes, este rapidamente se tornou uma primeira opcao para os

investigadores. No entanto, dada a especificidade do problema de alinhamento do transcritoma

e dada a filosofia do alinhamento do TAPyR, e de esperar que este tenha um papel importante

a desempenhar com dados RNA-Seq gerados pela Roche/454 ou ate por Illumina ou outras

plataformas que produzam reads iguais ou superiores a 100bp.

3.2 Metodos de Identificacao de Pontos de Juncao

O fenomeno de splicing de uma sequencia de RNA e uma etapa de pos-transcricao muito im-

portante, em que os introes sao removidos do pre-mRNA, ficando apenas os exoes que sao

concatenados formando o mRNA maduro. Atraves do splicing alternativo e possıvel produ-

zir diferentes transcritos a partir da mesma sequencia de DNA. Por vezes existem fenomenos

Page 46: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

46 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.8: Exemplo de um splice site canonico.

anormais de splicing que estao associados a muitas doencas humanas. Por esta razao, torna-se

importante para a Biologia e para a Medicina desenvolver tecnicas que identifiquem e quanti-

fiquem eventos de splicing, ou seja, tecnicas de identificacao de pontos de juncao entre regioes

classificadas como exoes e regioes classificadas como introes.

Existem dois tipos de sıtios onde o splicing ocorre (splice sites). Os splice sites canonicos que

sao caracterizados pelos dinucleotidos “GT-AG” (Figura 3.9), e os splice sites nao canonicos.

Nesta ultima categoria conhecem-se ja alguns pontos de juncao que podem ocorrer sendo os

pares “GC-AG” e “AT-AC” os mais frequentes. Num estudo feito em genomas de mamıferos

por Burset [30], conclui-se que, no geral, 99.24% dos splice sites seriam canonicos (par “GT-

AG”) e entre os nao canonicos a distribuicao seria, 0.69% para o par “GC-AG”, 0.05% para o

par “AT-AC” e apenas 0.02% consistiriam em splice sites com outras caracterısticas.

Nos dados obtidos atraves do RNA-Seq, esta situacao reflecte-se quando uma read contem

partes de mais do que um exao, sendo necessario identificar que partes da read pertencem a

que exao, identificando as fronteiras entre os exoes e os introes. Nao existe um metodo padrao

para a identificacao destas fronteiras, nem um conjunto de factos concretos que nos permitam

identificar todos estes pontos no genoma. Esta falta de conhecimento sobre os verdadeiros

modelos biologicos, dificulta em muito o desenvolvimento de uma ferramenta com uma eficacia

inquestionavel. No entanto, existe um conjunto de metodos que tentam identificar estes limites

de transcricao da forma mais fiel possıvel.

Alguns baseiam-se na identificacao dos pares de bases, ou os chamados terminais de di-

nucleotidos, que se sabem ser caracterısticos daquelas zonas e que foram mencionados acima,

enquanto que outros tem como base scores resultantes de um dado alinhamento e ainda exis-

tem metodos que utilizam uma combinacao destes dois ultimos. Veremos, de seguida, quais as

Page 47: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.2. METODOS DE IDENTIFICACAO DE PONTOS DE JUNCAO 47

Figura 3.9: Pipeline do QPalma [31].

ferramentas que utilizam estes metodos.

3.2.1 QPalma

Um dos metodos pioneiros nesta area foi explorado pelo algoritmo QPalma [31] (Figura 3.10),

que tenta identificar os pontos de juncao atraves de aprendizagem automatica, treinando um

classificador de pontos de juncao ja conhecidos do genoma de referencia. Este metodo depende

da disponibilidade de pontos de juncao ja anotados e, quando encontra potenciais novos pontos

de juncao, estes sao forcosamente parecidos com os do conjunto de treino, podendo falhar na

identificacao de pontos que tenham caracterısticas diferentes, nao sendo um metodo muito fiavel.

Outro factor que fez este algoritmo nao ter muito sucesso foi o facto de utilizar o metodo

Vmatch [32] como algoritmo de alinhamento inicial. Apesar de ser flexivel e rapido, nao foi

desenhado para mapear pequenas reads em sistemas computacionais com menor memoria, sendo

substancialmente mais lento do que outros algoritmos de mapeamento de reads.

3.2.2 SpliceMap

Outra abordagem e a explorada pelo SpliceMap [58] (Figura 3.11), que e um algoritmo que nao

depende de anotacao existente de zonas exonicas. Este metodo comeca por assumir que uma

read que se estende por um ponto de juncao, ou seja, que cobre parte de dois exoes, deve ter

uma correspondencia directa, no genoma, de comprimento igual ou superior a metade do seu.

Por norma, as reads sao divididas de forma a terem no maximo 50bp. Tal correspondencia faz

com que essa parte sirva de seed para identificar regioes de splicing. O SpliceMap e composto

por tres etapas principais: Mapeamento de half-reads (as reads sao divididas em fragmentos

com metade do seu tamanho); Seleccao de seeds; Procura de pontos de juncao. Tal como a

maioria dos metodos ate agora publicados, comeca por tentar alinhar as half-reads contra um

Page 48: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

48 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

Figura 3.10: Pipeline do SpliceMap [58].

genoma de referencia usando o Bowtie [50], Eland ou o SeqMap [45] (Mapeamento de half-reads).

Numa segunda fase, as half-reads mapeadas sao unidas para determinar a localizacao de exoes e

possıveis juncoes (Seleccao de seeds). As half-reads nao mapeadas sao usadas para procurar por

pontos de juncao. Esta procura e feita, a semelhanca do metodo anterior, atraves da procura

de sıtios canonicos caracterizados apenas pelo par “GT-AG”.

3.2.3 TopHat

Um outro metodo surgiu com o desenvolvimento do algoritmo TopHat [33] (Figura 3.12),

baseando-se em cobertura de ilhas. O TopHat encontra pontos de juncao sem uma anotacao

de referencia, ou seja, sem conhecimento previo de fronteiras existentes. Comeca por mapear

as reads de RNA-Seq no genoma, identificando possıveis exoes pois algumas reads alinham de

forma contıgua no genoma. Apos este mapeamento inicial, o TopHat constroi uma base de dados

de possıveis pontos de juncao, mapeando de seguida as reads contra estes, confirmando-os.

A base de dados e gerada em funcao de tres abordagens. A primeira consiste em empa-

relhamentos de cobertura de ilhas, que sao regioes distintas onde as reads foram alinhadas no

mapeamento inicial. Como normalmente o splicing acontece entre ilhas vizinhas, o TopHat tenta

arranjar maneira de as juntar com um intrao. A segunda abordagem e apenas usada quando o

TopHat recebe paired-end reads como dados de entrada. Quando as reads pertencentes ao mesmo

par vem de diferentes exoes de um transcrito, por norma serao mapeadas a uma distancia con-

sideravel nas coordenadas espaciais do genoma. Quando isto acontece, o TopHat tenta “fechar”

este espacamento, procurando por subsequencias do intervalo genomico entre pares cujo com-

Page 49: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

3.2. METODOS DE IDENTIFICACAO DE PONTOS DE JUNCAO 49

Figura 3.11: Pipeline do TopHat [33].

Figura 3.12: Pipeline do MapSplice [59].

primento total seja mais ou menos igual a distancia esperada entre pares. Os “introes” nesta

subsequencia sao adicionados a base de dados. A terceira, e mais forte, identificacao de um ponto

de juncao acontece quando dois segmentos da mesma read sao mapeadas longe uma da outra,

ou quando um segmento interno falha o mapeamento. Com long reads (com mais de 75bp),

introes do tipo “GT-AG”, “GC-AG” e “AT-AC” podem ser encontrados ab initio. Com reads

mais pequenas, o TopHat apenas reporta alinhamentos apenas contra introes “GT-AG”. Estes

alinhamentos sao feitos atraves de uma abordagem de alinhamento seed-and-extend, explicado

na seccao anterior.

Page 50: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

50 CAPITULO 3. ALINHAMENTO DE TRANSCRITOMAS

3.2.4 MapSplice

Existe ainda outra abordagem que surgiu com o MapSplice [59] (Figura 3.13). Enquanto que o

TopHat [33] e o SpliceMap [58] precisam de uma biblioteca de pontos de juncao ou se baseiam

em caracterısticas empıricas das fronteiras exao/intrao (como os terminais de dinucleotidos de

introes “GT-AG”), o MapSplice detecta pontos de juncao sem depender disso. Isto permite

que o MapSplice consiga detectar pontos de juncao nao canonicos. A pipeline do MapSplice

e constituıda por duas fases: alinhamento de segmentos e inferencia de pontos de juncao. Na

primeira fase existem quatro passos. No primeiro, as reads sao divididas em segmentos de 20-

25bp (para uma read de tamanhom, os segmentos terao tamanho k com k ≤ m/2). Os segmentos

que compoem cada read formam uma tag T e cada segmento e marcado como t1, t2, ..., tn, com

n = bm/kc. No segundo passo e feito um alinhamento exonico com ferramentas como o BWA [51]

ou o Bowtie [50] determinando para cada ti de T um valor ni que corresponde ao numero de

alinhamentos exonicos possıveis. De seguida, sao identificados os ti cujo ni = 0, isto e, as tags que

nao alinharam. Para obter o posicionamento destas tags e necessario procurar pelo alinhamento

de ti−1 e ti+1 e aı surgem duas situacoes principais. Se ti−1 e ti+1 tem um alinhamento exonico,

entao e calculado o melhor posicionamento para ti com base na distancia de Hamming. Se

houverem varias posicoes com o score mınimo, entao sao guardados os multiplos alinhamentos

para ti. Se apenas ti−1 ou ti+1 tem alinhamentos exonicos, entao a localizacao de ti sera baseada

na procura de sufixos h-mer no limite inferior ou superior de ti, respectivamente. Por fim, os

segmentos sao montados (os que alinham de forma contıgua) de todas as formas possıveis, dados

os multiplos alinhamentos possıveis, e e calculado um score de mismatches para cada montagem.

Terminada esta fase passa-se para a inferencia de pontos de juncao em que primeiro calcula-se

a qualidade do ponto de juncao segundo um determinado score, escolhendo-se por fim o melhor

alinhamento das tags atraves da combinacao desse score com o que foi calculado anteriormente.

Page 51: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4Novo M�etodo de Alinhamento de Transcritomas

Nos capıtulos anteriores foram descritos, com algum detalhe, todos os conceitos necessarios a

compreensao do problema do alinhamento do transcritoma, tal como alguns metodos ja existen-

tes que o tentam resolver.

Todas as solucoes analisadas ate ao momento, tem em comum uma especie de esqueleto em

forma de pipeline computacional. Isto e, dado um conjunto de reads, comecam por alinhar as

reads que tem correspondencia directa na sequencia de referencia, utilizando um dos algoritmos

de alinhamento directo como o Bowtie ou o BWA, guardando as que nao conseguiram ser

alinhadas. Nesta fase, e consoante a abordagem, sao definidas algumas heurısticas/estrategias,

para fazer o alinhamento dessas reads (Seccao 3.2).

O conceito de pipeline computacional para alinhamento de transcritomas, no contexto dos

algoritmos desenvolvidos ate agora como o MapSplice ou o TopHat, seria extremamente atrac-

tivo e bem aproveitado se fosse tao flexıvel como era suposto ser, permitindo que o utilizador

escolhesse qual o algoritmo de alinhamento directo que deseja utilizar. Alias, varias destas pi-

pelines, nas suas publicacoes oficiais, dizem permitir isso mesmo, mas a realidade nao e assim

tao linear.

Um dos objectivos iniciais deste trabalho consistia em adaptar o algoritmo TAPyR, por todas

as razoes discutidas na Seccao 3.1.3, a uma destas pipelines de forma a observar ate que ponto o

desempenho poderia melhorar e, posteriormente, desenvolver heurısticas que permitissem tirar

o melhor partido possıvel das caracterısticas do TAPyR. Tal nao foi possıvel e, na Seccao 4.1,

encontra-se um estudo sobre o funcionamento dessas pipelines, as suas limitacoes e de que forma

poderiam ser melhoradas.

Apos uma primeira tentativa, sem sucesso, de colocar o TAPyR a alinhar transcritomas

inserindo-o numa pipeline destinada a tal, a opcao seguinte foi de o tornar num metodo que,

mediante a opcao do utilizador, pudesse alinhar genomas e/ou transcritomas. Aqui abandonou-

se o conceito de pipeline e criou-se um novo metodo inovador e flexıvel, cuja estrutura e metodo

de funcionamento se encontram explicados na Seccao 4.2.

51

Page 52: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

52 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

4.1 Problemas em Relacao as Pipelines Existentes

Do ponto de vista computacional, quando se pretende criar software que ira conter varios blocos

de execucao distintos em que os resultados de saıda de um servem como dados de entrada de

outro, opta-se por construir uma pipeline de forma a modularizar o problema.

No caso das pipelines associadas ao alinhamento de transcritomas, os modulos, na sua maio-

ria, consistem no seguinte: um primeiro para o alinhamento directo; um para uma possıvel fase

intermedia em que existe um tratamento dos dados obtidos atraves do modulo anterior; outro

para o alinhamento das reads, tratadas ou nao, que ficaram por alinhar.

Quando se tentou integrar o TAPyR na pipeline do MapSplice, a realidade desta mostrou-se

um pouco diferente do esperado. O objectivo era substituir o algoritmo de alinhamento directo

desta pipeline e era expectavel que tal fosse possıvel. No entanto, apesar de na publicacao oficial

do MapSplice constar que numa fase inicial se pode utilizar qualquer algoritmo de alinhamento

directo desde que este respeite determinados criterios [59], quando se analisou e se tentou mudar

o seu codigo para testar essa flexibilidade, o resultado nao foi favoravel.

Isto vai de encontro, em parte, aos desafios para a Bioinformatica descritos na Seccao 2.4.

Um dos problemas apontados foi nao haver um formato padrao de ficheiros de dados de entrada

e saıda, pois cada software de alinhamento manipula os ficheiros da forma mais conveniente para

o seu funcionamento. Por exemplo, o Bowtie requer que definamos nome e directoria para o

ficheiro das reads nao alinhadas enquanto que o TAPyR guarda esse ficheiro na pasta onde estas

se encontram e cujo nome e o original procedido de ’-unaligned’. Mesmo no ficheiro de saıda

de dados, o que contem os alinhamentos, difere de um algoritmo para outro. Enquanto que o

TAPyR imprime os dados em formato SAM [60], um dos formatos que pode ser considerado

padrao e dos mais utilizados, o Bowtie imprime os resultados num formato proprio [50] permi-

tindo, porem, que sejam escritos em formato SAM sendo, para tal, necessario ter as SAMtools

instaladas [60] e colocar essa opcao como argumento de entrada a cada execucao.

Estes pormenores, apesar de parecerem irrelevantes para o resultado final, acabam por ser

determinantes no desenho de uma pipeline. No caso do MapSplice, o Bowtie esta de tal ma-

neira embutido na sua arquitectura que se mostrou bastante complicado fazer qualquer tipo de

modificacao que envolvesse a sua substituicao. O MapSplice e basicamente composto por uma

interface, desenvolvida em Python, que atraves de chamadas ao sistema executa varios modulos,

escritos em C++. Dada esta modularidade era entao esperado que fosse facil fazer alteracoes

a sua estrutura o que nao e, de todo, verdade. As varias camadas foram preparadas apenas

para os ficheiros do Bowtie nao havendo um modulo de abstracao para possıvel uniformizacao

Page 53: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4.2. CRIACAO DE UMA NOVA ABORDAGEM 53

de formatos. Por todas estas razoes, a insercao do TAPyR na pipeline do MapSplice nao foi

bem sucedida.

Feita esta analise, surge a conclusao a que ja se chegou na Seccao 2.4. E importante que os

algoritmos de sequenciacao adotpem formatos e extensoes padrao, deixando em aberto possıveis

opcoes, na forma de argumentos de entrada da apliacacao, para o utilizador que pretenda outros

formatos que nao os devolvidos.

4.2 Criacao de Uma Nova Abordagem

Com a evolucao das tecnologias NGS e das ferramentas que permitem lidar com os dados que

geram, tornou-se ainda mais urgente tirar partido delas para se obter a maxima informacao

biologica das especies sequenciadas. Seja em relacao a mamıferos, plantas ou bacterias, os varios

RNAs presentes nos genomas tem efeito imediato nas proteınas a que dao origem. Muitas vezes

ocorrem mutacoes que mudam as propriedades dos organismos levando a que estes tenham

comportamentos inesperados. Todos estes factos fazem com que seja fundamental existirem

ferramentas que possam servir como base para a identificacao destes fenomenos. Isso implica

que possam suportar grandes volumes de dados, como por exemplo o genoma humano, e ainda

extrair informacao de forma rapida e economica.

Dados os varios sequenciadores NGS que geram dados com diferentes caracterısticas, quando

se desenvolve uma aplicacao para este tipo de problematica tende-se a construir uma arquitectura

vocacionada para lidar com um tipo especıfico de dados. E muito pouco provavel que um mesmo

algoritmo consiga alinhar de forma eficiente reads longas e outras mais pequenas. Na Seccao

3.1.3 acabou por se chegar a essa mesma conclusao quando se comparou o Bowtie e o TAPyR -

estes acabavam por se complementar no que diz respeito a sua eficiencia em relacao ao tamanho

das reads que alinham.

Para o alinhamento de transcritomas, actualmente existem maioriamente ferramentes desen-

volvidas para lidar com as short reads da tecnologia Illumina. Como tal, e porque o TAPyR e

um dos poucos algoritmos preparados para lidar com reads longas, como as da plataforma 454,

foi de todo o interesse tentar com que este tivesse um papel a desempenhar com dados RNA-Seq.

O TAPyR e um dos algoritmos de alinhamento mais rapidos e que ocupa menos memoria

quando comparado com outros do mesmo tipo [56]. Como tal, e dado que a sua adaptacao a

pipelines de alinhamento de transcritomas nao foi possıvel, tornou-se oportuno tirar partido das

suas caracterısticas para se criar um novo modelo para um alinhamento rapido, eficaz e credıvel

Page 54: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

54 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

de transcritomas.

Todas as abordagens ate agora seguidas pelas plataformas revistas na Seccao 3.2, envolvem

o encadeamento e uma ordem de acontecimentos mais ou menos rıgidos: primeiro faz-se um

alinhamento exonico e depois tentam-se encaixar as reads que nao foram alinhadas mediante

uma estrategia e/ou um conjunto de heurısticas estudado.

Com a analise do funcionamento do TAPyR surgiu uma questao que, dependendo da res-

posta, poderia servir como impulso para a construcao de uma nova abordagem para o alinha-

mento dos fragmentos de cDNA. Como em qualquer outro algoritmo de alinhamento, quando

todos os criterios para alinhar uma read sao esgotados e, mesmo assim, nao foi possıvel encontrar

a sua correspondencia na referencia, esta e descartada ficando por alinhar. E o conjunto destas

reads nao alinhadas que algumas abordagens usam, mais tarde, para posterior alinhamento e

pesquisa de pontos de juncao. Porque nao, quando se esta para descartar uma read, verificar

nesse momento se esta e resultado do fenomeno de splicing?

Dada a estrategia baseada em seeds do TAPyR, tal mostrou-se possıvel e vantajoso. Nas

proximas seccoes serao apresentadas as propriedades de desenho deste algoritmo que levaram

a sua adaptacao para o alinhamento de dados RNA-Seq, como e que tal foi implementado, as

vantagens que daı se podem obter e as suas limitacoes.

4.2.1 Adaptacao do TAPyR ao Alinhamento de Transcritomas

Varias ferramentas de alinhamento tem sido desenvolvidas para a montagem de pequenas re-

ads. No entanto, a quantidade massiva de dados gerada pelas tecnologias NGS e a necessidade

de alinhar reads contra genomas de referencia cada vez maiores, limitam a aplicabilidade de

algumas.

Uma forma de acelerar o alinhamento das reads baseia-se na utilizacao de tecnicas de in-

dexacao aproximadas (Seccao 3.1.3). Isto quer dizer que toda a sequencia de referencia e pes-

quisada enquanto se aplica um algoritmo de programacao dinamica. Algoritmos de alinhamento

indexados, que pre-processam o genoma de referencia numa estrutura de dados em forma de

ındice que depois pode ser pesquisada, correspondem a abordagens mais eficientes.

O TAPyR e um desses algoritmos e usa um ındice comprimido, o FM-Index (Seccao 3.2.1),

indexando o genoma de referencia para acelerar o alinhamento. Tal como foi dito anteriormente,

o TAPyR usa uma heurıstica baseada em multiplas seeds para melhor fixar os respectivos can-

didatos a alinhamento. Tambem como ja foi visto, esta heurıstica tem a vantagem de dispensar

a necessidade de determinar antecipadamente o numero e o comprimento das seeds, recorrendo

Page 55: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4.2. CRIACAO DE UMA NOVA ABORDAGEM 55

Figura 4.1: Seleccao de seeds do TAPyR.

a assumpcao que os alinhamentos optimos sao, na sua maioria, compostos por grandes blocos

de correspondencias exactas espacadas por pequenas, possıvelmente com algumas gaps, regioes

divergentes. Numa ultima fase e usada programcao dinamica para finalizar o alinhamento das

seeds candidatas com multiplos alinhamentos, considerando restricoes definidas pelo utilizador.

Utilizando todas as vantagens deste modelo computacional, a adaptacao do TAPyR para

o alinhamento do transcritoma consistiu na criacao de um novo modulo que, em momento

oportuno, e executado, identificando se existe ou nao evidencia de splicing na read a ser alinhada.

Este momento oportuno depende de dois factores: o utilizador ter definido que estamos em modo

RNA atraves de um argumento aquando da execucao do TAPyR e da read em questao nao ter

conseguido ser alinhada de forma directa no genoma de referencia. Enquanto que todos os

metodos computacionais que vimos na Seccao 3.2 acabam por dividir as reads em dois grupos,

alinhadas e nao alinhadas, tendo que analisar uma segunda vez o segundo conjunto de reads, o

TAPyR faz tudo de forma sequencial.

O modulo desenvolvido para a identificacao de splicing identifica splice sites caonicos e nao

canonicos. Isto e, procura pelo par canonico “GT-AG” e pelos pares nao canonicos “GC-AG” e

“AT-AC”. De seguida, encontra-se a implementacao descrita de forma mais detalhada.

Implementacao

Para ser possıvel colocar o TAPyR a alinhar dados de RNA de forma sequencial, algumas

adaptacoes tiveram que ser feitas ao algoritmo inicial. Essas alteracoes vao estar indicadas com

o sımbolo “=⇒”.

O processamento das reads decorre da seguinte maneira: seja r = r[1]...r[m] a read a alinhar.

O procedimento comeca na primeira posicao da read e usa o ındice para encontrar o maior prefixo

da read com ocorrencia exacta no genoma de referencia, r[1...l] = r[1]...r[l]. Na pratica, obtem-

se o equivalente ao intervalo da BWT que contem as posicoes no genoma de referencia g em

que r[1...l] ocorre. Como r[1...l + 1] nao existe no genoma de referencia, define-se r[1...l] como

Page 56: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

56 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

Figura 4.2: Formacao de chains do TAPyR.

a primeira seed, salta-se a posicao r[l + 1] na read e comeca-se a construcao de uma nova seed

na posicao r[l + 2]. Este processo repete-se ate ter sido atingido o fim da read r[m]. Na Figura

4.1 esta ilustrada a construcao das seeds para a read de exemplo.

Depois deste processamento feito vao-se buscar todas as ocorrencias, isto e, todas as posicoes

na sequencia de referencia de todas as seeds, procedendo com a ordenacao por posicao das

mesmas. Daqui surge uma lista ordenada de ocorrencias que e logo de seguida analisada com o

objectivo de identificar as seeds que aparecem na mesma ordem e com distancias semelhantes

na read e no genoma de referencia.

=⇒ Se as reads forem de transcritoma, quando as seeds nao tem uma distancia parecida na

read e no genoma isto pode significar que existe um intrao a separa-las, ou seja, que pode ter

ocorrido splicing naquela read. Essa distancia e analisada e se estiver dentro dos limites mınimo

e maximo, valores default ou definidos pelo utilizador, o modulo de identificacao de pontos de

juncao e chamado.

Os conjuntos de ocorrencias de seeds que satisfacam essas condicoes formam chains, isto e,

possıveis candidatos de ocorrencias da read no genoma (Figura 4.2). Se o alinhamento for de

DNA, sao seleccionadas as chains cuja soma dos comprimentos das seeds que as constituem e a

maior, e faz-se programacao dinamica nos espacos entre as seeds para se identificar o numero de

erros. Se esse numero de erros, respectivo a uma dada chain, for menor que o numero maximo

de erros, a sua posicao no genoma e escrita no ficheiro SAM de output.

=⇒ Se o alinhamento for de RNA e tiver sido identificado o fenomeno de splicing pelo novo

modulo, nao se faz programacao dinamica e indica-se logo o intrao no ficheiro SAM com o codigo

”N”e o tamanho do espaco entre essas seeds.

Uma das propriedades desta implementacao e que as chains nao precisam de conter todas

as seeds, podem ter so algumas. Por exemplo, a read pode ter dado origem a tres seeds, mas

Page 57: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4.2. CRIACAO DE UMA NOVA ABORDAGEM 57

Figura 4.3: Fluxograma do TAPyR.

a chain so conter a primeira e a terceira seeds, sendo talvez necessario realizar programacao

dinanima no espaco onde deveria estar a segunda seed.

=⇒No alinhamento de RNA, quando um intrao aparece antes ou depois de uma seed em falta,

nao se consegue alinhar essa read pois seria necessario fazer programacao dinamica de ambos os

extremos para se ver em que lado e que os caracteres da read iam encaixar. Se uma read nao

tiver nenhum erro, da origem a apenas uma seed e por isso havera apenas uma chain por cada

ocorrencia no genoma.

Este e o funcionamento global do algoritmo TAPyR tanto para o alinhamento de DNA como

de RNA (Figura 4.3). Segue-se a descricao do modulo criado para a identificacao de pontos de

juncao.

Modulo de Identificacao de Splicing

O modulo de identificacao de splicing recebe seis argumentos: o genoma (genome), a read

(read), a posicao onde comeca o gap na read (gapStartInRead), a posicao onde termina o gap

Page 58: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

58 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

Figura 4.4: Caso 1 gapSizeInRead = 0 e Caso 2 gapSizeInRead > 0.

na read (gapEndInRead), a posicao onde tem inıcio o gap no genoma (gapStartInGenome) e a

posicao onde termina o gap no genoma (gapEndInGenome). Recebidos estes argumentos sao

calculados os tamanhos dos gaps tanto na read como no genoma, ou seja, o gapSizeInRead e

o gapSizeInGenome. Quando este modulo e chamado e necessario ter em atencao dois casos

(Figura 4.4):

• Caso 1 - gapSizeInRead = 0.

• Caso 2 - gapSizeInRead > 0.

No primeiro caso, o algoritmo vai apenas verificar se nas posicoes iniciais e finais do gap

no genoma contem os sinais de splicing considerados. Se algum desses pares estiver presente e

porque existe evidencia de splicing e tal e reportado.

O segundo caso nao e assim tao simples. Quando gapSizeInRead > 0, isto significa que

houve algum pedaco da read que nao foi alinhado e por isso e necessario saber se encaixa em

algum dos lados do genoma. Seja, g = gapStartInGenome e r = gapStartInRead, o empare-

lhamento e feito atraves da comparacao directa, genome[g] == read[r], ate gapSizeInRead = 0

ou genome[g] 6= read[r].

Caso se verifique a segunda condicao e gapSizeInRead > 0, tenta-se alinhar a partir do fim

da gap, ou seja, g = gapStartEndGenome e r = gapStartEndRead, fazendo-se o emparelha-

Page 59: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4.2. CRIACAO DE UMA NOVA ABORDAGEM 59

Figura 4.5: Vizinhancas, no genoma de referencia, considerada para a procura dos pontos dejuncao.

mento genome[g] == read[r] ate gapSizeInRead = 0 ou genome[g] 6= read[r].

Acabado o alinhamento procuram-se os sinais de splicing e se encontrados, e reportada a

evidencia de splicing.

Quando estes dois casos falham, um ultimo teste e feito. Dado que o TAPyR cria as seeds

pesquisando a read no ındice da referencia por ordem inversa, da direita para a esquerda, pode

ocorrer a situacao em que a segunda seed dessa read contenha caracteres que poderiam fazer

parte da primeira seed. Isto e, os primeiros caracteres da segunda seed tem correspondencia

no genoma em dois locais: no fim da primeira seed e onde a segunda seed encaixa. Conse-

quentemente, apos a analise de varias ocorrencias deste caso, foi verificado que se essa parte,

comum aos dois locais no genoma, estivesse alinhada logo apos a primeira seed, seria possıvel

identificar evidencias de splicing nessa read. Para se resolver esta questao, apos os dois casos

acima mencionados terem falhado, o algoritmo tenta alinhar no genoma de referencia, logo apos

a primeira seed, correspondencias directas dos caracteres da segunda seed. Quando esse alinha-

mento acaba, caso hajam essas ocorrencias, procuram-se os sinais de splicing e se encontrados

reporta a evidencia de splicing.

Em qualquer uma das situacoes acima descritas, sempre que e chamada a funcao de procura

de pontos de juncao sao considerados tres casos (Figura 4.5).

Seja S = gapStartInGenome e E = gapEndInGenome, os pontos de juncao podem

encontrar-se nas seguintes posicoes:

• Caso 1 - genome[S, S + 1] && genome[E − 1, E]

• Caso 2 - genome[S − 1, S] && genome[E − 2, E − 1]

• Caso 3 - genome[S + 1, S + 2] && genome[E,E + 1]

O Caso 1 e sempre o primeiro a ser verificado pois e o que tem maioritariamente ocorrencia.

Se a verificacao deste falhar, testam-se os outros dois casos. Esta consideracao e tida em conta

pois, se repararmos nos pares “GT-AG” e “GC - AG”, tanto o primeiro caracter do primeiro

Page 60: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

60 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

dinucleotido como o segundo caracter do segundo dinucleotido sao iguais. Isto, pode criar um

problema no caso de termos no genoma de referencia algo como [...GGTXXXXXXXXXAG...]

e a segunda seed tiver como primeiro caracter um “G”. Apesar de ser evidente que esta read vem

de dois exoes diferentes (os pontos de juncao estao presentes), o splicing nao seria identificado.

Isto estende-se para um caso geral, criando-se assim um possıvel vizinhanca, com apenas uma

posicao de folga, em que o sinal de splicing se pode encontrar. Esta vizinhanca justifica-se

porque quando a read e separada em seeds, de cada vez que o faz, salta uma posicao e esta tanto

pode ser uma correspondencia, uma insercao, uma remocao ou apenas um mismatch. Com esta

pequena folga cobrimos esses casos todos sem por em causa a qualidade do alinhamento.

4.2.2 Vantagens

As vantagens desta implementacao sao varias e determinantes para uma boa performance. A

grande primeira vantagem que, certamente, tera impacto no tempo que demora a executar, e

o facto de apenas ser feita uma unica passagem pelo conjunto de todas as reads em vez de ter

de passar uma segunda naquelas que nao foram alinhadas, o que acontece em todas as outras

abordagens para identificacao de splicing.

Um outro ponto a favor e que, tal como alguns dos algoritmos do estado da arte mais

competitivos, tambem nao depende de anotacoes ou bibliotecas referentes a pontos de juncao

ja existentes, nao existindo influencia de outros factores para os determinar. Identifica pontos

de juncao canonicos e nao canonico permitindo que novos limites de transcricao possam ser

identificados.

A forma como o problema foi estudado e implementado resultou numa abordagem simples,

mas na qual se reflectiu grande potencial. Estando a identificacao de pontos de juncao confinada

a um modulo que e chamado quando necessario, sem alterar o fluxo e a arquitectura principal do

TAPyR, fornece uma enorme flexibilidade se se pretender fazer modificacoes ao mesmo. Alterar

o modo como se identifica o splicing ou adicionar novas heurısticas requer a modificacao de um

unico ficheiro. Consequentemente, tiramos daqui outra vantagem que torna a aplicabilidade do

TAPyR em problemas de resequenciacao bastante atraente. O TAPyR, com este complemento,

torna-se numa das poucas ferramentas disponıveis que tanto alinha DNA como RNA, bastando

apenas que em caso de se querer alinhar RNA se indique isso na sua execucao.

Por fim, e porque e um aspecto bastante importante quando se desenvolve software, a in-

tegracao do modulo no TAPyR nao modifica a sua complexidade que ja de si era linear. No

TAPyR, a construcao do ındice e linear no tamanho da referencia; a procura no ındice e linear

Page 61: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

4.2. CRIACAO DE UMA NOVA ABORDAGEM 61

no tamanho das reads; o algoritmo de alinhamento, usando as seeds, e linear no tamanho das

reads. A parte do deteccao do splicing nao acrescenta nenhuma complexidade pois e so verifi-

car as distancias entre as seeds que o TAPyR ja descobriu antes. No pior caso, o modulo tem

complixidade O(n), em que n corresponde ao gapSizeInRead.

4.2.3 Limitacoes

Na Seccao 3.2, foram analisados os dois tipos de splicing, canonico e nao canonico. Foi visto

que 99.24% dos splice sites seriam canonicos (par “GT-AG”) e que entre os nao canonicos a

distribuicao seria, 0.69% para o par “GC-AG”, 0.05% para o par “AT-AC” e apenas 0.02%

consistiriam em splice sites com outras caracterısticas. Como tal, e porque so se identificam

estes tres pares, e possıvel que hajam eventos de splicing nao identificados.

Page 62: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

62 CAPITULO 4. NOVO METODO DE ALINHAMENTO DE TRANSCRITOMAS

Page 63: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

5ResultadosNo desenvolvimento de qualquer projecto de engenharia, os resultados tem sempre um papel

preponderante no seu sucesso ou insucesso. Neste trabalho, que consistiu no desenvolvimento

de uma ferramenta aplicacional para um problema especıfico da Biologia Molecular e Genetica,

nao foi diferente.

Os objectivos a nıvel computacional focaram-se em alguns pontos: a solucao ter de ser

eficiente, economica e preferencialmente portavel. Sao nestes tres pontos que existe um maior

foco de avaliacao. Dado o cariz sensıvel do objecto de estudo, a eficiencia e importante pois

esta-se a lidar com quantidades massivas de dados, tendo que que se conseguir lidar com eles, e

ainda extrair informacao correcta, com o menor esforco computacional possıvel. Quanto ao ser

uma solucao economica, diz respeito ao alocar a menor quantidade de recursos possıvel, ou seja,

pouco espaco de memoria e pouco tempo. Por fim, como qualquer outro programa, este deve

ser portavel e acessıvel, isto e, ser possıvel de o executar em qualquer sistema computacional.

A nıvel biologico, e importante obter resultados credıveis que possam ajudar a compreensao

do domınio do problema. Neste caso especıfico, a deteccao dos limites de transcricao revela-se

importantıssima para a identificacao de transcritos e consequentemente de eventos de splicing

alternativo que possam estar associados a doencas, entre outros que ja foram descritos anteri-

ormente.

Nas proximas seccoes encontram-se descriminados os elementos usados para testar esta nova

versao do TAPyR. Na Seccao 5.1 esta descrito o conjunto de dados biologicos utilizados; na

Seccao 5.2 qual o comportamento do TAPyR, a nıvel computacional; por fim, na Seccao 5.3

encontra-se a comparacao deste comportamento e dos resultados obtidos entre o TAPyR e o

MapSplice.

Os testes realizados foram executados num processador de 64 bits, um Intel Core i7 - 3620QM

2.3GHz, com 6GB de RAM.

63

Page 64: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

64 CAPITULO 5. RESULTADOS

5.1 Dados Utilizados

Sendo o TAPyR um algoritmo de alinhamento para reads longas (>= 100bp), faz sentido que

a sua nova versao seja testada com reads do mesmo tipo. Para facilitar a comparacao da

performance do TAPyR e para encontrar um balanco entre este e o MapSplice (ferramenta de

maior destaque de entre todas as do estado da arte [59]) decidiu-se utilizar o conjunto de dados

disponibilizado no site do mesmo.

O genoma de referencia usado corresponde ao cromossoma vinte do genoma humano, em

formato FASTA com cerca de 63.7MB, e o pacote de reads provem da tecnologia Illumina,

contendo cerca de 999991 reads de 100bp cada.

Apesar de o TAPyR ter uma melhor perfomance para reads da tecnologia 454 [56], tendo

as reads pelo menos 100bp, o seu comportamento e adequado e, assim sendo, este conjunto de

dados proporciona a possibilidade de uma comparacao directa entre a nova versao do TAPyR e

o MapSplice.

5.2 Performance do TAPyR

A performance do TAPyR foi avaliada nos seguintes criterios: espaco do ındice criado, numero

de reads alinhadas, cobertura, estatıstica de erros e tempo que demorou a alinha-las.

Os argumentos utilizados e o tamanho do ındice nos testes correspondem aos seguintes

valores:

• Espaco Ocupado pelo Indice = 70.2 MB

• Percentagem Mınima de Identidade = 80% e 90%

• Tamanho Mınimo de um Intrao = 50bp

• Tamanho Maximo de um Intrao = 500000bp

Os testes tiveram os seguintes resultados:

−→ Caso 1 - Percentagem mınima de identidade a 80% em modo DNA:

• Numero de Reads Alinhadas = 902006 de 999991 (90.201%)

• Tempo de Duracao do Alinhamento = 15 segundos (62718.954 reads/s)

• Estatıstica de Erros = 1 erro por cada 27bp

Page 65: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

5.2. PERFORMANCE DO TAPYR 65

Figura 5.1: Alinhamento entre as posicoes 275000 e 365000 do TAPyR em modo DNA e emmodo RNA.

−→ Caso 2 - Percentagem mınima de identidade a 80% em modo RNA:

• Numero de Reads Alinhadas = 996879 de 999991 (99.689%)

• Tempo de Duracao do Alinhamento = 12 segundos (80931.613 reads/s)

• Estatıstica de Erros = 1 erro por cada 116bp

−→ Caso 3 - Percentagem mınima de identidade a 90% em modo DNA:

• Numero de Reads Alinhadas = 745499 de 999991 (74.551%)

• Tempo de Duracao do Alinhamento = 16 segundos (61708.794 reads/s)

• Estatıstica de Erros = 1 erro por cada 93bp

−→ Caso 4 - Percentagem mınima de identidade a 90% em modo RNA:

• Numero de Reads Alinhadas = 989172 de 999991 (98.918%)

Page 66: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

66 CAPITULO 5. RESULTADOS

• Tempo de Duracao do Alinhamento = 12 segundos (80931.613 reads/s)

• Estatıstica de Erros = 1 erro por cada 133bp

Estes dados estatısticos sao fornecidos pelo TAPyR no fim de casa execucao. Apos uma

analise cuidadosa dos resultados, pode-se concluir que este novo modulo veio melhorar a sua

performance, principalmente no que toca a qualidade do alinhamento.

Mesmo havendo uma percentagem alta de alinhamento em modo DNA no Caso 1, consegue-

se observar que a qualidade do alinhamento pode estar comprometida, pois a quantidade de

erros admitidos foi bastante grande, com uma media de 1 erro por cada 27bp. Quando com a

mesma percentagem mınima de identidade alinhamos em modo RNA, Caso 2, observa-se que

para alem de a percentagem de alinhamento ter aumentado, o numero de erros processados foi

muito menor, cerca de 1 erro por cada 116bp.

A grande diferenca significativa de uma versao para outra, encontra-se quando aumentamos

a percentagem mınima de identidade. No Caso 3 obteve-se uma percentagem de alinhamento

bastante fraca e uma menor admissao de erros quando comparado com o Caso 1. No entanto,

no Caso 4 comparativamente com o Caso 2, a percentagem de alinhamento nao diminui muito

e ainda se admitiu menos erros.

Na Figura 5.1, pode-se observar um exemplo, numa regiao da sequencia de referencia, da

diferenca do numero de reads que o TAPyR alinha em modo DNA e em modo RNA. As imagens

foram geradas pelo TAPyR e a sequencia apresentada corresponde a regiao entre a posicao

275000 e a posicao 365000 da referencia. Na primeira imagem em que o TAPyR foi executado

em modo DNA, alinha apenas 992 reads naquela regiao e, na segunda imagem em que este foi

executado em modo RNA, alinha cerca de 1280 reads. Tambem estes dados foram adquiridos

pelo comando de visualizacao do TAPyR.

Apos uma observacao cuidadosa e comparativa das duas imagens, para alem do numero

de reads alinhadas ter aumentado consideravelmente, tambem se pode constatar que existem

regioes, circundadas a verde, onde houve um bom incremento de cobertura de reads ajudando

na definicoes de zonas exonicas.

Destes factos podemos concluir que o novo modulo do TAPyR traz-lhe uma nova capacidade

e flexibilidade de alinhar de forma eficiente nao so genomas, DNA, mas tambem transcritomas,

RNA. O numero de reads alinhadas de transcritoma e sem duvida muito bom, o seu tempo de

execucao notavel e, como se podera ver na proxima seccao, inigualavel.

Page 67: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

5.3. COMPARACAO DE RESULTADOS COM OUTROS MODELOS EXISTENTES 67

5.3 Comparacao de Resultados Com Outros Modelos Existentes

Dado o estado da arte e acessibilidade de outros algoritmos de alinhamento de transcritoma,

decidiu-se comparar o TAPyR com o mais competitivo a nıvel de percentagem de reads alinhadas

e de tempo de execucao - o MapSplice [59].

O MapSplice, ja descrito na Seccao 3.2.4, utiliza o Bowtie [50] numa primeira fase para fazer

o alinhamento directo das reads e so depois faz o tratamento das que nao foram alinhadas,

dividindo-as em fragmentos mais pequenos e tentando alinha-las novamente ou directamente ou

expandindo o seu alinhamento para mais do que um exao. Este processo e mais moroso que o

do TAPyR pois requer que o conjunto de reads leve uma segunda analise.

Para os mesmos dados referidos na seccao anterior, com um ındice a ocupar 72.1MB, a

performance do MapSplice foi:

• Numero de Reads Alinhadas = 985955 de 999991 (98.59%)

• Tempo de Duracao do Alinhamento = 2 minutos e 38 segundos

Como pode ser observado, apesar da percentagem de alinhamento estar proxima da do

TAPyR em modo RNA, o tempo de execucao deixa muito a desejar. Uma das possıveis causas

para esta melhoria, pode dever-se ao facto de o TAPyR so fazer uma passagem pelo conjunto

de reads e, quando executa o modulo de identificacao de splicing, nao precisa de fazer novos

calculos de distancias pois estas ja sao calculadas pelo algoritmo normal.

Tambem a forma como o TAPyR constroi as seeds simplifica em muito o alinhamento. Se

fizermos um paralelismo entre as seeds do TAPyR e as tags do MapSplice, pode-se observar que

enquanto as seeds sao construıdas com base num alinhamento directo na referencia, atraves do

ındice, o MapSplice apenas divide as reads em fragmentos mais pequenos, as tags, sem ter em

conta qualquer tipo de alinhamento, fazendo-o posteriormente.

Outra possıvel causa e o facto de o MapSplice nao recorrer a identificacao de splice sites,

mas recorrer antes a modelos estatısticos para identificar pontos de juncao, nao fazendo uma

abordagem tao directa ao problema. Ao quererem tambem eles criar uma nova abordagem

para o alinhamento de transcritomas, decidiram que nao se iriam basear em tipo algum de

conhecimento sobre zonas exonicas, utilizando apenas modelos estatısticos baseados em medidas

de cobertura e confianca para as zonas de alinhamento. Com isto ganharam mais sensibilidade

do que outras ferramentas do estado da arte, mas como se pode ver nesta comparacao, em

termos de desempenho acabam por pagar o seu preco.

Page 68: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

68 CAPITULO 5. RESULTADOS

O TAPyR tenta encontrar aqui um balanco entre o desempenho e a sensibilidade procurando

por sitios canonicos e nao canonicos. Mesmo estando limitado aos tres pares de dinucleotidos co-

nhecidos, o canonico e dois nao canonicos, viu-se anteriormente que, por exemplo, em mamıferos

apenas 0,02% dos eventos de splicing seriam identificados com outros sinais. Esta foi uma das

razoes pela qual se optou por esta abordagem de identificacao de pontos de juncao, encontrando

assim um equilıbrio para a sua performance.

Estes factos trazem um novo ımpeto ao alinhamento do transcritoma pois sera muito mais

rapido alinhar transcritomas mesmo em grandes genomas e/ou com uma grande quantidade de

reads.

Page 69: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

6Conclus~oesDesde o inıcio do desenvolvimento deste trabalho que a importancia da sequenciacao do trans-

critoma esteve bem presente. Gracas as tecnologias NGS e a evolucao das ferramentas computa-

cionais, essa sequenciacao tem vindo a evoluir bastante depressa. No entanto, ha sempre espaco

para uma melhoria no desempenho computacional.

Este trabalho tinha como objectivo conseguir isso mesmo. Apesar de ja exisitirem aplicacoes

para identificacao de pontos de juncao e, consequentemente, dos limites transcricionais, na sua

maioria ainda sao bastante lentas e nao conseguem alinhar uma parte das reads, seja directamente

ou por tentativa de encontrar evidencia de splicing.

O novo modulo de identificacao de splicing, permite ao TAPyR tornar-se uma ferramenta

competitiva para alinhar transcritomas. Com esta nova versao do TAPyR viemos entao quebrar

a ideia de que e necessario fazer uma divisao das reads, alinhadas e nao alinhadas directamente,

e que um so algoritmo, dependendo da escolha do utilizador, pode usa-lo para alinhar DNA

ou RNA. Do capıtulo anterior e facil de concluir que com esta nova abordagem, sequencial, e

tirando partido de todas as caracterısticas do proprio algoritmo, o TAPyR alinha pelo menos

tantas reads como os metodos mais competitivos, mas de forma ainda mais rapida.

Isto pode vir a ter um grande impacto quando se sequenciar transcritomas muito grandes e,

possivelmente, se vier a ser inserido em alguma especie de pipeline de montagem de transcritoma.

O balanco do projecto e positivo.

6.1 Trabalho Futuro

Alinhar um trancritoma e apenas um dos passos no grande universo que e a transcritomica.

Algumas melhorias podem vir a ser feitas para se conseguir medir a qualidade do alinhamento,

o que neste momento nao e feito. Uma possıvel abordagem podera ser usar a cobertura de uma

certa regiao para medir a certeza de ser uma zona de splicing ou nao. Outra opcao, no caso

de existir a anotacao do genoma de referencia, seria comparar o alinhamento e os pontos de

juncao identificados com essa anotacao, com o fim de se obter a percentagem de fidelidade do

69

Page 70: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

70 CAPITULO 6. CONCLUSOES

alinhamento.

A identificacao de pontos de juncao ainda so tem em consideracao os splice sites canonicos,

e dois pares dos splice sites nao canonicos. Para se poder identificar ainda mais eventos de

splicing, uma solucao seria colocar todos os pares nao canonicos que ja foram identificados como

fazendo parte daqueles 0.02% referidos na Seccao 3.2, ou aplicar um modelo estatıstico ao estilo

do que o MapSplice faz. Na primeira solucao, bastaria adicionar os pares as funcoes, no modulo,

que identificam os splice sites. A segunda solucao iria requerer a implementacao de uma nova

funcao a ser executada quando todos os testes anteriores para a identificacao do ponto de juncao

tivessem falhado.

Para alem de pequenos aperfeicoamentos ao modulo de identificacao de splicing, uma possi-

bilidade futura seria utilizar esta versatilidade do TAPyR para montar transcritomas. Apesar

de tambem nesta area ja existirem algumas pipelines de montagem de transcritoma que utilizam

algumas das ferramentas de alinhamento de transcritoma aqui referidas [61], ainda existe muito

espaco para evolucao em termos computacionais.

Sem duvida que esta e uma area fascinante e que tem bastante impacto ao nıvel da biologia

molecular e genetica. Dificilmente estara para breve a estagnacao das tentativas de melhoria

nestas areas.

Page 71: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

Bibliografia

[1] Wang Z, Gerstein M, Snyder M, RNA-Seq: a revolutionary tool for transcritomics. Nature

Review Genetics, vol.10, no.1, pp. 57-63, 2009

[2] Sanger FC, Nicklen S, Soulson AR, DNA sequencing with chain-terminating inhibitors. Pro-

ceedings of National Acadademy of Sciences of the United States of America, vol. 74, pp.

5463-5467, 1977

[3] Brown P, Botstein D, Exploring the new world of the genome with DNA microarrays. Nature

Genetics, vol. 21, pp. 33-37, 1999

[4] Watson JD, Crick FHC, A Structure for Deoxyribose Nucleic Acid. Nature, vol. 171, pp.

737-738, 1953

[5] Mardis ER, Next-generation DNA sequencing methods. Annual Review of Genomics and

Human Genetics, vol.9, pp. 387-402, 2008

[6] Shendure J, Ji H, Next-generation DNA sequencing. Nature Biotechnology, vol.26, no.10, pp.

1135-1145, 2008

[7] 454 Life Sciences, http://www.my454.com/, Dezembro 2011

[8] Illumina, http://www.illumina.com/, Dezembro 2011

[9] Dohm JC, Lottaz C, Borodina T, Himmelbauer, Substantial biases in ultra-short read data

sets from high-throughput DNA sequencing. Nucleic Acid Reasearch, vol.36, no.16, article

e105, 2008

[10] Harismendy O, Ng PC, Strausberg RL, et al., Evaluation of next generation sequencing

plataforms for population targeted sequecing studies. Genome Biology, vol.10, no.3, article

R32, 2009

[11] Hillier LW, Marth GT, Quinlan AR, et al., Whole-genome sequencing variant discovery in

C. elegans. Nature Methods, vol.5, no.2, pp. 183-188, 2008

71

Page 72: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

72 BIBLIOGRAFIA

[12] Applied Biosystems by Life Technologies, http://www.appliedbiosystems.com/, Dezembro

2011

[13] Niedringhaus TP, Milanova D, Kerby MB, Snyder MP, Barron AE, Landscape of Next-

Generation Sequencing Technologies. Analytical Chemistry, vol.82, no.12, pp.4327–4341,

2011

[14] Pushkarev D, Neff NF, Quake SR, Single-molecule sequencing of an individual human ge-

nome. Nat. Biotechnol, vol.27, no.9, pp.847-850, 2009

[15] Pacific Biosciences, http://www.pacificbiosciences.com/, Junho 2012

[16] Ion Torrent, http://www.iontorrent.com/, Junho 2012

[17] Oxford Nanopore, http://www.nanoporetech.com/, Junho 2012

[18] Adams MD, Kelley JM, Gocayne JD, Dubnick M, Polymeropoulos MH, Xiao H, Merril

CR, Wu A, Olde B, Moreno RF, Kerlavage AR, McCombie WR, Venter JC, Complementary

DNA sequencing: expressed sequence tags and human genome project. Science, vol. 252, pp.

1651-1656, 1991

[19] McPherson JD, Next-generation gap. Nature Methods, vol.6, no.11S, pp. S2-S5, 2009

[20] Wilhelm BT, Dynamic repertoire of a eucaryotic transcriptome surveyed at single-nucleotide

resolution. Nature, vol.453 pp. 1239-1243, 2008

[21] Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B, Mapping and quantifying mam-

malian transcriptomes by RNA-Seq. Nature Methods, vol.5 pp. 621-628, 2008

[22] Cloonan N, et al. Stem cell transcritpome profiling via massive-scale mRNA sequencing.

Nature Methods, vol.5 pp. 613-619, 2008

[23] Holt RA, Jones SJ, The new paradigm of flow cell sequencing. Genome Red, vol.18 pp.

839-846, 2008

[24] Hillier LW, et al. Whole-genome sequencing and variant discovery in C. elegans. Nature

Methods, vol.5 pp. 183-188, 2008

[25] Campbell PJ, et al. Identification of somatically acquired rearrangements in cancer using

genome-wide massively parallel paired-end sequencing. Nature Genet, vol.40 pp. 722-729,

2008

Page 73: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

BIBLIOGRAFIA 73

[26] Costa V, Angelini C, Italia de Feis, Ciccodiola A, Uncovering the Complexity of Trans-

criptomes with RNA-Seq. Journal of Biomedecine and Biotechonology, ArticleID 853916,

2010

[27] Denoeud F, Aury JM, Da Silva C, et al., Annotating genomes with massive-scale RNA

sequencing. Genome Biology, vol. 9, no. 12, article R175, 2008

[28] Yassoura M, Kaplana T, Fraser HB, et al., Ab initio construction of a eukaryotic trans-

criptome by massively parallel mRNA sequencing. Proceedings of the National Academy of

Sciences of the United States of America, vol. 106, no. 9, pp. 3264-3269, 2009

[29] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ, Basic local alignment search tool.

J Mol Biol, vol. 215, no. 3, pp. 403-410, 1990

[30] Burset M, Seledtsov I A, Solovyev V V, Analysis of canonical and non-canonical splice sites

in mammalian genomes. Bioinformatics vol. 24, pp. i174-i178, 2008

[31] De Bona F, Ossowski S, Schneeberger K, Ratsch1 G, Optimal spliced alignments of short

sequence reads. Nucleic Acids Res, vol. 28, no. 21, pp. 4364-4375, 2000

[32] Abouelhoda M, Kurtz S, Ohlebusch E, The enhanced suffix array and its applications to

genome analysis. Lecture Notes in Computer Science, vol. 2452, pp. 449-463, 2002

[33] Trapnell C, Patcher L, Salzberg SL, TopHat: discovering splice junctions with RNA-Seq.

Bioinformatics vol. 24, no. 9, pp. 1105-1111, 2009

[34] Smith T, Waterman M, Identification of Common Molecular Subsequences. Journal of Mo-

lecular Biology vol. 147, pp. 195-197, 1981

[35] Needleman S, Wunsch C, A general method applicable to the search for similarities in the

amino acid sequence of two proteins. Journal of Molecular Biology vol. 48, pp. 443-453, 1970

[36] Ma B, et al., PatternHunter: faster and more sensitive homology search. Bioinformatics,

vol. 18, pp. 440-445, 2002

[37] Ilie S., Efficient computation of spaced seeds. BMC Research Notes, vol. 5, no.123, 2012

[38] Pevzner P, Waterman M, Multiple filtration and approximate pattern matching. Algorith-

mica, vol. 13, pp. 135-154, 1995

[39] Lin H, Zhang Z, Zhang M, et al., ZOOM! Zillions of oligos mapped. Bioinformatics, vol. 24,

pp. 2431-2437, 2008

Page 74: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

74 BIBLIOGRAFIA

[40] Ondov B, Varadarajan A, Passalacqua K, Bergman N, Efficient mapping of ABI SOLiD

sequence data to a reference genome for functional genomic applications. Bioinformatics, vol.

24, pp. 2776-2777, 2008

[41] Li R, Li Y, Kristiansen K, Wang J, SOAP: short oligonucleotide alignment program. Bioin-

formatics, vol. 24, no. 5, pp. 713-714, 2008

[42] Homer1 N, Merriman B, Nelson SF, BFAST: An Alignment Tool for Large Scale Genome

Resequencing. PLoS ONE 4(11): e7767. doi:10.1371/ journal.pone.0007767, 2009

[43] Chen Y, Souaiaia T, Chen T, PerM: efficient mapping of short sequencing reads with peri-

odic full sensitive spaced seeds. Bioinformatics, vol. 25, pp. 2514-2521, 2009

[44] Smith A, Chung W, Hodges E, et al., Updates to the RMAP short-read mapping software.

Bioinformatics, vol. 25, pp. 2841-2842, 2009

[45] Jiang H, Wong W, SeqMap: mapping massive amount of oligonucleotides to the genome.

Bioinformatics, vol. 24, pp. 2395-2396, 2008

[46] Burrows M, Wheeler DJ, A block-shorting lossless data compression algorithm. Technical

report, Palo Alto, CA, Digital Equipment Corporation, vol. 124, 1994

[47] Ferragina P, Manzini G, Makinen V, Navarro G, Compressed representations of sequences

and full-text indexes. Transactions on Algorithms, TALG, vol. 3, no. 2, 2007

[48] Ferragina P, Manzini G, Makinen V, Navarro G, Compressed representations of sequences

and full-text indexes. Transactions on Algorithms, TALG, vol. 3, no. 2, 2007

Paolo Ferragina and Giovanni Manzini (2005). ”Indexing Compressed Text”. Journal of the

ACM (JACM), 52, 4 (Jul. 2005). p. 553

[49] Ukkonen E, On-line construction of suffix trees. Algorithmica, vol. 14, pp. 249-260, 1995

[50] Langmead B, Trapnell C, Pop M, Salzberg S, Ultrafast and memory-efficient alignment of

short DNA sequences to the human genome. Genome Biology, vol. 10, R25, 2009

[51] Li H, Durbin R, Fast and accurate short read alignment with Burrows-Wheeler transform.

Bioinformatics, vol. 25, pp. 1754?1760, 2009

[52] Weese D, Emde A, Rausch T, et al., RazerS - fast read mapping with sensitivity control.

Genome Res, vol. 19, pp. 1646-1654, 2009

Page 75: Modelos e M etodos para Alinhamento de Transcritoma€¦ · N~ao podia deixar de referir os leitores do meu blogue, Morrighan. T^em sido incans aveis nas suas mensagens de apoio,

BIBLIOGRAFIA 75

[53] Weiner P, Linear pattern matching algorithm. pp. 1-11, 1973

[54] Manber U, Myers GD, Emde A, Rausch T, et al., Suffix arrays: a new method for on-line

string searches. Genome SIAM Journal on Computing, vol. 22, pp. 935-948, 1993

[55] Lee SE, Park K, A new algorithm for constructing suffix arrays. Journal of Korea Informa-

tion Science Society (A), vol.24, no.7, pp. 697-704, 1997

[56] Fernandes F, et al., Efficient alignment of pyrosequencing reads for re-sequencing aplicati-

ons. Bioinformatics, vol. 12, 2011

[57] Li R, Yu C, Li Y, et al., SOAP2: an improved ultrafast tool for short read alignment.

Bioinformatics, vol. 25, pp. 1966-1967, 2009

[58] Au K, Jiang H, Lin L, Xing Y, Wong WH, Detection of splice junctions from paired-end

RNA-Seq data by SpliceMap. Nucleic Acids Res., vol. 28, pp. 4570-4578, 2010

[59] Wang K, et al., MapSplice: accurate mapping of RNA-Seq reads for splice junction disco-

very. Nucleic Acids Res., vol. 38, 2010

[60] Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin

R, The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, vol.25, pp.

2078-2079, 2009

[61] Martin JA, Wang Z, Next-generation transcriptome assembly. Nature Reviews, vol.12, pp.

671-682, 2011