Montagem de Genomas - Unespgenomics.fcav.unesp.br/Aulas/Aula5/mnt.pdf · resultado final da...

Post on 05-Jun-2020

4 views 0 download

Transcript of Montagem de Genomas - Unespgenomics.fcav.unesp.br/Aulas/Aula5/mnt.pdf · resultado final da...

Montagem de Genomas

Prof. Dr. Alessandro Varani UNESP - FCAV

Conceitos da Genômica

O que é um genoma ?

→ O conjunto de DNA que compõe um determinado (micro) organismo

- Cromossomos; - Organelas: Mitocôndria e Cloroplasto; - Plasmídeos; - Vírus (alguns são de RNA e não de DNA); - Bacteriófagos (fagos)

→ Essencialmente um conjunto de strings

- Usando as 4 letras do alfabeto de DNA (A,G,C,T)

Conceitos da Genômica

Tamanho de Genomas

→ A quantidade de DNA de um genoma haploide é designada de valor C.

→ O valor C é constante dentro de uma espécie, porém variável entre espécies

Escala de tamanho

- 1 Kb = 1,000bp; - 1 Mb = 1,000,000bp; - 1 Gb = 1,000,000,000bp

Tamanhos dos Genomas (procariotos)

http://www.sci.sdsu.edu/~smaloy/MicrobialGenetics/topics/chroms-genes-prots/genomes.html

Cópias do genoma

Leituras ou

”reads"

Montagem

Sequenciamento Processamento dos dados

Aula de hoje Como montar ?

→ Reconstruir a sequência do genoma, a partir

de abordagens computacionais

Como ?

→ Quais os problemas que podem ocorrer ?

Como solucioná-los ?

Objetivos

http://www.nature.com/nmeth/journal/v9/n4/full/nmeth.1935.html

Montagem de Genoma em uma figura (1)

Montagem de Genoma em uma figura (2)

Ideal Mundo Real

Leituras não ambíguas e em erros

Leituras ambíguas e pequenas e com com

problemas de qualidade ou erros

1. O princípio

Shotgun – Craig Venter (1995) 1995 - Haemophilus influenzae: 1,830,140 bp

1. O princípio

Shotgun – Craig Venter (1995) 1995 - Haemophilus influenzae: 1,830,140 bp

nebulizador sonicador

2. Apresentando os ”Vilões”

Ion torrent: 1 Gb em 2-4 horas (leitura ~200 bases)

Ion proton: 200 Gb em 2-4 horas

(leitura ~100 bases)

Illumina MiSeq: ~8 Gb em 24 horas (leitura 2x250 bases)

Sequenciadores de DNA de nova geração

2. Apresentando os ”Vilões”

- 454 GS FXL+ : 700Mb em 23h (leituras de até 1kb); - 454 Gs Jr: 35Mb em 10 horas (leituras ~ 400

bases);

- HiScan SQ: 18Gb em 8 dias e meio

(Leitura 2x 100bases)

Sequenciadores de DNA de nova geração

2. Apresentando os Vilões Sequenciadores de DNA de nova geração

Como centenas de leituras de 50 pb - 450 pb podem reconstituir um genoma de 5 Mb, 10 Mb, 60Mb ou 3Gb (ou

mais) ??

Porém, quanto maior a leitura melhor e mais fácil será o processo!

2. Apresentando o futuro ”Mocinho”

Sequenciadores de DNA leituras longas

Single Molecule, Real Time (SMRT) DNA Sequencing

Leitura do DNA 99,999% correta (?)

1/10 do custo !!!

Pacific Biociences – PacBio RS Tempo de corrida de 2 a 4 horas

Leituras com tamanho médio de 4.500 pb Leituras podem chegar até 12,500 pb !!!

~230 Mb por corrida

2. Apresentando o futuro ”Mocinho”

Sequenciadores de DNA leituras longas

3. O objetivo (princípio)

O inverso do picador de papel...

Genoma

Reconstituído

ou ”montado”

Montagem

Reads

(leituras)

O fluxo de todo esse processo atualmente

”In a nutshell”

shotgun montagem

Bioinformática Você !

- Qual o melhor algoritmo ?

- Quais as melhores abordagens de sequenciamento ? - Depois de montado o genoma, como poderemos

inferir se a montagem reflete realmente a biologia ?

Dentre outros problemas: regiões repetidas (duplicações, tandens), variação de GC%, poliploidia e

limitações técnicas das tecnologias.

Um dos mais complexos procedimentos computacionais na biologia.

Sequenciadores Leituras curtas

(~500bp)

O fluxo de todo esse processo

”In a nutshell”

montagem

Bioinformática Você !

Sequenciadores Leituras longas

(~15.000bp)

A promessa de um processo menos “custoso”

Em um futuro (presente?) não muito distante...

Sequenciadores Leituras curtas

(~500bp)

Formato FASTQ (o papel picado)

Formato FASTQ (o papel picado)

Como os reads (papel picado) podem ser sequenciados ?

Voltamos a falar lá na frente…

Trimagem (arrumando o papel picado)

→ Trimagem de qualidade:

- Baseado nos scores de qualidade;

→ Trimagem de ambiguidade:

- Remover NNs;

→ Remoção de adaptadores e/ou contaminantes;

→ Remoção de bases:

- Remove um número específicos de bases na posição 5’ ou 3’;

→ Trimagem por tamanho

- Remove reads um tamanho específico (menores que 50 pb)

Programas para Trimagem

→ Seqyclean (linha de comando)

Abordagem de Montagem de Genomas

(1) De novo

(2) Montagem usando uma referência

Montando um genoma (a analogia do ferro velho)...

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Filtragem

-Remoção de baixa

qualidade;

-Contaminantes.

Montando um genoma (a analogia do ferro velho)...

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)

O resultado da montagem esperado

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)

O resultado da montagem inesperado!

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

?

Montando um genoma (a analogia do ferro velho)

Abordagem comparativa – Procurando um Genoma de Referência

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)

Abordagem comparativa – Genoma de Referência

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)

Abordagem comparativa – Genoma Referência

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)

Os problemas de usar um Genoma Referência

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Nem sempre existe um genoma referência próximo e parecido ao seu.

E muitas vezes não fazemos idéia destas diferenças.

Essas diferenças vão influênciar na montagem por referência!

Referências Disponíveis

Montando um genoma (a analogia do ferro velho)

Os problemas de usar um Genoma Referência

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

?

referência

Montando um genoma (a analogia do ferro velho)

Em resumo, alguns princípios:

Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

1) Quanto menores forem as peças (reads

curtos/pequenos) mais complicado será o

processo;

2) Peças maiores facilitam o processo de

montagem;

3) Utilizar uma referência pode ajudar o

processo. Tem que ser muito parecida

(colinearidade, conteúdo gênico, repetições e

etc);

4) Um genoma de referência “distante” vai

certamente induzir a montagens erradas.

ATCGCGAATTCCGATTAGCAGGTACGTAGCTAGACGAGCTAGCTACCGATGCCGATC

Por que é um processo complicado ?

Não sabemos a posição de cada sequência (fragmento) do genoma!

?

Reads

actgcagtctgatgctgatcccatatgcttagacgatgctcagtagagatgac DNA

GAP

Contig

O que acontece durante a montagem ?

Descobrimos a posição de cada sequência (fragmento) do genoma

através da sobreposição, realizadas por um programa de computador

Termos Técnicos em Montagem

→ Read: Fragmento sequenciado, produto do laboratório e do sequenciador. É um arquivo texto, geralmente no formato FASTQ; → Contig/Consenso: Sequência contigua, formada pela sobreposição de um conjunto de reads (alinhamento semi-global – programa de computador para montagem) ; → Singlet: Read que não apresenta nenhuma sobreposição. No resultado final da montagem está sozinho e solto nos arquivos gerados. Pode representar uma região do genoma com baixa cobertura; → Gap: Região do genoma que ainda não foi sequenciada; → Cobertura: Quantidade de bases sequenciadas dividido pelo tamanho do genoma. De 8X a 10X para Sanger. 15X para 454 e mais de 30X para Illumina.

Termos Técnicos em Montagem

→ Genoma Draft: Em geral é feito o sequenciamento e montagem, porém não são resolvidos os gaps, repetições, duplicações. Portanto o resultado final geralmente é um arquivo FASTA com centenas ou milhares de contigs representando o genoma bruto. Nada de cromossomos, replicons e plasmídeos separados, esta tudo junto e misturado e as regiões repetidas geralmente estão colapsadas em únicos contigs; → Genoma Fechado: Cromosssomos, replicons, plasmídeos já estão montados em 1 contig para cada, porém ainda pode existir pequenos gaps, regiões repetidas ou não 100% resolvidas e regiões de baixa cobertura. A próxima etapa é a finalização (finishing);

→ Genoma Completo e Finalizado: Cromosssomos, replicons, plasmídeos montados em 1 contig para cada, sem gaps, com alta cobertura e qualidade.

Fatores Técnicos a serem considerados na escolha

do organismo/micro-organismo

→ Total de bases: Quanto maior o genoma a ser sequenciado provavelmente (99,99%) mais difícil será o processo de montagem;

→ Número de cromossomos: Quantos mais cópias dos cromossomos mais complicado fica o processo. Fase dicariótioca (fungos);

→ Projeto procariotos: cultura axénica (pura);

→ Projeto eucariotos: Genoma haplóide se possível;

Experimentos de bancada que podem ajudar a resolver estas questões: PFGE e ensaios de restrição;

Conhecer o número de genes (esperado): Auxilia no processo de montagem e a estimar o tamanho do genoma.

Exemplo: contig, reads, gap, singlets e cobertura

Genoma Draft

Exemplo: Visualização do resultado da montagem (CONSED) e cobertura

Conceito de Scaffold

Ordenando os contigs

Termos Técnicos em Montagem

Vínculos entre os reads!

1) Ordenação dos contigs;

2) Ajuda a resolver a montagem de regiões repetidas, ambíguas.

Resolvendo o problema dos repeats

Vínculos entre os reads: jumping library

- Bibliotecas mate-paired: 5kb, 10kb até 15kb (illumina) - Sequenciamento de “pontas” de BACs, Cosmídeos e etc (Sanger)

O programa de computador entende esse informação e leva em

consideração no processo de montagem

Exemplo: Vínculos entre os reads

Ordenação dos contigs -> Scaffold

Auxílio na ordenação da montagem e resolução de regiões repetidas

-> Gaps Virtuais: Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto); -> Gaps Reais: Não sabe-se nada a respeito (tamanho). Difícil resolução (primer walking ou re-sequenciamento)

Quais os problemas que podem ocorrer ?

Repetições ou repeats

Ocorrem em praticamente todos genomas já sequenciados!

-> Podem representar mais de 20% em genomas de bactérias;

Quem são: Profagos, transposons e outros EGMs, duplicações e etc.

-> Em algumas plantas e vertebrados podem compor a maior parte do genoma.

Quem são: retrotransposons e outros EGMs, duplicações (poliploidia), microsatélites.

Repetições ou repeats (A analogia do quebra cabeça)

Repetições ou repeats (A analogia do quebra cabeça)

Repetições ou repeats (A analogia do quebra cabeça)

Visualizando Repetições ou repeats em uma montagem

Visualizando Repetições ou repeats em uma montagem

Identificando repeats

-Alinhamentos

-Visualização da montagem

Erros de montagem causados por repeats

Complexidade dos Genomas Bacterianos

depositados no NCBI

Classe I: poucas repetições (rRNAs) (~5kb) -> 69%

Classe II: transposons, duplicações, tandem repeats (~5kb a 7kb) -> 8%

Classe III: profagos, grandes duplicações e tandem repeats (> 7kb) -> 23%

Koren et al., 2013

Programas para Montagem de Genomas

→ 1 geração: Phrap, TIGR assembler, CAP3;

→ 2 geração: Celera Assembler, Arachne, Mira

→ “Novos”: Velvet, Euler, ABySS, CLCBio, ALLPATHS-LG, Newbler, SSPADE … vários, dezenas !

Algoritmos:

de Bruijn Graph e Overlap/Layout/consensus

Uma lista com vários programas montadores:

http://en.wikipedia.org/wiki/Sequence_assembly

a

a

http://www.nature.com/nmeth/journal/v9/n4/full/nmeth.1935.html

Montagem de Genoma em uma figura

Leitura Recomendada