NGS: Controle de qualidade e montagem de...

44
NGS: Controle de qualidade e montagem de novo Msc. Frederico Schmitt Kremer // doutorando PPGB

Transcript of NGS: Controle de qualidade e montagem de...

Page 1: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

NGS: Controle de qualidade e montagem de novo

Msc. Frederico Schmitt Kremer // doutorando PPGB

Page 2: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Worflow para NGS

Page 3: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?
Page 4: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

DNA Biblioteca Sequenciador

Dados BrutosControle de Qualidade

Filtragem / Trimagem

Análises downstream

Montagem de novo

Expressão diferencial SNPs ...

Page 5: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Bibliotecas de NGS

Page 6: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Single-end

Sequenciamento de apenas uma das extremidades dos fragmentos da amostra.

Forma mais simples (e barata) de biblioteca.

Também denominada “biblioteca de fragmento”.

Page 7: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Paired-end

Sequenciamento de ambas as extremidades dos fragmentos da amostra.

Sequências podem ser sobreponíveis ou espaçadas.

Disponível para 454 e Illumina, sendo hoje o padrão de facto.

Page 8: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Paired-end

Page 9: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Mate-pair

Similar ao sequenciamento paired-end, mas com um espaçamento maior entre as leituras.

Mais cara, e com maior taxa de erros (false-mates).

Também denominada “jump library”.

Page 10: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Mate-pair

Page 11: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Que plataformas de NGS posso utilizar?

Page 12: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Ion Torrent Illumina

PacBio Nanopore

Segunda Geração

Terceira Geração

Page 13: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Comparados as plataformas

Page 14: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Comparados as plataformas

Page 15: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

O que sai do sequenciador?

Page 16: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Basecalling

Os sequenciadores não lêem as sequências de DNA diretamente, mas sim grandezas físicas e/ou químicas, gerando assim dados brutos de sinais.

Posteriormente, estes sinais são processados a partir de algoritmos chamada de base (basecalling), podendo estes estarem implementador no próprio sequenciador, em um servidor ou na nuvem.

Page 17: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Basecalling e Phred Score (Q)

Durante a identificação das bases os algoritmos de base calling também identificação um grau de confiabilidade para elas.

Atualmente a medida mais utilizada para se definir a confiabilidade de uma base é o Phred Score (Q).

Page 18: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Sequenciamento capilar (ex: AB1)

AB1 e SCF são exemplos de formatos de arquivo de sequenciamento capilar.

Armazenam dados de cromatogramas, o que aumenta em muito seu tamanho e os torna inaplicáveis para NGS.

Page 19: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

.FASTA + .QUAL

Page 20: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

FASTQ (33, 64 e Sanger)

Page 21: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?
Page 22: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Outros formatos

csFASTA: Utilizando pela plataformas de sequenciamento SOLiD.

SFF: Utilizado pela plataforma de sequenciamento Roche 454 e pelas primeiras versões do Ion Torrent.

BAM: Utilizando atualmente pelo Ion Torrent.

HDF: Utilizando pelo Oxford Nanopore.

Page 23: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

QC: Quality Controle

Page 24: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

QC: Sequenciamento capilar

Poucas leituras → exequível mesmo que manualmente (uma por uma)

Page 25: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

QC: NGS

milhões de leituras → impossível fazer manualmente

Page 26: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

FastQC: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Page 27: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

mas … como corrigir os erros?

Trimagem: remover bases das extremidades.

Filtragem: remover leituras de baixa qualidade.

Clipping: remover adaptadores.

Masking: mascarar bases de baixa qualidade.

exemplos de programas: fastx-toolkit, trimmomatic ...

Page 28: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Prática de FastQC!

Page 29: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Arquivos para a prática:

Endereço: http://200.132.101.131/aula_rnaseq/datasets/

Arquivos: Lepto_1.fastq,

Lepto_2.fastq,

Lepto_RNA.fastq

Page 30: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

E as análises downstream?

Page 31: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Ex: Montagem de novo

Reconstrução da sequencia original do genoma / transcriptoma se a utilização de uma sequência conhecida como referência.

É um processo computacionalmente complexo, e vários algoritmos foram desenvolvidos para dar conta deste problema.

Page 32: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Contigs: sequências contínuas geradas a partir da sobreposição de duas ou mais leituras.

Scaffolds: contigs conectadas por alguma informação (evidência de ligação).

Page 33: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Contigs e Scaffolds

Page 34: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Montagem: grafos de Bruijn

Estratégia baseada em k-mers desenvolvida para otimizar o processo de montagem de dados de NGS.

Page 35: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?
Page 36: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Exemplo de abordagem para montagem de novo de um transcriptoma de Leptospira interrogans (SRA:SRR1071259) usando o Oases, com k-mers de k=31:

$ velveth montagem/ 31 -short -fastq reads.fastq$ velvetg montagem/ -read_trkg yes$ oases montagem/

9 562 316 reads

3 911contigs

Page 37: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Mesmo transcriptoma usando o Trinity:

9 562 316 reads

3 704contigs

$ Trinity --seqType fq --max_memory 10G \ --single datasets/Lepto_RNA.fastq \ --output montagem_trinity --CPU 4

Page 38: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Como comparar montagens de um transcriptoma?

Page 39: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Comparar com um genoma de referência

Page 40: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

rnaQUAST: oases vs. trinity (Leptospira interrogans strain L1-130)

METRICS/TRANSCRIPTS Oases Trinity

Transcripts 3911 3704 Transcripts > 500 bp 1114 1347 Transcripts > 1000 bp 483 597

Aligned 3892 3689 Uniquely aligned 3868 3633 Multiply aligned 7 31 Unaligned 19 15

Avg. aligned fraction 0.997 0.996 Avg. alignment length 519.728 649.23 Avg. mismatches per transcript 0.24 0.354

Misassemblies 17 25

Page 41: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Nx (Ex: N50, N75, N90 …)

Page 42: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Números de blocos (genes/exons)

Page 43: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

Obrigado! ^^

Page 44: NGS: Controle de qualidade e montagem de novolabbioinfo.ufpel.edu.br/aula_rnaseq/aula_agronomia.pdf · Arquivos: Lepto_1.fastq, Lepto_2.fastq, Lepto_RNA.fastq. E as análises downstream?

facebook: /frederico.schmittkremer

email: [email protected]