Plataformas de NGS - UFPellabbioinfo.ufpel.edu.br/aulas_2016/aula_3/aula.pdf · 2016-08-26 · são...

Post on 18-Jun-2020

1 views 0 download

Transcript of Plataformas de NGS - UFPellabbioinfo.ufpel.edu.br/aulas_2016/aula_3/aula.pdf · 2016-08-26 · são...

UFPel | CDTec | PPGB

Pelotas | 2016

Plataformas de NGS

Frederico Kremer

Plataformas

Sequenciamento de Sanger

Desde a sua publicação, em 1977, o método de Sanger vem sendo amplamente utilizado como padrão-ouro para diversas aplicações em biologia molecular.

Usualmente, os sequenciadores automáticos baseados em Sanger são capazes de ler até 96 amostras por vezes, com um tamanho de fragmento médio de aproximadamente 1.000 bp (1 kb).

A quantidade de pares de base sequenciadas em uma rodada é chamada throughput (Este termo também pode se referir ao número de fragmentos).

Sequenciamento de Sanger

Em um projeto genoma é necessário o sequenciamento de um grande número de fragmentos de forma se seja possível se montar, ao menos parcialmente, a sequencia do(s) cromossomo(s) do organismo de interesse.

Logo no começo dos projetos genoma, mesmo para bactérias, era necessários centenas de sequenciadores funcionando em paralelo para se obter a sequencia dos fragmentos necessários.

Por conta disso, os primeiros projetos genoma eram executados através de consórcios, muitas vezes internacionais, e custaram milhões de dólares.

Roche 454

Em 2004 a empresa Roche lançou a primeira linha de sequenciadores de alto throughput, a 454. Esta foi a primeira linha de sequeciadores a não ser baseada no método de Sanger, mas sim em uma nova abordagem denominada pirossequenciamento. Por prover um maior volume de dados, com menor custa-por-base e de forma mais rápida e paralela, este sequenciadores foram denominados NGS (Next Generation Sequencing). Posteriormente, o termo NGS foi extendido para as demais plataformas de alto throghput.

Roche 454

Em 2004 a empresa Roche lançou a primeira linha de sequenciadores de alto throughput, a 454. Esta foi a primeira linha de sequeciadores a não ser baseada no método de Sanger, mas sim em uma nova abordagem denominada pirossequenciamento. Por prover um maior volume de dados, com menor custa-por-base e de forma mais rápida e paralela, este sequenciadores foram denominados NGS (Next Generation Sequencing). Posteriormente, o termo NGS foi extendido para as demais plataformas de alto throghput.

Roche 454: pirossequenciamento

Roche 454: pirossequenciamento

Roche 454: problemas

• Sequencias homopoliméricas tendem a gerar sinais mais intensos, mas em alguns casos é difícil determinar o tamanho correto, o que leva ao surgimento de inserções e deleções (INDELs).

• Para resolver isso, diversos algoritmos foram desenvolvidos para corrigir as leituras antes das análises propriamente ditas.

Applied BioSystems SOLiD

O SOLiD (Sequencing by Oligonucleotide Ligation and Detection) utiliza uma PCR em emulsão com bilhões de fragmentos curtos (30-50 pb), seguida de reações de ligação de dinucleotídeos. Cara par de nucleotídeos incorporado gera um sinal luminoso, que é processado e usado para reconstruir a sequencia de cada fragmento.

Em 2006, a empresa Applied BioSystems, atualmente pertencente à Thermo Fisher, lançou a plataforma ABI SOLiD, baseada em método de sequenciamento baseado em ligase de alto throughput.

Applied BioSystems SOLiD

Applied BioSystems SOLiD

Applied BioSystems SOLiD

Applied BioSystems SOLiD:problemas

A plataforma SOLiD usa leituras muito curtas (short-reads), o que dificulta a montagem de genomas que apresentam regiões repetitivas. Além disso, o throughput é muito alto, o que exige uma grande capacidade computacional para a montagem de um genoma sequenciado por esta plataforma. Os arquivos de sequenciamento de um genoma de bactéria podem pensar mais de 20 Gb, e são necessários pelo menos 100 Gb de memória RAM (!!!) para a montagem.

Illumina Solexa

Pouco após o lançamento do 454, outras empresas começaram a investir no desenvolvimento de plataformas se sequenciamento. Em 2007 a empresa Illumina adquiriu a Solexa, que estava desenvolvendo um novo método de sequenciamento denominado SBS (Sequencing by Synthesis).

As plataformas Illumina vem sendo adotadas como padrão para um grande número de aplicações em genômica, transcriptômica e metagenômica.

Illumina Solexa:SBS

Illumina Solexa: problemas

Os principais erros associados às plataformas da Illumina são:

Decaimento da qualidade das bases ao longo das leituras. Substituição de bases.

IonTorrent

As plataformas de sequenciamento IonTorrent adotam uma abordagem baseada em pH para identificar a incorporação das bases. Neste caso, diferente do 454, SOLiD e Illumina, não são utilizados sinais luminosos, mas sim micro-pHmetros que detectam a liberação de ions H+ para milhões de fragmentos ao mesmo tempo. Com o lançamento do equipamento IonProton, o IonTorrent foi a primeira plataforma a atingir a linha do “genoma (humano) por 1.000 dolares”.

IonTorrent

IonTorrent

IonTorrent: problemas

O IonTorrent tem o mesmo problema do 454 no que diz respeito às regiões homopoliméricas. Em comparação às plataformas da Illumina, a taxa de erro é muito maior, apesar do custo por reação ser menor. Problemas com o chip loading.

PacBio

As plataformas 454, Illumina, SOLiD e IonTorrent geram leituras de tamanho menor que 500 bp, denominadas short-reads. O uso de short-reads dificulta a montagem de genomas complexos, sobretudo quando existe regiões repetitivas.

Para resolver isso a empresa PacBio desenvolveu o primeiro método para sequenciamento de leituras longas (long-reads).

PacBio

PacBio

O método da PacBio permite a detecção da amplificação de fragmentos individualmente, sem a necessidade de amplificação. Isso reduz os erros causados pela amplificação, e permite a detecção de bases modificadas. A plataforma vem sendo amplamente empregada para complementar sequenciamentos de genomas, por conta de suas leituras longas, e na detecção de alterações epigenéticas (ex: metilação).

PacBio: problemas

A taxa de erro mas leituras da PacBio é superior a das plataformas de short-read, sendo recomendado o uso de leituras da Illumina para correção de erro. Apesar do throughput ser menor ao das plataformas de short-read, o custo de equipamento e preparo de bibliotecas também é muito maior, o que torna a plataforma inviável para o sequenciamento de genomas eucaritóricos.

Oxford Nanopore

A plataforma de sequenciamento Oxford Nanopore foi a utilizar o sistema de detecção com base em nano-poros imobilizados em membrana. A detecção dos nucleotídeos é feita através da análise da variação do potencial elétrico na membrana, que é alterado de acordo com a passagem do fragmento de DNA.

Oxford Nanopore

O sequenciador é portátil, tendo o tamanho de um pendrive, e parte de sua estrutura é descartável.

Oxford Nanopore

Oxford Nanopore: problemas

A detecção das bases não é feita uma-por-uma, mas sim em grupos sobreponíveis de tamanho fixo K (ex: 5). Em alguns casos, o sequenciador não consegue detectar a sequência do grupo, o que acarreta no aparecimento de longos gaps nos fragmentos. O throughput ainda é baixo, apesar dos fragmentos serem muito grandes. O tamanho do arquivo final é muito grande (> 100 Gb para um genoma de bactéria). Pouco disponibilidade de programas e protocolos para análise dos dados.

Comparação

Bibliotecas

Bibliotecas de sequenciamento: fragmentação

O preparo do DNA para o sequenciamento dependerá da plataforma e do objetivo pretendido. O primeiro passo para o preparo de uma biblioteca de sequenciamento é a fragmentação. Diferentes métodos podem ser utilizados para fragmentação, incluindo os físicos e enzimáticos. Exempos de métodos físicos: temperatura, nebulização e sonicação. Exemplos de métodos enzimáticos: enzimas de restrição.

Bibliotecas de sequenciamento: seleção de tamanho

Após a fragmentação, os fragmentos com tamanho compatível com a química da plataforma devem ser selecionados.

A seleção de tamanho é comumente feita através de corrida em gel. Em alguns casos é necessário se repetir várias vezes a fragmentação, até que a quantidade certa de DNA nos fragmentos selecionados seja alcançada. É possível também se enriquecer a biblioteca com PCR.

Bibliotecas de sequenciamento: tipos de bibliotecas

Single-end (fragmento):

paired-end (fragmento):

Mate-pair (fragmento):

Leitura

Leitura #1 Leitura #2

Leitura #1 Leitura #2

Espaçamento curto (<< 1 Kb)

Espaçamento longo (>>1 Kb)

Qualidade

Phred Score

O processo pelo qual o sequenciador converte o sinal detectado em uma sequência de nucleotídeos é denomiando chamada de bases (base calling). Com base no sinal detectado é possível se determinar não só a sequência, mas o quão confiável foi a detecção a partir de um sinal esperado para aquela base. A probabilidade de uma base ter sido detectada erroneamente é represetada pelo Phred score (Q).

Phred Score: exemplo – Illumina paired-end

Aplicações

Whole-Genome Shotgun

• Whole-Genome Shotgun (WGS).

• Sequenciamento de todo o genoma.

• Sequenciamento → Montagem → Anotação.

• Montagem pode ser de novo ou por referência.

• O NGS possibilita que o sequenciamento de um grande número de genomas em um curto espaço de tempo.

• Serve de base para diversos estudos, como pan-genoma, genômica comparativa, mineração de genomas...

Targered Sequencing

Consiste no sequenciamento de uma ou várias regiões específicas do genoma, sendo normalmente utilizado para a detecção de mutações com alta cobertura. No caso do sequenciamento de exomas, apenas as regiões de exons são sequenciadas. É amplamente utilizado na análise de mutações, sobretudo em genomas grandes, como o humano.

Variant Calling

Consiste na análise de variantes através da comparação das leituras do sequenciamento com uma sequência de referência. Permite a identificação de SNPs, INDELs (naturais), alterações no número de cópias e rearranjos estruturais.

Whole-transcriptome shotgun (WTS)

Similar ao WGS, mas utiliza como base o cDNA, e não o DNA genômico, como base. Da mesma forma que o WGS pode ser usado para a montagem de novo do transcriptoma ou para montagem por referência, usando o genoma como base. Possibilita a análise de genes expressos e diferencialmente expressos.

RNA-Seq diferencial

O RNA-Seq diferencial (deRNA-Seq) consiste na comparação dos genes expressos por um menos conjunto de células em diferentes condições. Os genes são mais expressos em relação ao controle são denominados up-regulated, e os que são menos expressos são denominados down-regulated. A análise é feita a partir da contagem de leituras que sobrepõe cada genes, nas diferentes condições, seguida de uma normalização e análise estatística.

Metagenômica

Consiste no sequenciamento de uma amostra contendo diferentes organismos. Possibilita a identificação em larga escala de organismos e genes presentes em um determinado local.

Metagenômica

Epigenômica

Através da detecção de bases modificadas é possível se identificação regiões metiladas no genoma, o que permite a análise de modificações epigenéticas. Plataformas como Illumina e PacBio oferecem suporte à este tipo de análise.

Epigenômica

Dentre outras ...

Obrigado!