Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...

42
UFPel | CDTec | Biotecnologia Anotação de Genomas Pelotas | 2017 Frederico Schmitt Kremer Doutorando em Biotecnologia (PPGB)

Transcript of Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...

Page 1: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

UFPel | CDTec | Biotecnologia

Anotação de Genomas

Pelotas | 2017

Frederico Schmitt KremerDoutorando em Biotecnologia (PPGB)

Page 2: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

O que é anotação de genomas?

Introdução

A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:

• Genes codificantes de proteínas.• Regiões funcionais em proteínas.• Genes de RNA não-codificantes (tRNAs, rRNAs, etc).• Regiões de DNA repetitivo.• Promotores, terminadores, Operons, Riboswitches e outras regiões regulatórias.

Page 3: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

(Só o) sequenciamento de um genoma ...

Introdução

Não muito prático ... nem muito útil.

Page 4: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

As etapas ...

Introdução

Sequenciamento (Ex: NGS, Sanger ...)

Montagem (Ex: de novo, referência ...)

Anotação (Ex: genes, ncRNAs ...)

Submissão (Ex: Genbank)Análises downstream

Page 5: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

As etapas ...

Introdução

Sequenciamento (Ex: NGS, Sanger ...)

Montagem (Ex: de novo, referência ...)

Anotação (Ex: genes, ncRNAs ...)

Análises downstream

Page 6: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

As etapas ...

Introdução

Sequenciamento (Ex: NGS, Sanger ...)

Montagem (Ex: de novo, referência ...)

Anotação (Ex: genes, ncRNAs ...)

Análises downstream

Genbank

Page 7: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes codificantes

Page 8: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Procariotos vs. Eucariotos

Predição de genes

Procariotos:

• Sem introns.• RNA policistrônico.• Estrutura gênica simples.• Fácil predição de novo/ab initio.

Eucariotos:

• Genes divididos em exons/introns.• Estrutura gênica complexa.• Difícil predição de novo/ab initio.

Page 9: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Conceitos importantes

Predição de genes

ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro um códon de iniciação (normalmente um ATG), e que termina com um códon de terminação. ORFs podem ser, mas não necessariamente são, regiões codificantes de facto.

CDS (Coding DNA sequence): Sequencia de DNA codificante para uma proteína. Uma CDS pode ser uma ORF, mas nem toda ORF é uma CDS. CDS podem ser constituída também pela “soma” das regiões de exons de um gene de eucariotos.

Pseudogene: Uma região no genoma que, durante o processo evolutivo, deixou de ser um gene, normalmente por conta de frameshifts (alteração de case de leitura).

Page 10: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes em procariotos

Predição de genes

A identificação de genes em genomas de eucariotos é normalmente realizada por softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene finders mais modernos costumam apresentar uma boa acurácia (quase de 100%) na identificação dos genes.

Exemplos de softwares para esta finalidade incluem:

• Prodigal.• Glimmer.• GeneMark.• FGenesB.

Page 11: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes

Page 12: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes

Page 13: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes em procariotos

Predição de genes

Aparentemente simples porem ...

Nem todas as ORFs são genes, então algumas delas são classificadas como “spurious ORFs”. As spurious ORFs são “falso positivos”, e são conceitualmente similares, porem não iguais, as proteínas hipotéticas.

Proteínas hipotéticas: ORFs que não apresentaram similaridades a nenhum sequência de proteína que possui uma caracterização muito confiável.

Spurious ORF: Uma sequência que DEFINITIVAMENTE não pode ser uma região codificantes. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores, RNAs ribossomais e sequências de DNA repetitivo.

Page 14: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Banco de dados de Spurious ORFs: AntiFam

Predição de genes

Page 15: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes em eucariotos

Predição de genes

A predição de genes em eucariotos é um processo complexo e que apresenta baixa acurácia, mesmo em organismo bem caracterizados (Ex: homo sapiens), sobretudo devido à ocorrência exons/introns e de fenômenos como o splicing alternativo.

A maioria dos softwares usa os chamados “HMM” (Hidden Markov Models) para gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este modelo é usado para buscar genes no organismo de interesse. Entretanto, a acurácia varia de 30-80%.

Page 16: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes em eucariotos

Predição de genes

Como pode ser (não tão) facilmente visto neste esquema ...

Page 17: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes

Grande variabilidade nas junções exon-intron e intron-exon dificulta o processo de predição, levando a uma alta-taxa de falsos positivos e falsos negativos.

Page 18: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes

Page 19: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes em eucariotos

Predição de genes

Dataset Nuc Sens Nuc Spec Nuc Accur Exon Sens Exon Spec Exact Genes Size of test set

Arabidopsis 97% 99% 98% 84% 89% 60% 809 genes

Cryptococcus 96% 99% 98% 86% 88% 53% 350 genes

Coccidioides 99% 99% 99% 84% 86% 60% 503 genes

Brugia 93% 98% 95% 78% 83% 25% 477 genes

Exemplo: avaliação da acurácia do programa GLIMMER.HMM para a predição de genes em 4 organismos diferentes.

Page 20: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Alternativas?

Predição de genes

A principal alternativa à predição de genes em eucariotos é o uso de dados experimentais para a identificação dos genes. Exemplos de dados que podem ser usados incluem:

• Sequências de proteínas (MS/MS ou Sequenciamento de Edman).• Sequências de ESTs (Expressed Sequence Tags) (Sequenciamento por Sanger).• Dados de RNA-Seq (NGS).

Diversos softwares podem ser usados para combinar estes dados, e após isso é possível se gerar uma anotação consenso com base em diferentes evidências e ainda combinar estes com os dados de predição.

Page 21: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Alternativas?

Predição de genes

Page 22: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Identificando proteínas

Page 23: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Depois de identificar/predizer os genes ...

Identificação de proteínas

É importante se realizar a identificação das proteínas correspondentes a cada genes encontrado, sendo este processo normalmente realizado através do alinhamento da sequência contra um banco de dados de referência.

Uniprot, Genbank, Pfam e Gene Ontology, COG (Cluster of Orthologous Groups) são os principais bancos de dados para se realizar a identificação de uma proteína. Para este comparação as ferramentas mais usados são:

• BLAST (Busca de sequências similares através de alinhamento local).• BLAT (Busca de sequências similares através de alinhamento local).• HMMER (Busca de sequências similares através de HMMs).

Page 24: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Depois de identificar/predizer os genes ...

Identificação de proteínas

Page 25: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Etapas de anotação funcional

Identificação de proteínas

Identificação do produto de cada gene

Predição da função de cada gene

Identificação de genes que pertencem a grupos ortólogos conhecidos

Predição de processos biológicos, redes gênica e rotas metabólicas presentes no organismo.

Page 26: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Etapas de anotação funcional: função de genes

Identificação de proteínas

BLAST2GO

Ferramenta de anotação funcional que classifica proteínas e genes com base na nomenclatura do Gene Ontology, nos níveis de função, processo biológico e compartimento celular.

Page 27: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Etapas de anotação funcional: rotas metabólicas

Identificação de proteínas

BlastKoala, GhostKoala e KASS

Ferramentas baseadas no banco de dados do KEGG que permitem a identificação de genes que participam de rotas metabólicas.

Page 28: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Predição de genes não-codificantes

Page 29: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

ncRNAs

Identificação de RNA não-codificantes

Sequências de RNA que não codificam para uma proteína, mas que apresentam função biológica. Exemplos incluem:

• RNAs transportadores.• RNAs ribossomais.• RNAs transportadores-mensageiros.• microRNAs.• Etc ...

Page 30: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Softwares

Identificação de RNA não-codificantes

Diferentes ferramentas podem ser usadas para a busca de ncRNAs em um genoma. A forma mais simples, porem menos específica, é usando o BLAST, mas seu uso pode resultar em um alto número de falso positivos.

Na busca de ncRNAs, é importante se considerar a estrutura secundária da molécula, e não apenas a similaridade de sequências.

Page 31: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Softwares: comparação de abordagens

Identificação de RNA não-codificantes

• Alinhamento local (Ex: BLAST): Usa uma sequência como base para a identificação. É pouco recomendada devido à baixa acurácia.

• HMMs (Ex: HMMER): Usa um modelo construído a partir do alinhamento múltiplo de moléculas de uma mesma classe. Possui acurácia maior que o alinhamento local neste caso, e é usado por ferramentas como o RNAmmer.

• Modelos de Covariância (Ex: INFERNAL): Combina os HMMs com análises estruturais e gera uma predição mais acurada dos RNAs, apesar de ser consideravelmente mais lento.

• Abordagem híbrida (Ex: rfam_scan.pl): usa a BLAST para uma análise inicial e roda o INFERNAL apenas para o modelos que apresentaram HIT.

Page 32: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Softwares

Identificação de RNA não-codificantes

Ferramentas usadas para a identificação de ncRNAs:

• RNAmmer: predição de rRNAs através de HMMs.

• tRNAscan-SE: predição de tRNAs através de modelos de covariância.

• Aragorn: predição de tRNAs e tmRNAs através de uma sequência consenso.

• INFERNAL: predição de várias classes de ncRNAs através de modelos de covariância.

Page 33: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Bancos de dados

Identificação de RNA não-codificantes

Page 34: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Identificação de RNA não-codificantes

O Rfam é um banco de dados curado de família de RNAs que inclui diversos modelos de covariância. Os dados do Rfam podem ser importados na ferramenta INFERNAL e usadas para a busca de diversas famílias de ncRNAs.

O Rfam pertence a iniciativa Xfam, que agrega também o Pfam e o AntiFam, dentro outros bancos para famílias de sequências.

Page 35: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Anotação automática

Page 36: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Pipelines

Anotação automática

Em informática, pipelines são conjuntos de ferramentas que são executadas em uma sequência lógica, aonde a saída (output) de uma é a entrada (input) de outra.

Diversas pipelines estão disponíveis para a anotação de genomas (tanto eucariotos quanto procariotos), e são capazes identificar diversas tipos de regiões funcionais.

Exemplos:

• Procariotos: Prokka, RAST, Eugene-PP, BaSys, NCBI genome annotation pipeline.• Eucariotos: Maker, Eugene.

Page 37: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Pipelines “locais” vs. “web”

Anotação automática

Alguns pipelines, “de uso local” são programa instaláveis e podem ser baixadas nos sites de seus desenvolvedores.

Normalmente o uso é dificultoso por pessoas sem experiência em programação e sistemas Linux/Unix, mas em muitos casos os resultados são gerados mais rapidamente. Prokka, Eugene-PP e Maker são exemplo de pipelines de uso local. “Mais um BLAST, mais um dólar.”

Page 38: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Pipelines “locais” vs. “web”

Anotação automática

Já as pipelines web estão disponíveis na forma de servidores online, aonde os genomas são submetidos em seus respectivos sites.

O uso é facilitados, mas uma anotação pode demorar horas, dias ou até semanas dependo da demanda. RAST, BaSys, NCBI genome annotation pipeline e xBASE são exemplos pipelines de uso web.

Page 39: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Comparando abordagens: BEACON

Anotação automática

As vezes pode ser importante se verificar qual pipeline gera anotações mais acuradas. Para isso é possível se utilizar um genoma de referência já curado, e usar ferramentas como o BEACON, que analisará a quantidade de genes falso-positivos, falso-negativos, órfãos, dentre outras métricas.

Page 40: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Comparando abordagens: outras métricas

Anotação automática

Page 41: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Prática

Page 42: Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro

Artemis Genome Browser

http://www.sanger.ac.uk/science/tools/artemis