Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...

UFPel | CDTec | Biotecnologia

Anotação de Genomas

Pelotas | 2017

Frederico Schmitt KremerDoutorando em Biotecnologia (PPGB)

O que é anotação de genomas?

Introdução

A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:

• Genes codificantes de proteínas.• Regiões funcionais em proteínas.• Genes de RNA não-codificantes (tRNAs, rRNAs, etc).• Regiões de DNA repetitivo.• Promotores, terminadores, Operons, Riboswitches e outras regiões regulatórias.

(Só o) sequenciamento de um genoma ...

Introdução

Não muito prático ... nem muito útil.

As etapas ...

Introdução

Sequenciamento (Ex: NGS, Sanger ...)

Montagem (Ex: de novo, referência ...)

Anotação (Ex: genes, ncRNAs ...)

Submissão (Ex: Genbank)Análises downstream

As etapas ...

Introdução




Análises downstream

As etapas ...

Introdução




Análises downstream

Genbank

Predição de genes codificantes

Procariotos vs. Eucariotos

Predição de genes

Procariotos:

• Sem introns.• RNA policistrônico.• Estrutura gênica simples.• Fácil predição de novo/ab initio.

Eucariotos:

• Genes divididos em exons/introns.• Estrutura gênica complexa.• Difícil predição de novo/ab initio.

Conceitos importantes

Predição de genes

ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro um códon de iniciação (normalmente um ATG), e que termina com um códon de terminação. ORFs podem ser, mas não necessariamente são, regiões codificantes de facto.

CDS (Coding DNA sequence): Sequencia de DNA codificante para uma proteína. Uma CDS pode ser uma ORF, mas nem toda ORF é uma CDS. CDS podem ser constituída também pela “soma” das regiões de exons de um gene de eucariotos.

Pseudogene: Uma região no genoma que, durante o processo evolutivo, deixou de ser um gene, normalmente por conta de frameshifts (alteração de case de leitura).

Predição de genes em procariotos

Predição de genes

A identificação de genes em genomas de eucariotos é normalmente realizada por softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene finders mais modernos costumam apresentar uma boa acurácia (quase de 100%) na identificação dos genes.

Exemplos de softwares para esta finalidade incluem:

• Prodigal.• Glimmer.• GeneMark.• FGenesB.

Predição de genes

Predição de genes em procariotos

Predição de genes

Aparentemente simples porem ...

Nem todas as ORFs são genes, então algumas delas são classificadas como “spurious ORFs”. As spurious ORFs são “falso positivos”, e são conceitualmente similares, porem não iguais, as proteínas hipotéticas.

Proteínas hipotéticas: ORFs que não apresentaram similaridades a nenhum sequência de proteína que possui uma caracterização muito confiável.

Spurious ORF: Uma sequência que DEFINITIVAMENTE não pode ser uma região codificantes. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores, RNAs ribossomais e sequências de DNA repetitivo.

Banco de dados de Spurious ORFs: AntiFam

Predição de genes

Predição de genes em eucariotos

Predição de genes

A predição de genes em eucariotos é um processo complexo e que apresenta baixa acurácia, mesmo em organismo bem caracterizados (Ex: homo sapiens), sobretudo devido à ocorrência exons/introns e de fenômenos como o splicing alternativo.

A maioria dos softwares usa os chamados “HMM” (Hidden Markov Models) para gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este modelo é usado para buscar genes no organismo de interesse. Entretanto, a acurácia varia de 30-80%.


Predição de genes

Como pode ser (não tão) facilmente visto neste esquema ...

Predição de genes

Grande variabilidade nas junções exon-intron e intron-exon dificulta o processo de predição, levando a uma alta-taxa de falsos positivos e falsos negativos.

Predição de genes


Predição de genes

Dataset Nuc Sens Nuc Spec Nuc Accur Exon Sens Exon Spec Exact Genes Size of test set

Arabidopsis 97% 99% 98% 84% 89% 60% 809 genes

Cryptococcus 96% 99% 98% 86% 88% 53% 350 genes

Coccidioides 99% 99% 99% 84% 86% 60% 503 genes

Brugia 93% 98% 95% 78% 83% 25% 477 genes

Exemplo: avaliação da acurácia do programa GLIMMER.HMM para a predição de genes em 4 organismos diferentes.

Alternativas?

Predição de genes

A principal alternativa à predição de genes em eucariotos é o uso de dados experimentais para a identificação dos genes. Exemplos de dados que podem ser usados incluem:

• Sequências de proteínas (MS/MS ou Sequenciamento de Edman).• Sequências de ESTs (Expressed Sequence Tags) (Sequenciamento por Sanger).• Dados de RNA-Seq (NGS).

Diversos softwares podem ser usados para combinar estes dados, e após isso é possível se gerar uma anotação consenso com base em diferentes evidências e ainda combinar estes com os dados de predição.

Alternativas?

Predição de genes

Identificando proteínas

Depois de identificar/predizer os genes ...

Identificação de proteínas

É importante se realizar a identificação das proteínas correspondentes a cada genes encontrado, sendo este processo normalmente realizado através do alinhamento da sequência contra um banco de dados de referência.

Uniprot, Genbank, Pfam e Gene Ontology, COG (Cluster of Orthologous Groups) são os principais bancos de dados para se realizar a identificação de uma proteína. Para este comparação as ferramentas mais usados são:

• BLAST (Busca de sequências similares através de alinhamento local).• BLAT (Busca de sequências similares através de alinhamento local).• HMMER (Busca de sequências similares através de HMMs).

Depois de identificar/predizer os genes ...


Etapas de anotação funcional


Identificação do produto de cada gene

Predição da função de cada gene

Identificação de genes que pertencem a grupos ortólogos conhecidos

Predição de processos biológicos, redes gênica e rotas metabólicas presentes no organismo.

Etapas de anotação funcional: função de genes


BLAST2GO

Ferramenta de anotação funcional que classifica proteínas e genes com base na nomenclatura do Gene Ontology, nos níveis de função, processo biológico e compartimento celular.

Etapas de anotação funcional: rotas metabólicas


BlastKoala, GhostKoala e KASS

Ferramentas baseadas no banco de dados do KEGG que permitem a identificação de genes que participam de rotas metabólicas.

Predição de genes não-codificantes

ncRNAs

Identificação de RNA não-codificantes

Sequências de RNA que não codificam para uma proteína, mas que apresentam função biológica. Exemplos incluem:

• RNAs transportadores.• RNAs ribossomais.• RNAs transportadores-mensageiros.• microRNAs.• Etc ...

Softwares


Diferentes ferramentas podem ser usadas para a busca de ncRNAs em um genoma. A forma mais simples, porem menos específica, é usando o BLAST, mas seu uso pode resultar em um alto número de falso positivos.

Na busca de ncRNAs, é importante se considerar a estrutura secundária da molécula, e não apenas a similaridade de sequências.

Softwares: comparação de abordagens


• Alinhamento local (Ex: BLAST): Usa uma sequência como base para a identificação. É pouco recomendada devido à baixa acurácia.

• HMMs (Ex: HMMER): Usa um modelo construído a partir do alinhamento múltiplo de moléculas de uma mesma classe. Possui acurácia maior que o alinhamento local neste caso, e é usado por ferramentas como o RNAmmer.

• Modelos de Covariância (Ex: INFERNAL): Combina os HMMs com análises estruturais e gera uma predição mais acurada dos RNAs, apesar de ser consideravelmente mais lento.

• Abordagem híbrida (Ex: rfam_scan.pl): usa a BLAST para uma análise inicial e roda o INFERNAL apenas para o modelos que apresentaram HIT.

Softwares


Ferramentas usadas para a identificação de ncRNAs:

• RNAmmer: predição de rRNAs através de HMMs.

• tRNAscan-SE: predição de tRNAs através de modelos de covariância.

• Aragorn: predição de tRNAs e tmRNAs através de uma sequência consenso.

• INFERNAL: predição de várias classes de ncRNAs através de modelos de covariância.

Bancos de dados



O Rfam é um banco de dados curado de família de RNAs que inclui diversos modelos de covariância. Os dados do Rfam podem ser importados na ferramenta INFERNAL e usadas para a busca de diversas famílias de ncRNAs.

O Rfam pertence a iniciativa Xfam, que agrega também o Pfam e o AntiFam, dentro outros bancos para famílias de sequências.

Anotação automática

Pipelines


Em informática, pipelines são conjuntos de ferramentas que são executadas em uma sequência lógica, aonde a saída (output) de uma é a entrada (input) de outra.

Diversas pipelines estão disponíveis para a anotação de genomas (tanto eucariotos quanto procariotos), e são capazes identificar diversas tipos de regiões funcionais.

Exemplos:

• Procariotos: Prokka, RAST, Eugene-PP, BaSys, NCBI genome annotation pipeline.• Eucariotos: Maker, Eugene.

Pipelines “locais” vs. “web”


Alguns pipelines, “de uso local” são programa instaláveis e podem ser baixadas nos sites de seus desenvolvedores.

Normalmente o uso é dificultoso por pessoas sem experiência em programação e sistemas Linux/Unix, mas em muitos casos os resultados são gerados mais rapidamente. Prokka, Eugene-PP e Maker são exemplo de pipelines de uso local. “Mais um BLAST, mais um dólar.”

Pipelines “locais” vs. “web”


Já as pipelines web estão disponíveis na forma de servidores online, aonde os genomas são submetidos em seus respectivos sites.

O uso é facilitados, mas uma anotação pode demorar horas, dias ou até semanas dependo da demanda. RAST, BaSys, NCBI genome annotation pipeline e xBASE são exemplos pipelines de uso web.

Comparando abordagens: BEACON


As vezes pode ser importante se verificar qual pipeline gera anotações mais acuradas. Para isso é possível se utilizar um genoma de referência já curado, e usar ferramentas como o BEACON, que analisará a quantidade de genes falso-positivos, falso-negativos, órfãos, dentre outras métricas.

Comparando abordagens: outras métricas


Prática

Artemis Genome Browser

http://www.sanger.ac.uk/science/tools/artemis



Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...

Documents

Transcript of Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...