Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...
Transcript of Anotação de Genomas UFPel CDTec Biotecnologia · Predição de genes ORF (Open Read Frame):...
UFPel | CDTec | Biotecnologia
Anotação de Genomas
Pelotas | 2017
Frederico Schmitt KremerDoutorando em Biotecnologia (PPGB)
O que é anotação de genomas?
Introdução
A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:
• Genes codificantes de proteínas.• Regiões funcionais em proteínas.• Genes de RNA não-codificantes (tRNAs, rRNAs, etc).• Regiões de DNA repetitivo.• Promotores, terminadores, Operons, Riboswitches e outras regiões regulatórias.
(Só o) sequenciamento de um genoma ...
Introdução
Não muito prático ... nem muito útil.
As etapas ...
Introdução
Sequenciamento (Ex: NGS, Sanger ...)
Montagem (Ex: de novo, referência ...)
Anotação (Ex: genes, ncRNAs ...)
Submissão (Ex: Genbank)Análises downstream
As etapas ...
Introdução
Sequenciamento (Ex: NGS, Sanger ...)
Montagem (Ex: de novo, referência ...)
Anotação (Ex: genes, ncRNAs ...)
Análises downstream
As etapas ...
Introdução
Sequenciamento (Ex: NGS, Sanger ...)
Montagem (Ex: de novo, referência ...)
Anotação (Ex: genes, ncRNAs ...)
Análises downstream
Genbank
Predição de genes codificantes
Procariotos vs. Eucariotos
Predição de genes
Procariotos:
• Sem introns.• RNA policistrônico.• Estrutura gênica simples.• Fácil predição de novo/ab initio.
Eucariotos:
• Genes divididos em exons/introns.• Estrutura gênica complexa.• Difícil predição de novo/ab initio.
Conceitos importantes
Predição de genes
ORF (Open Read Frame): Sequencia de DNA constituída por códons (tamanho múltiplo de 3), sendo o primeiro um códon de iniciação (normalmente um ATG), e que termina com um códon de terminação. ORFs podem ser, mas não necessariamente são, regiões codificantes de facto.
CDS (Coding DNA sequence): Sequencia de DNA codificante para uma proteína. Uma CDS pode ser uma ORF, mas nem toda ORF é uma CDS. CDS podem ser constituída também pela “soma” das regiões de exons de um gene de eucariotos.
Pseudogene: Uma região no genoma que, durante o processo evolutivo, deixou de ser um gene, normalmente por conta de frameshifts (alteração de case de leitura).
Predição de genes em procariotos
Predição de genes
A identificação de genes em genomas de eucariotos é normalmente realizada por softwares chamados “gene finders”. Devido à estrutura simples dos genes, os gene finders mais modernos costumam apresentar uma boa acurácia (quase de 100%) na identificação dos genes.
Exemplos de softwares para esta finalidade incluem:
• Prodigal.• Glimmer.• GeneMark.• FGenesB.
Predição de genes
Predição de genes
Predição de genes em procariotos
Predição de genes
Aparentemente simples porem ...
Nem todas as ORFs são genes, então algumas delas são classificadas como “spurious ORFs”. As spurious ORFs são “falso positivos”, e são conceitualmente similares, porem não iguais, as proteínas hipotéticas.
Proteínas hipotéticas: ORFs que não apresentaram similaridades a nenhum sequência de proteína que possui uma caracterização muito confiável.
Spurious ORF: Uma sequência que DEFINITIVAMENTE não pode ser uma região codificantes. Exemplos incluem ORFs que estão sobrepostas a RNAs transportadores, RNAs ribossomais e sequências de DNA repetitivo.
Banco de dados de Spurious ORFs: AntiFam
Predição de genes
Predição de genes em eucariotos
Predição de genes
A predição de genes em eucariotos é um processo complexo e que apresenta baixa acurácia, mesmo em organismo bem caracterizados (Ex: homo sapiens), sobretudo devido à ocorrência exons/introns e de fenômenos como o splicing alternativo.
A maioria dos softwares usa os chamados “HMM” (Hidden Markov Models) para gerar um “modelo de gene” com base em um organismo próximo já anotado. Depois, este modelo é usado para buscar genes no organismo de interesse. Entretanto, a acurácia varia de 30-80%.
Predição de genes em eucariotos
Predição de genes
Como pode ser (não tão) facilmente visto neste esquema ...
Predição de genes
Grande variabilidade nas junções exon-intron e intron-exon dificulta o processo de predição, levando a uma alta-taxa de falsos positivos e falsos negativos.
Predição de genes
Predição de genes em eucariotos
Predição de genes
Dataset Nuc Sens Nuc Spec Nuc Accur Exon Sens Exon Spec Exact Genes Size of test set
Arabidopsis 97% 99% 98% 84% 89% 60% 809 genes
Cryptococcus 96% 99% 98% 86% 88% 53% 350 genes
Coccidioides 99% 99% 99% 84% 86% 60% 503 genes
Brugia 93% 98% 95% 78% 83% 25% 477 genes
Exemplo: avaliação da acurácia do programa GLIMMER.HMM para a predição de genes em 4 organismos diferentes.
Alternativas?
Predição de genes
A principal alternativa à predição de genes em eucariotos é o uso de dados experimentais para a identificação dos genes. Exemplos de dados que podem ser usados incluem:
• Sequências de proteínas (MS/MS ou Sequenciamento de Edman).• Sequências de ESTs (Expressed Sequence Tags) (Sequenciamento por Sanger).• Dados de RNA-Seq (NGS).
Diversos softwares podem ser usados para combinar estes dados, e após isso é possível se gerar uma anotação consenso com base em diferentes evidências e ainda combinar estes com os dados de predição.
Alternativas?
Predição de genes
Identificando proteínas
Depois de identificar/predizer os genes ...
Identificação de proteínas
É importante se realizar a identificação das proteínas correspondentes a cada genes encontrado, sendo este processo normalmente realizado através do alinhamento da sequência contra um banco de dados de referência.
Uniprot, Genbank, Pfam e Gene Ontology, COG (Cluster of Orthologous Groups) são os principais bancos de dados para se realizar a identificação de uma proteína. Para este comparação as ferramentas mais usados são:
• BLAST (Busca de sequências similares através de alinhamento local).• BLAT (Busca de sequências similares através de alinhamento local).• HMMER (Busca de sequências similares através de HMMs).
Depois de identificar/predizer os genes ...
Identificação de proteínas
Etapas de anotação funcional
Identificação de proteínas
Identificação do produto de cada gene
Predição da função de cada gene
Identificação de genes que pertencem a grupos ortólogos conhecidos
Predição de processos biológicos, redes gênica e rotas metabólicas presentes no organismo.
Etapas de anotação funcional: função de genes
Identificação de proteínas
BLAST2GO
Ferramenta de anotação funcional que classifica proteínas e genes com base na nomenclatura do Gene Ontology, nos níveis de função, processo biológico e compartimento celular.
Etapas de anotação funcional: rotas metabólicas
Identificação de proteínas
BlastKoala, GhostKoala e KASS
Ferramentas baseadas no banco de dados do KEGG que permitem a identificação de genes que participam de rotas metabólicas.
Predição de genes não-codificantes
ncRNAs
Identificação de RNA não-codificantes
Sequências de RNA que não codificam para uma proteína, mas que apresentam função biológica. Exemplos incluem:
• RNAs transportadores.• RNAs ribossomais.• RNAs transportadores-mensageiros.• microRNAs.• Etc ...
Softwares
Identificação de RNA não-codificantes
Diferentes ferramentas podem ser usadas para a busca de ncRNAs em um genoma. A forma mais simples, porem menos específica, é usando o BLAST, mas seu uso pode resultar em um alto número de falso positivos.
Na busca de ncRNAs, é importante se considerar a estrutura secundária da molécula, e não apenas a similaridade de sequências.
Softwares: comparação de abordagens
Identificação de RNA não-codificantes
• Alinhamento local (Ex: BLAST): Usa uma sequência como base para a identificação. É pouco recomendada devido à baixa acurácia.
• HMMs (Ex: HMMER): Usa um modelo construído a partir do alinhamento múltiplo de moléculas de uma mesma classe. Possui acurácia maior que o alinhamento local neste caso, e é usado por ferramentas como o RNAmmer.
• Modelos de Covariância (Ex: INFERNAL): Combina os HMMs com análises estruturais e gera uma predição mais acurada dos RNAs, apesar de ser consideravelmente mais lento.
• Abordagem híbrida (Ex: rfam_scan.pl): usa a BLAST para uma análise inicial e roda o INFERNAL apenas para o modelos que apresentaram HIT.
Softwares
Identificação de RNA não-codificantes
Ferramentas usadas para a identificação de ncRNAs:
• RNAmmer: predição de rRNAs através de HMMs.
• tRNAscan-SE: predição de tRNAs através de modelos de covariância.
• Aragorn: predição de tRNAs e tmRNAs através de uma sequência consenso.
• INFERNAL: predição de várias classes de ncRNAs através de modelos de covariância.
Bancos de dados
Identificação de RNA não-codificantes
Identificação de RNA não-codificantes
O Rfam é um banco de dados curado de família de RNAs que inclui diversos modelos de covariância. Os dados do Rfam podem ser importados na ferramenta INFERNAL e usadas para a busca de diversas famílias de ncRNAs.
O Rfam pertence a iniciativa Xfam, que agrega também o Pfam e o AntiFam, dentro outros bancos para famílias de sequências.
Anotação automática
Pipelines
Anotação automática
Em informática, pipelines são conjuntos de ferramentas que são executadas em uma sequência lógica, aonde a saída (output) de uma é a entrada (input) de outra.
Diversas pipelines estão disponíveis para a anotação de genomas (tanto eucariotos quanto procariotos), e são capazes identificar diversas tipos de regiões funcionais.
Exemplos:
• Procariotos: Prokka, RAST, Eugene-PP, BaSys, NCBI genome annotation pipeline.• Eucariotos: Maker, Eugene.
Pipelines “locais” vs. “web”
Anotação automática
Alguns pipelines, “de uso local” são programa instaláveis e podem ser baixadas nos sites de seus desenvolvedores.
Normalmente o uso é dificultoso por pessoas sem experiência em programação e sistemas Linux/Unix, mas em muitos casos os resultados são gerados mais rapidamente. Prokka, Eugene-PP e Maker são exemplo de pipelines de uso local. “Mais um BLAST, mais um dólar.”
Pipelines “locais” vs. “web”
Anotação automática
Já as pipelines web estão disponíveis na forma de servidores online, aonde os genomas são submetidos em seus respectivos sites.
O uso é facilitados, mas uma anotação pode demorar horas, dias ou até semanas dependo da demanda. RAST, BaSys, NCBI genome annotation pipeline e xBASE são exemplos pipelines de uso web.
Comparando abordagens: BEACON
Anotação automática
As vezes pode ser importante se verificar qual pipeline gera anotações mais acuradas. Para isso é possível se utilizar um genoma de referência já curado, e usar ferramentas como o BEACON, que analisará a quantidade de genes falso-positivos, falso-negativos, órfãos, dentre outras métricas.
Comparando abordagens: outras métricas
Anotação automática
Prática
Artemis Genome Browser
http://www.sanger.ac.uk/science/tools/artemis