Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...

Técnicas de Busca e Análise de Genes de Interesse pela

internet(in silico)

Antonio Figueira

Centro de Energia Nuclear na AgriculturaUniversidade de São Paulo - Piracicaba,

[email protected]

Dogma Central

Estrutura de Gene Eucarioto

Banco de Dados• NCBI - National Center for Biotechnology

Information• http://www.ncbi.nlm.nih.gov/• Iniciado em 1988• Missão: melhor entendimento dos processos

moleculares que afetam a saúde humana• NCBI cria banco de dados públicos e

recursos de biologia computacional; e disseminação de informações

http://www.ncbi.nlm.nih.gov/


Histórico de Seqüências do GenBank

Ano Pares Base Sequences

1982 680 338 6061983 2 274 029 2 4271984 3 368 765 4 1751985 5 204 420 5 7001986 9 615 371 9 9781987 15 514 776 14 5841988 23 800 000 20 5791989 34 762 585 28 7911990 49 179 285 39 5331991 71 947 426 55 6271992 101 008 486 78 6081993 157 152 442 143 4921994 217 102 462 215 2731995 384 939 485 555 6941996 651 972 984 1 021 2111997 1 160 300 687 1 765 8471998 2 008 761 784 2 837 8971999 3 841 163 011 4 864 5702000 11 101 066 288 10 106 0232001 15 849 921 438 14 976 3102002 28 507 990 166 22 318 883

2005 56,037,734,462 52 016 762

X

http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

Tipos de Banco de Dados

• Abrangentes– Nucleotídeos

GenBank (more...)

EMBL: European Molecular Biology Laboratory

DDBJ: DNA Data Bank of Japan

– Proteínas Swiss-Prot

Protein Information resource UniProt

– Estrutura de Proteínas PDB: Protein Data Bank

MMDB: Molecular Modeling Database (baseado em PDB)

– Mapas e Genoma» Entrez Genomes





http://www.ebi.ac.uk/

http://www.ddbj.nig.ac.jp/

http://www.expasy.ch/

http://pir.georgetown.edu/

http://www.rcsb.org/pdb/

http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.html

http://www.ncbi.nlm.nih.gov/Genomes/index.html

Tipos de Banco de Dados• Especializados

– Organismo-Específico Human Genome Sequencing

GDB: Genome Database (human mapping information)

MGD: Mouse Genome Database

SGD: Saccharomyces Genome Database

– Funcional TRANSFAC: Transcription Factors

Vector Database

Organelle Genome Database GOBASE

– Tecnologia de Seqüenciamento EST: Expressed Sequence Tags

GSS: Genome Survey Sequences

STS: Sequence Tagged Sites

HTG: High Throughput Sequences

http://www.ncbi.nlm.nih.gov/genome/seq/

http://gdbwww.gdb.org/

http://www.informatics.jax.org/

http://genome-www.stanford.edu/Saccharomyces/

http://www.gene-regulation.com/pub/databases.html

http://www.gene-regulation.com/pub/databases.html

http://seq.yeastgenome.org/vectordb/

http://seq.yeastgenome.org/vectordb/

http://megasun.bch.umontreal.ca/gobase/gobase.html

http://megasun.bch.umontreal.ca/gobase/gobase.html

http://www.ncbi.nlm.nih.gov/dbEST/

http://www.ncbi.nlm.nih.gov/dbGSS/

http://www.ncbi.nlm.nih.gov/dbSTS/

http://www.ncbi.nlm.nih.gov/HTGS/


• Nível de Curadoria– Preliminar

• seqüências não terminadas - localizadas nos centros de seqüenciamento

– Arquivo• repositório da informação• redundante (várias seqüências do mesmo gene)• submissor mantém controle editorial sobre registros

– Curadoria (cont.)– Revisados (cont.)


• Nível de Curadoria– Curadoria

• não-redundante• cada registro pretende conter conhecimento corrente• registro contém informações adicionais

– RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos)

– Swiss-Prot (seqüências de proteínas)

– EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish)

– Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos)

– Revisadas• cada registro revisado e comentado por especialistas

– ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famílias

http://www.ncbi.nih.gov/RefSeq/

http://www.expasy.ch/

http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene

http://www.ncbi.nlm.nih.gov/COG/new/



http://mpr.nci.nih.gov/prow/

http://mpr.nci.nih.gov/prow/

http://www.ebi.ac.uk/Databases/

http://www.ebi.ac.uk/Databases/

http://www.ddbj.nig.ac.jp

http://www.ddbj.nig.ac.jp/

Estrutura do GenBank

http://www.ncbi.nlm.nih.gov/Database/index.html

http://www.ncbi.nlm.nih.gov/Database/index.html

http://www.ncbi.nih.gov/Database/datamodel/index.html

Entrez

http://www.ncbi.nlm.nih.gov/Entrez/index.html

PubMed

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed

TaxBrowser

Busca em Banco de Dados

• Por texto - palavra chave– Entrez no NCBI

• Por seqüência: nucleotídeos ou amino ácidos (proteínas)– BLAST no NCBI– Basic Local Alignment Search Tool

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#LocusA

Busca em Entrez

• Três níveis de complexidade de busca– BásicoEnter: cystic fibrosis human

– Avançado (cont.)

– Complexo BooleanEnter: cystic fibrosis[titl] AND human[orgn]

Busca em Entrez• Avançado

Step 1: Select "Limits" optionEnter: cystic fibrosisSelect "Title Word" as search fieldPress "Go"

Step 2: Select "Limits" optionEnter: humanSelect "Organism" as search fieldPress "Go"

Step 3: Select "History" optionEnter: #1 AND #2(Note that Boolean operators must be in upper case. The OR and NOT operators are also available,and parentheses can be used to nest the search.)

Busca em BLAST• Por seqüência de nucleotídeos ou de amino

ácidos (proteínas)

• Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia

• Alinhamento: origem ou função comum

• Alinhamento Global ou Local (segmentos)

Busca em BLASTBLAST: Basic Local Alignment Search Tool• realiza comparações entre pares de

seqüências buscando regiões com similaridade local

– NCBI BLAST– WU-BLAST (Washington University)

• FASTA• SSEARCH http://www.ebi.ac.uk/fasta33/

Busca em BLASTSimilaridade x Homologia• identidade = ocorrência do exato mesmo

nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas

• similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade

• homologia = dividem mesma ancestralidade com significado evolutivo

Homologia => conceito central de Biologia

Busca em BLASTAlgoritmos de BLAST, FASTA,

SSEARCH

• NÃO AVALIAM HOMOLOGIA

• MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS

Busca em BLAST

Por que saber o quanto 2 seqüências são similares?

Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!

Busca em BLAST

• Alinhamento x Similaridade– o que fazer primeiro? = Círculo vicioso

• Requer meios de avaliar:– combinações perfeitas e imperfeitas

(matches e mismatches)– inclusão de gaps (intervalos)

• Matrizes ou Tabela de Valores:– descrevem a probabilidade com sentido

biológico de uma base ou amino ácido ocorrer num alinhamento

Busca em BLASTComparação de nucleotídeos -> por identidade• matches: tipicamente +1 ou +5• mismatches: tipicamente -1 ou -4

Comparação de amino ácidos -> mais complexo!• função natureza química e freqüência • matrizes de substituição• penalidades maiores:

– menor funcionalidade– freqüência de ocorrência

Busca em BLAST

BLAST

Programa Seqüência Base Comparação

blastn DNA DNA DNA blastp PTN PTN PTNblastx DNA PTN PTNtblastn PTN DNA PTNtblastx DNA DNA PTN

Nucleotide DB Protein DB

Nucleotide Sequence

Protein Sequence

blastn

blastp

Translated DB(contain amino acid sequences)

Em 6 quadros

Em 6 quadros

blastx

Translated Protein Sequence

tblastx

tblastn

BLAST

Busca em BLASTMatrizes de Substituição:baseadas em alinhamentos de alta confiança

de diversas proteínas homólogas, avaliando freqüência de todas as substituições

• Point Accepted Mutation - PAM

• Blocks substitution - BLOSUM

Point Accepted Mutation - PAM

• calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas)

• 34 super-famílias agrupadas em 71 árvores filogenéticas com 1.572 substituições

• substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds

• Matriz PAM1 = prob. mudança de 1 aa em 100• Multiplicando a matriz por ela mesmo - matriz com

graus arbitrários de proximidade

Point Accepted Mutation - PAM250

Blocks Substitution - BLOSUM

• seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente

• banco de dados - BLOCKS• 2.000 blocos de segmentos de seqüência sem gaps

alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas

• seqüências dos blocos agrupadas• freqüência de susbtituições entre grupos na família

estimadas - prob. substituição importante• nível de cut-off de % de identidade de seqüência que

define os grupos (clusters) - ex. BLOSUM62

Blocks Substitution - BLOSUM62

Busca em BLASTMatrizes de Substituição do BLAST-

NCBI

• Point Accepted Mutation - PAM– PAM30, PAM70

• Blocks substitution - BLOSUM– BLOSUM45, BLOSUM62, BLOSUM80

Busca em BLASTPenalidades por Intervalo (gaps)• prevê inserções e deleções• penalidades - limitar introdução mas

flexível para extender (ocorre vários resíduos)

• BLAST-NCBI• penalidades

– existência: 7, 8 e 9 10, 11 e 12– extensão: 2 1

http://www.ncbi.nlm.nih.gov/BLAST/

Busca em BLASTProgramação Dinâmica

• solução ótima de busca de alinhamentos

• algoritmo de Smith-Waterman

• alinhamento local ao invés de global -mais relevante biologicamente

Busca em BLASTHeurística: Sensibilidade x Rapidez

• FASTA: usa palavras exatas (strings)

• BLAST: usa matriz de scores (BLOSUM62)– usa como semente de alinhamento com alto score– realiza filtragem de seqüências repetidas (ex. CA)– nos primeiros passos, gaps não são permitidos

(a)1. Filtra regiões de baixa complexidade2. Gera lista de seqüências pequenas

11 bases nt ou 3 aa3. Determina pares de maior score baseado na matriz e sem gaps4. Reduz lista por limite estabelecido

(b)5. Busca no banco de dados combinações perfeitas para a lista gerada6. Procura extender o alinhamento a partir dessa “semente”

(c) 7. Tenta extender alinhamento até o score continuar a crescer8. Gaps são incluídos9. Determina significância de cada score calculando valor E.

BLAST• Estatísticas:

– raw score: soma de scores de substituições e gaps (função das matrizes e não comparável)

– bit scores: versão em escala do score

– valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)

BLAST• Submissão de seqüência - query• Alinhamento no banco de dados - target• Melhores de escores são relatados• usar valor E

– valor E <0.01

• Submissão: DNA, PTN ou DNA como PTN• Proteínas: melhor para identificar homologias• DNA: degeneração do terceira base do códon

http://www.ncbi.nlm.nih.gov/BLAST/

Blastn

Blastp

BLAST

• Interpretação de função: cautelosa!

• Similaridada restrita a domínios• Área de cobertura do alinhamento• Erros de anotação no banco de dados• Falta de homologia - distanciamento

evolutivo

Alinhamento Múltiplo

• Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna.

• Algoritmo: ClustalW

http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html

http://prodes.toulouse.inra.fr/multalin/multalin.html

http://www.ch.embnet.org/software/BOX_form.html

Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...

Documents

Transcript of Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...