Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...
Transcript of Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...
Técnicas de Busca e Análise de Genes de Interesse pela
internet(in silico)
Antonio Figueira
Centro de Energia Nuclear na AgriculturaUniversidade de São Paulo - Piracicaba,
Dogma Central
Estrutura de Gene Eucarioto
Estrutura de Gene Eucarioto
Banco de Dados• NCBI - National Center for Biotechnology
Information• http://www.ncbi.nlm.nih.gov/• Iniciado em 1988• Missão: melhor entendimento dos processos
moleculares que afetam a saúde humana• NCBI cria banco de dados públicos e
recursos de biologia computacional; e disseminação de informações
http://www.ncbi.nlm.nih.gov/
Histórico de Seqüências do GenBank
Ano Pares Base Sequences
1982 680 338 6061983 2 274 029 2 4271984 3 368 765 4 1751985 5 204 420 5 7001986 9 615 371 9 9781987 15 514 776 14 5841988 23 800 000 20 5791989 34 762 585 28 7911990 49 179 285 39 5331991 71 947 426 55 6271992 101 008 486 78 6081993 157 152 442 143 4921994 217 102 462 215 2731995 384 939 485 555 6941996 651 972 984 1 021 2111997 1 160 300 687 1 765 8471998 2 008 761 784 2 837 8971999 3 841 163 011 4 864 5702000 11 101 066 288 10 106 0232001 15 849 921 438 14 976 3102002 28 507 990 166 22 318 883
2005 56,037,734,462 52 016 762
X
Tipos de Banco de Dados
• Abrangentes– Nucleotídeos
GenBank (more...)
EMBL: European Molecular Biology Laboratory
DDBJ: DNA Data Bank of Japan
– Proteínas Swiss-Prot
Protein Information resource UniProt
– Estrutura de Proteínas PDB: Protein Data Bank
MMDB: Molecular Modeling Database (baseado em PDB)
– Mapas e Genoma» Entrez Genomes
Tipos de Banco de Dados• Especializados
– Organismo-Específico Human Genome Sequencing
GDB: Genome Database (human mapping information)
MGD: Mouse Genome Database
SGD: Saccharomyces Genome Database
– Funcional TRANSFAC: Transcription Factors
Vector Database
Organelle Genome Database GOBASE
– Tecnologia de Seqüenciamento EST: Expressed Sequence Tags
GSS: Genome Survey Sequences
STS: Sequence Tagged Sites
HTG: High Throughput Sequences
Tipos de Banco de Dados
• Nível de Curadoria– Preliminar
• seqüências não terminadas - localizadas nos centros de seqüenciamento
– Arquivo• repositório da informação• redundante (várias seqüências do mesmo gene)• submissor mantém controle editorial sobre registros
– Curadoria (cont.)– Revisados (cont.)
Tipos de Banco de Dados
• Nível de Curadoria– Curadoria
• não-redundante• cada registro pretende conter conhecimento corrente• registro contém informações adicionais
– RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos)
– Swiss-Prot (seqüências de proteínas)
– EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish)
– Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos)
– Revisadas• cada registro revisado e comentado por especialistas
– ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famílias
http://www.ebi.ac.uk/Databases/
http://www.ddbj.nig.ac.jp
Estrutura do GenBank
http://www.ncbi.nlm.nih.gov/Database/index.html
TaxBrowser
BLAST
Busca em Banco de Dados
• Por texto - palavra chave– Entrez no NCBI
• Por seqüência: nucleotídeos ou amino ácidos (proteínas)– BLAST no NCBI– Basic Local Alignment Search Tool
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#LocusA
Busca em Entrez
• Três níveis de complexidade de busca– BásicoEnter: cystic fibrosis human
– Avançado (cont.)
– Complexo BooleanEnter: cystic fibrosis[titl] AND human[orgn]
Busca em Entrez• Avançado
Step 1: Select "Limits" optionEnter: cystic fibrosisSelect "Title Word" as search fieldPress "Go"
Step 2: Select "Limits" optionEnter: humanSelect "Organism" as search fieldPress "Go"
Step 3: Select "History" optionEnter: #1 AND #2(Note that Boolean operators must be in upper case. The OR and NOT operators are also available,and parentheses can be used to nest the search.)
Busca em BLAST• Por seqüência de nucleotídeos ou de amino
ácidos (proteínas)
• Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia
• Alinhamento: origem ou função comum
• Alinhamento Global ou Local (segmentos)
Busca em BLASTBLAST: Basic Local Alignment Search Tool• realiza comparações entre pares de
seqüências buscando regiões com similaridade local
– NCBI BLAST– WU-BLAST (Washington University)
• FASTA• SSEARCH http://www.ebi.ac.uk/fasta33/
Busca em BLASTSimilaridade x Homologia• identidade = ocorrência do exato mesmo
nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas
• similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade
• homologia = dividem mesma ancestralidade com significado evolutivo
Homologia => conceito central de Biologia
Busca em BLASTAlgoritmos de BLAST, FASTA,
SSEARCH
• NÃO AVALIAM HOMOLOGIA
• MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS
Busca em BLAST
Por que saber o quanto 2 seqüências são similares?
Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!
Busca em BLAST
• Alinhamento x Similaridade– o que fazer primeiro? = Círculo vicioso
• Requer meios de avaliar:– combinações perfeitas e imperfeitas
(matches e mismatches)– inclusão de gaps (intervalos)
• Matrizes ou Tabela de Valores:– descrevem a probabilidade com sentido
biológico de uma base ou amino ácido ocorrer num alinhamento
Busca em BLASTComparação de nucleotídeos -> por identidade• matches: tipicamente +1 ou +5• mismatches: tipicamente -1 ou -4
Comparação de amino ácidos -> mais complexo!• função natureza química e freqüência • matrizes de substituição• penalidades maiores:
– menor funcionalidade– freqüência de ocorrência
Busca em BLAST
BLAST
Programa Seqüência Base Comparação
blastn DNA DNA DNA blastp PTN PTN PTNblastx DNA PTN PTNtblastn PTN DNA PTNtblastx DNA DNA PTN
Nucleotide DB Protein DB
Nucleotide Sequence
Protein Sequence
blastn
blastp
Translated DB(contain amino acid sequences)
Em 6 quadros
Em 6 quadros
blastx
Translated Protein Sequence
tblastx
tblastn
BLAST
Busca em BLASTMatrizes de Substituição:baseadas em alinhamentos de alta confiança
de diversas proteínas homólogas, avaliando freqüência de todas as substituições
• Point Accepted Mutation - PAM
• Blocks substitution - BLOSUM
Point Accepted Mutation - PAM
• calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas)
• 34 super-famílias agrupadas em 71 árvores filogenéticas com 1.572 substituições
• substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds
• Matriz PAM1 = prob. mudança de 1 aa em 100• Multiplicando a matriz por ela mesmo - matriz com
graus arbitrários de proximidade
Point Accepted Mutation - PAM250
Blocks Substitution - BLOSUM
• seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente
• banco de dados - BLOCKS• 2.000 blocos de segmentos de seqüência sem gaps
alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas
• seqüências dos blocos agrupadas• freqüência de susbtituições entre grupos na família
estimadas - prob. substituição importante• nível de cut-off de % de identidade de seqüência que
define os grupos (clusters) - ex. BLOSUM62
Blocks Substitution - BLOSUM62
Busca em BLASTMatrizes de Substituição do BLAST-
NCBI
• Point Accepted Mutation - PAM– PAM30, PAM70
• Blocks substitution - BLOSUM– BLOSUM45, BLOSUM62, BLOSUM80
Busca em BLASTPenalidades por Intervalo (gaps)• prevê inserções e deleções• penalidades - limitar introdução mas
flexível para extender (ocorre vários resíduos)
• BLAST-NCBI• penalidades
– existência: 7, 8 e 9 10, 11 e 12– extensão: 2 1
http://www.ncbi.nlm.nih.gov/BLAST/
Busca em BLASTProgramação Dinâmica
• solução ótima de busca de alinhamentos
• algoritmo de Smith-Waterman
• alinhamento local ao invés de global -mais relevante biologicamente
Busca em BLASTHeurística: Sensibilidade x Rapidez
• FASTA: usa palavras exatas (strings)
• BLAST: usa matriz de scores (BLOSUM62)– usa como semente de alinhamento com alto score– realiza filtragem de seqüências repetidas (ex. CA)– nos primeiros passos, gaps não são permitidos
(a)1. Filtra regiões de baixa complexidade2. Gera lista de seqüências pequenas
11 bases nt ou 3 aa3. Determina pares de maior score baseado na matriz e sem gaps4. Reduz lista por limite estabelecido
(b)5. Busca no banco de dados combinações perfeitas para a lista gerada6. Procura extender o alinhamento a partir dessa “semente”
(c) 7. Tenta extender alinhamento até o score continuar a crescer8. Gaps são incluídos9. Determina significância de cada score calculando valor E.
BLAST• Estatísticas:
– raw score: soma de scores de substituições e gaps (função das matrizes e não comparável)
– bit scores: versão em escala do score
– valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)
BLAST• Submissão de seqüência - query• Alinhamento no banco de dados - target• Melhores de escores são relatados• usar valor E
– valor E <0.01
• Submissão: DNA, PTN ou DNA como PTN• Proteínas: melhor para identificar homologias• DNA: degeneração do terceira base do códon
http://www.ncbi.nlm.nih.gov/BLAST/
Blastn
Blastp
BLAST
• Interpretação de função: cautelosa!
• Similaridada restrita a domínios• Área de cobertura do alinhamento• Erros de anotação no banco de dados• Falta de homologia - distanciamento
evolutivo
Alinhamento Múltiplo
• Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna.
• Algoritmo: ClustalW
http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html
http://prodes.toulouse.inra.fr/multalin/multalin.html
http://www.ch.embnet.org/software/BOX_form.html