Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...

59
Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São Paulo - Piracicaba, SP [email protected]

Transcript of Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira...

Page 1: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Técnicas de Busca e Análise de Genes de Interesse pela

internet(in silico)

Antonio Figueira

Centro de Energia Nuclear na AgriculturaUniversidade de São Paulo - Piracicaba,

[email protected]

Page 2: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Dogma Central

Page 3: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Estrutura de Gene Eucarioto

Page 4: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Estrutura de Gene Eucarioto

Page 5: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.
Page 6: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Banco de Dados• NCBI - National Center for Biotechnology

Information• http://www.ncbi.nlm.nih.gov/• Iniciado em 1988• Missão: melhor entendimento dos processos

moleculares que afetam a saúde humana• NCBI cria banco de dados públicos e

recursos de biologia computacional; e disseminação de informações

Page 7: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ncbi.nlm.nih.gov/

Page 8: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Histórico de Seqüências do GenBank

Page 9: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Ano Pares Base Sequences

1982 680 338 6061983 2 274 029 2 4271984 3 368 765 4 1751985 5 204 420 5 7001986 9 615 371 9 9781987 15 514 776 14 5841988 23 800 000 20 5791989 34 762 585 28 7911990 49 179 285 39 5331991 71 947 426 55 6271992 101 008 486 78 6081993 157 152 442 143 4921994 217 102 462 215 2731995 384 939 485 555 6941996 651 972 984 1 021 2111997 1 160 300 687 1 765 8471998 2 008 761 784 2 837 8971999 3 841 163 011 4 864 5702000 11 101 066 288 10 106 0232001 15 849 921 438 14 976 3102002 28 507 990 166 22 318 883

2005 56,037,734,462 52 016 762

X

Page 10: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Tipos de Banco de Dados

• Abrangentes– Nucleotídeos

GenBank (more...)

EMBL: European Molecular Biology Laboratory

DDBJ: DNA Data Bank of Japan

– Proteínas Swiss-Prot

Protein Information resource UniProt

– Estrutura de Proteínas PDB: Protein Data Bank

MMDB: Molecular Modeling Database (baseado em PDB)

– Mapas e Genoma» Entrez Genomes

Page 11: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Tipos de Banco de Dados• Especializados

– Organismo-Específico Human Genome Sequencing

GDB: Genome Database (human mapping information)

MGD: Mouse Genome Database

SGD: Saccharomyces Genome Database

– Funcional TRANSFAC: Transcription Factors

Vector Database

Organelle Genome Database GOBASE

– Tecnologia de Seqüenciamento EST: Expressed Sequence Tags

GSS: Genome Survey Sequences

STS: Sequence Tagged Sites

HTG: High Throughput Sequences

Page 12: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Tipos de Banco de Dados

• Nível de Curadoria– Preliminar

• seqüências não terminadas - localizadas nos centros de seqüenciamento

– Arquivo• repositório da informação• redundante (várias seqüências do mesmo gene)• submissor mantém controle editorial sobre registros

– Curadoria (cont.)– Revisados (cont.)

Page 13: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Tipos de Banco de Dados

• Nível de Curadoria– Curadoria

• não-redundante• cada registro pretende conter conhecimento corrente• registro contém informações adicionais

– RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos)

– Swiss-Prot (seqüências de proteínas)

– EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish)

– Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos)

– Revisadas• cada registro revisado e comentado por especialistas

– ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famílias

Page 14: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ebi.ac.uk/Databases/

Page 15: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ddbj.nig.ac.jp

Page 16: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Estrutura do GenBank

http://www.ncbi.nlm.nih.gov/Database/index.html

Page 17: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.
Page 20: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

TaxBrowser

Page 21: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

BLAST

Page 22: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em Banco de Dados

• Por texto - palavra chave– Entrez no NCBI

• Por seqüência: nucleotídeos ou amino ácidos (proteínas)– BLAST no NCBI– Basic Local Alignment Search Tool

Page 23: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.
Page 24: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.
Page 25: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#LocusA

Page 26: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em Entrez

• Três níveis de complexidade de busca– BásicoEnter: cystic fibrosis human

– Avançado (cont.)

– Complexo BooleanEnter: cystic fibrosis[titl] AND human[orgn]

Page 27: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em Entrez• Avançado

Step 1: Select "Limits" optionEnter: cystic fibrosisSelect "Title Word" as search fieldPress "Go"

Step 2: Select "Limits" optionEnter: humanSelect "Organism" as search fieldPress "Go"

Step 3: Select "History" optionEnter: #1 AND #2(Note that Boolean operators must be in upper case. The OR and NOT operators are also available,and parentheses can be used to nest the search.)

Page 28: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLAST• Por seqüência de nucleotídeos ou de amino

ácidos (proteínas)

• Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia

• Alinhamento: origem ou função comum

• Alinhamento Global ou Local (segmentos)

Page 29: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTBLAST: Basic Local Alignment Search Tool• realiza comparações entre pares de

seqüências buscando regiões com similaridade local

– NCBI BLAST– WU-BLAST (Washington University)

• FASTA• SSEARCH http://www.ebi.ac.uk/fasta33/

Page 30: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTSimilaridade x Homologia• identidade = ocorrência do exato mesmo

nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas

• similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade

• homologia = dividem mesma ancestralidade com significado evolutivo

Homologia => conceito central de Biologia

Page 31: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTAlgoritmos de BLAST, FASTA,

SSEARCH

• NÃO AVALIAM HOMOLOGIA

• MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS

Page 32: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLAST

Por que saber o quanto 2 seqüências são similares?

Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!

Page 33: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLAST

• Alinhamento x Similaridade– o que fazer primeiro? = Círculo vicioso

• Requer meios de avaliar:– combinações perfeitas e imperfeitas

(matches e mismatches)– inclusão de gaps (intervalos)

• Matrizes ou Tabela de Valores:– descrevem a probabilidade com sentido

biológico de uma base ou amino ácido ocorrer num alinhamento

Page 34: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTComparação de nucleotídeos -> por identidade• matches: tipicamente +1 ou +5• mismatches: tipicamente -1 ou -4

Comparação de amino ácidos -> mais complexo!• função natureza química e freqüência • matrizes de substituição• penalidades maiores:

– menor funcionalidade– freqüência de ocorrência

Page 35: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLAST

Page 36: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

BLAST

Programa Seqüência Base Comparação

blastn DNA DNA DNA blastp PTN PTN PTNblastx DNA PTN PTNtblastn PTN DNA PTNtblastx DNA DNA PTN

Page 37: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Nucleotide DB Protein DB

Nucleotide Sequence

Protein Sequence

blastn

blastp

Translated DB(contain amino acid sequences)

Em 6 quadros

Em 6 quadros

blastx

Translated Protein Sequence

tblastx

tblastn

BLAST

Page 38: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTMatrizes de Substituição:baseadas em alinhamentos de alta confiança

de diversas proteínas homólogas, avaliando freqüência de todas as substituições

• Point Accepted Mutation - PAM

• Blocks substitution - BLOSUM

Page 39: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Point Accepted Mutation - PAM

• calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas)

• 34 super-famílias agrupadas em 71 árvores filogenéticas com 1.572 substituições

• substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds

• Matriz PAM1 = prob. mudança de 1 aa em 100• Multiplicando a matriz por ela mesmo - matriz com

graus arbitrários de proximidade

Page 40: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Point Accepted Mutation - PAM250

Page 41: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Blocks Substitution - BLOSUM

• seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente

• banco de dados - BLOCKS• 2.000 blocos de segmentos de seqüência sem gaps

alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas

• seqüências dos blocos agrupadas• freqüência de susbtituições entre grupos na família

estimadas - prob. substituição importante• nível de cut-off de % de identidade de seqüência que

define os grupos (clusters) - ex. BLOSUM62

Page 42: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Blocks Substitution - BLOSUM62

Page 43: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTMatrizes de Substituição do BLAST-

NCBI

• Point Accepted Mutation - PAM– PAM30, PAM70

• Blocks substitution - BLOSUM– BLOSUM45, BLOSUM62, BLOSUM80

Page 44: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTPenalidades por Intervalo (gaps)• prevê inserções e deleções• penalidades - limitar introdução mas

flexível para extender (ocorre vários resíduos)

• BLAST-NCBI• penalidades

– existência: 7, 8 e 9 10, 11 e 12– extensão: 2 1

http://www.ncbi.nlm.nih.gov/BLAST/

Page 45: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTProgramação Dinâmica

• solução ótima de busca de alinhamentos

• algoritmo de Smith-Waterman

• alinhamento local ao invés de global -mais relevante biologicamente

Page 46: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Busca em BLASTHeurística: Sensibilidade x Rapidez

• FASTA: usa palavras exatas (strings)

• BLAST: usa matriz de scores (BLOSUM62)– usa como semente de alinhamento com alto score– realiza filtragem de seqüências repetidas (ex. CA)– nos primeiros passos, gaps não são permitidos

Page 47: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

(a)1. Filtra regiões de baixa complexidade2. Gera lista de seqüências pequenas

11 bases nt ou 3 aa3. Determina pares de maior score baseado na matriz e sem gaps4. Reduz lista por limite estabelecido

(b)5. Busca no banco de dados combinações perfeitas para a lista gerada6. Procura extender o alinhamento a partir dessa “semente”

(c) 7. Tenta extender alinhamento até o score continuar a crescer8. Gaps são incluídos9. Determina significância de cada score calculando valor E.

Page 48: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

BLAST• Estatísticas:

– raw score: soma de scores de substituições e gaps (função das matrizes e não comparável)

– bit scores: versão em escala do score

– valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)

Page 49: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

BLAST• Submissão de seqüência - query• Alinhamento no banco de dados - target• Melhores de escores são relatados• usar valor E

– valor E <0.01

• Submissão: DNA, PTN ou DNA como PTN• Proteínas: melhor para identificar homologias• DNA: degeneração do terceira base do códon

Page 50: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ncbi.nlm.nih.gov/BLAST/

Page 51: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.
Page 52: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Blastn

Page 53: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Blastp

Page 54: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

BLAST

• Interpretação de função: cautelosa!

• Similaridada restrita a domínios• Área de cobertura do alinhamento• Erros de anotação no banco de dados• Falta de homologia - distanciamento

evolutivo

Page 55: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Alinhamento Múltiplo

• Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna.

• Algoritmo: ClustalW

Page 56: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html

Page 57: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://prodes.toulouse.inra.fr/multalin/multalin.html

Page 58: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

http://www.ch.embnet.org/software/BOX_form.html

Page 59: Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.