Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri...

Post on 22-Apr-2015

106 views 1 download

Transcript of Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri...

Curso Intensivo de Anotação de Curso Intensivo de Anotação de ESTs de ESTs de Crinipellis perniciosaCrinipellis perniciosa

Eduardo Fernandes FormighieriLaboratório de Genômica e Expressão / UNICAMP

Fevereiro - 2006

ProgramaPrograma1. Introdução2. Revisão de genômica3. Introdução à anotação4. BLAST5. Interface de anotação

2. Revisão de Genômica2. Revisão de Genômica

Eduardo Fernandes FormighieriLaboratório de Genômica e Expressão / UNICAMP

Fevereiro - 2006

IntroduçãoIntrodução

Seqüenciamento de DNA

Determinação da sua seqüência nucleotídica (ACGTs).

A tecnologia de seqüenciamento atual exige que se quebre o DNA em pequenos

fragmentos de cerca de 2.000 pares de bases (shotgun), exigindo a montagem dos

fragmentos.(a montagem será detalhada posteriormente)

IntroduçãoIntrodução

Exemplo de gel de eletroforese utilizado nos seqüenciadores de gel (ex.: 377). A diferença de tamanho permite a separação dos

grupos de fragmentos, e esta “distribuição normal” da passagem dos fragmentos é representada pelo eletroferograma (ou

cromatograma) de cada seqüência (read).

Projetos GenomaProjetos Genoma

Tipos de projeto

DNA – seqüenciamento de estruturas do genoma ou de trechos destas. Ex.: X.

fastidiosa

ESTs – seqüenciamento de cDNA, feitos a partir de bibliotecas de mRNA. Bibliotecas feitas para diferentes situações. Ex.: ESTs

de café

Projetos GenomaProjetos Genoma

Esquema muito resumido para projetos genoma.O seqüenciamento pode ser total ou parcial. A montagem feita por

diferentes programas. O objetivo final pode ser um produto, publicações ou respostas.

Projetos GenomaProjetos Genoma

Estratégias de seqüenciamento

• DNA– Shotgun de genoma inteiro– Shotgun de pedaços do genoma (cosmídeos)– Primer walking

• ESTs– Tradicional– Orestes

Bancos de dadosBancos de dados

Alguns dos principais BDs biológicos

• NCBI (link) – National Center for Biotechnology Information

• EBI (link) – European Bioinformatics Institute

• KEGG (link) – Kyoto Encyclopedia of Genes and Genomes

• GO (link) – Gene Ontology Consortium

• COG (link) – Clusters of Orthologous Groups of proteins

3. Geral de anotação3. Geral de anotação

Eduardo Fernandes FormighieriLaboratório de Genômica e Expressão / UNICAMP

Fevereiro - 2006

Introdução Introdução – base– base

Anotação de genes

Anotar um gene é postular função ao produto deste gene. Para DNA, inicialmente são

localizados os ORFs. Para cDNA, busca-se a identificação do trecho seqüenciado.

Utilizam-se diversos programas de comparação com dados genéticos conhecidos e buscas de padrões.

Introdução Introdução – base– base

ORFS

Os ORFs (Open Reading Frames) a partir de determinado tamanho são genes em

potencial.

ATG AAT GCT TGC ACC CCG TCA GGC CTG TAA ini fim

Códon iniciador, região codificadorae códon terminador.

Introdução Introdução – base– base

Código genético

(Fonte das figuras: http://www.accessexcellence.org/AB/GG/genetic.html)

Introdução Introdução – metabolismo virtual– metabolismo virtual

Anotação Anotação – inicial– inicial

Anotação Anotação – metabólica– metabólica

4. BLAST4. BLAST

Eduardo Fernandes FormighieriLaboratório de Genômica e Expressão / UNICAMP

Fevereiro - 2006

BLAST BLAST – base– base

• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J.

Biol., 215, 403-410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local• Consulta de seqüências em BDs biológicos• Alinhamento – sobreposição de trechos semelhante de

duas seqüências (seqs). BLASt traz pontuação e mostra alinhamentos.

• Similaridade – grau de semelhança de seqs num alinhamento.

• Homologia – genes com ancestral comum (vide slide).

BLAST BLAST – conceitos– conceitos1

2

3

4 3´

“Genes nariz” Homólogos

Ortólogos: 2 e 3; ancestral comum = 1

Ortólogos: 2 e 4; ancestral comum = 1

Parálogos: 3´ e 4; ancestral comum = 3

Duplicação

Especiação

BLAST BLAST – programas– programas

• BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares

• Blastp – prot / prot (distantes)• Blastn – nt / nt (próximos)• Blastx – nt trad / prot (novas seqs)• Tblastn – prot / nt trad (regiões não

anotadas)• Tblastx – nt trad / nt trad (ESTs)

BLAST BLAST – programas– programas

Query BD Compara Programant nt nt blastn

nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastn

nt (trad) nt (trad) aa tblastx

Query = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.

BLAST BLAST – query = nts– query = nts

• Vs. Nt– MEGABLAST – identificar a seq– Blastn – identificar a seq ou encontrar similares– Tblastx – comparação por proteínas (nts trad)

• Vs. Prot– Blastx – comparação com proteínas (nts trad)

• Pequenas seqs de nt– “Search for short, nearly exact matches” –

busca para primers ou motivos

BLAST BLAST – query = aas– query = aas

• Vs. Prot– Blastp - identificar a seq ou encontrar similares– PSI-Blast – encontrar membros da família da

proteína ou genes muito distantes– PHI-Blast – busca similaridade de seq + padrão

• Domínios conservados– CD-search – encontra no query– CDART – encontra no query e busca outras

BLAST BLAST – query = aas– query = aas

• Vs. Nt– Tblastn – busca proteínas similares

• Pequenas seqs de proteínas– “Search for short, nearly exact matches” –

busca para motivos

• Especializadas (nt ou prot)– Blast 2 sequences– BDs específicos (genomas etc.)

BLAST BLAST – resultado– resultado

• Query / Subject• “Low score filter”• Gráfico• Lista de alinhamentos

– “Score” e “E value”

• Alinhamentos– Identidades (matchs)– Positivos – Posições de início e fim

BLAST BLAST – resultado– resultado

Escolher BD

BLAST BLAST – resultado– resultado

Domínio encontrado

ID facilita busca

ERRO!!

BLAST BLAST – resultado– resultado

BLAST BLAST – resultado– resultado

Link

1

subject

query

BLAST BLAST – resultado– resultado

71

1 64

134

5. Interface de anotação5. Interface de anotação

Eduardo Fernandes FormighieriLaboratório de Genômica e Expressão / UNICAMP

Fevereiro - 2006

Interface de anotaçãoInterface de anotação

http://www.lge.ibi.unicamp.br/vassoura

http://www.lge.ibi.unicamp.br/cgi-bin/proj_anot/Vassoura_ESTs_Mic3/contigs_usuarios.cgi