Post on 17-Apr-2015
Computational Identification and Characterizationof Novel Genes from
Legumes
Michelle A. Graham, Kevin A.T. Silverstein, Steven B. Cannon, and Kathryn A. VandenBosch
Julho, 2004
Camilla MoreiraProf. Paulo Andrade
Introdução
• Importância das Leguminosas (Fabaceae)
• Disponibilidade de seqüências
• ESTs
• TCs – tentativas consenso
• Seqüências específicas
Objetivo
Utilizar seqüências disponíveis no banco de dados para identificar de forma rápida e eficiente seqüências de M. truncatula, L. japonicus e soja, que não têm homólogos em outros grupos de não-legumes, além de sugerir funções às seqüências-específicas encontradas
Materiais e Métodos
• Identificação das seqüências-específicasBLAST
• Caracterização BlastXInterProScan
Identificação
Foram usados algoritmos BLAST para comparar os unigenes (TCs) de Medicago truncatula, Lotus japonicus e Glycine soja e max, contra conjuntos de unigenes: NR e EST do GenBank, e sequências genômicas de arroz e Arabidopsis, além de seqüências nucleotídicas do TIGR
BLAST• Filtro nas seqüências (repetições, cauda
poliA)• 1º Round
MedicagoTCs Lotus Glycine
BlastNe
TBlastX
Milho
Tomate
Arroz
Arabidopsis
E-value > 10-4
10-4 10-4
TIGR
Próxima fase
BLAST• 2º Round
Medicago• TCs Lotus Glycine
BlastX Banco NR
E-value < 10-4
10-4 10-4 Espera-se que sejam específicas
BLAST
• 3º Round
TBlastX
(TIGR)
E-value > 10-4
10-4 10-4
AlgodãoAlfaceBatataCenteioCevadaGirassolPinusTrigoSorgo
BLAST
• 4º Round
TBlastX
E-value > 10-4
Genoma de Arroz e
Arabidopsis
BLAST
• 5º Round
TBlastX
E-value > 10-4
EST_Others
Seqüências específicas de Leguminosas
<<
Identificação Computacional de Genes Legume-específicos
InterProScan
• Banco de dados de proteínas, domínios e locais funcionais, no qual características identificáveis encontradas em proteínas conhecidas podem ser aplicadas à seqüências protéicas desconhecidas
• Busca por motivos protéicos
Caracterização
• Seq Específicas x GenBank (NR)20% com homologia
• 1ª Análise por Motivos Conservados de outras proteínas46 TCs contendo 55 motivos
conservados
•41 ricos em aa específicos
•14 – F-Box, inibidores de pectinesterase, zinc finger e nodulinas
Caracterização• 2ª Mineração de grupos de genes legume-
específicos com domínios comuns não caracterizados (geração de único domínio)
• Domínio gerado procurar entre proteínas para atribuir função
• 2.525 TCs + 50, 672 e 688 homólogos single
• 665 grupos de potenciais famílias gênicas
F-Box, Ricos em prolina e ricos em cisteína (CCPs)
Similaridade entre os Motivos de F-Box
Análise dos Motivos dos Grupos CCP
A. Regiões com similaridade (e<-10) a sequências do GenBank
1. retroelemento de Arabidopsis2. Proteína gag de pêra3, poliproteína Pol de Nicotiana tabacum4, Proteína de membrana associada a vesícula de
Arabidopsis5. Poliproteína de N. tabacum6. Albumin 1 de Medicago truncatula7, Proteína T31J12.4 de Arabidopsis8. Transposase Mariner de G. max9. Proteína expressa de Arabidopsis10. Fator de transcrição de Arabidopsis11. Elemento de transposição Tnp2 de Antirrhinum
majus
BAC Mth2-34P9
MR = mini-repeatsCCP = genes para proteínas ricas em
cisteínaR1, R2 e R3Setas verdes: início da tradução da CCPCores nos MR = similaridade entre si
pb
pb
Correlação “filogenética” entre os vários mini-repeats e quadro que mostra a provável composição de MR3-1 a partir de MR1-1 e MR1-2
MY
TE
AD
DR
A
MYTEADDRAMYT
Dot plot (esquema) Dot plot (resultado real)
Conclusões
• Origem de não-legumes
• Similaridade com motivos bem representados em diversas categorias
• Esses genes podem ser exemplos de rápida evolução (Blast não pode identificar)
• Genes novos – falha na detecção por domínios (ou não detectados, ou sem similaridade com proteínas conhecidas)
Conclusões
• Identificação de famílias gênicas tecido específica10 raiz e nódulos8 sementes4 folhas e flores7 situações de estresse e patógenos
• Genes candidatos à transformação ou silenciamento gênico em análise futuras de função gênica
Obrigada