Seqüenciamento e montagem do genoma humano
e análise de transcriptoma
Seqüenciamento do Genoma Humano
• Embate: Consórcio público x Celera genomics:
– Consórcio público: mapeamento físico, shotgun hieráriquico.
– Celera genomics: whole genome shotgun
• Em fevereiro de 2001 foi publicada de forma independendente versão draft ou preliminar ambos grupos.
Seqüenciamento do Genoma Humano
• 2003: Consórcio público apresenta versão final do seqüenciamento do genoma humano
– Comprimento total: 3 bilhões pb
– 99% deste total foi seqüenciado
– Erro de seqüenciamento estimado em 1/10.000 nt
– 99.9% não apresenta diferenças entre indivíduos.
– 25.000 genes
– Genes codificadores de proteínas correspondem a apenas 2% do genoma
– 50 % do genoma consiste de regiões repetitivas (D.melanogaster 3%, C.elegans 7%)
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS)
Genoma
Biblioteca genômicaPlasmídeo (inserto 10 kb)BAC (inserto 100 kb)
Seqüenciamento das extremidadesdo inserto
Leituras ou reads
Contig
Mate pairs
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
AGCGTTA GTTACAAC
AGCGTTACAAC
Contig Contig
Mate pairs
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Contig Contig
Mate pairsBAC contendo inserto demaior comprimento
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Contig Contig
Mate pairs
Contig ContigScaffold
Mate pairs
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Consórcio públicoMapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômicaem BAC (inserto 100Kb)
Fragmento cromossômico
Biblioteca genômicaem BAC
Consórcio públicoMapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômicaem BAC (inserto 100Kb)
Fragmento cromossômico
Biblioteca genômicaem BAC
BAC
BibliotecaPlasmídeo (inserto 10 kb)
Seqüenciamento das extremidadesdo inserto
Leituras ou reads
Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem
Contig
Mate pairs
AGCGTTA GTTACAAC
AGCGTTACAAC
Consórcio públicoMapeamento físico, shotgun hierárquico - Montagem
Consórcio públicoMapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômicaem BAC (inserto 100 kb)
Consórcio públicoMapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômicaem BAC (inserto 100 kb)
Consórcio públicoMapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômicaem BAC (inserto 100 kb)
Avaliação de estratégias de seqüenciamento
Vantagens WGS
• Estratégia mais simples com menos etapas.
Vantagens Shotgun Hierárquico
• Menos vulnerável que a estratégia WGS em relação a montagem de regiões repetitivas.
Avaliação de estratégias de seqüenciamentoRepetições no genoma
X X
Cenário I
X
MontagemGenoma
Processo de montagem é suscetível a erros quando empregado em genomas com alto índice de repeticões.
WGS: Montagem de 3 bilhões de bases (todo genoma).
Shotgun hierárquico: Montagem de 100 mil bases (inserto de cada BAC).
In silico
Base-calling
• Geração de uma seqüência de nucleotídeos através da análise dos chromatogramas
PHRED
gaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgcagcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgag
Mascaramento
• Eliminar fragmentos de vetor cross_match
>5’gctccaccgcggtggcggccgctctagaactagtggatcccccgggctgcaggaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgca
>3’gcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgagggggggcccggtacccaattc
Montagem
• Produzir uma seqüência contígua através de seqüências menores que possuam regiões de sobreposiçãoPHRAP, Celera Assembler, Arachne
contig
leituras
Anotação
• Localizar na seqüencia genômica final:• Genes que codificam proteínas e RNAs não traduzidos (tRNA, rRNA, snRNA)
• Determinar, se possível, o produto provável de cada gene encontrado.
• Associar cada gene à uma categoria funcional ou via metabólica. Ex.: síntese de lipídeos, maquinaria de tradução, fosforilação oxidativa, etc.
Anotação
Streptococcus pneumoniae R6
Anotação Automática
Glimmer
contig
RBSfinder tRNAscanGeneMark
CDS
Anotação Automática
BLAST contra KEGG
InterproBLAST contra GenBank
PSORTBLAST contra COG
Anotação manual
BLAST(Basic Local Alignment Search Tool)
BLASTKEGG
COG
GenBankNucleotídeos
> SEQ1atgggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg
Bancos de seqüências
GenBankProteínas
BLAST(Basic Local Alignment Search Tool)
Aldolase Trypanosoma cruzi
.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt
BLAST it!
Anotação Automática
BLAST contra KEGG
InterproBLAST contra GenBank
PSORTBLAST contra COG
Anotação manual
Aldolase Trypanosoma cruzi
.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10 acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggcgccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaacatgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgctgccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtcgntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt
Interpro
• Procura na seqüências por domínios, assinaturas ou motivos conhecidos.
• Se utiliza de outros bancos de domínios para produzir seu relatório final. PFAM, SMART, PROSITE, etc
Interpro
Anotação Automática
BLAST contra KEGG
InterproBLAST contra GenBank
PSORTBLAST contra COG
Anotação manual
Anotação
Streptococcus pneumoniae R6
SabiáSystem for Automated Bacterial Integrated Annotation
• LNCC – Coordenação do Projeto Genoma Brasileiro
• Gerenciamento de todos softwares de Base-calling, Mascaramento, Montagem e Anotação automática.
• Disponibilização da Anotação automática dos resultados via Web possibilitando a realização da Anotação manual por pesquisadores distribuídos geograficamente.
Exemplo Sabiá Mapa Antes Mapa Depois
Análise do transcriptoma
Projetos que precedem seqüenciamento do genoma nuclear:
• Identificação de novos genes.
• Estimativa do perfil de expressão da linhagem celular, estágio de desenvolvimento ou tecido avaliado
Transcrição e Transcriptoma
EST
RNA total
cístron Poli A mRNACAP5’ 3’
Transcrição e Transcriptoma
ESTPoli A
Poli A
Poli A
Poli A
cDNA
Vetor + cDNA
Transcrição e Transcriptoma
EST
Sequenciamentoextremidades
5’ Poli A
3’ Poli A
3’
5’
~ 800 pb
Vetor Vetor
VetorVetorcDNA completo
Transcrição e Transcriptoma
ESTRemoçãoSequencia de vetor(cross_match, Lucy)
Remoção Poli A (Script Perl)
EST
5’ Poli A3’Vetor Vetor
Poli A
X X
X5’ 3’
5’ 3’
Análise do transcriptoma
EST – Anotação
BLASTXE
BLASTN
GenBankNucleotídeos>clone_23 5’
ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg
Bancos de seqüências
GenBankProteínas
5’ 3’
clone_23 5’ = amastina
Análise do transcriptoma
EST – Anotação
Agrupamento deseqüência similaresouagrupamento via anotação
= amastina>clone_23 5’ggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg
Número de ESTs Anotação
4 amastina
6 TcMUC II
Transcrição e Transcriptoma
Transcriptoma de amastigotas
Transcrição e Transcriptoma
Transcriptoma de amastigotas
Top Related