Post on 21-Feb-2019
Introdução à Bioinformática e Introdução à Bioinformática e Bancos de Dados BiológicosBancos de Dados Biológicos
Thiago Yukio Kikuchi Oliveira
Um breve histórico...Um breve histórico...
1990Início doProjeto
Genoma Humano
1953Estrutura do DNA
1865Gregor Mendel
publica seu experimentos
1949Experimentos de Erwin Chargaff
1969Criação da ARPANET
e UNIX
1985Lançado o MS Windows 1.0
1991Lançada a
versão 1.0 do Kernel Linux
2003TérminoProjeto
Genoma Humano
1946ENIAC
O GenomaO Genoma
Definição: Informação genética total carregada por uma célula ou organismo; especificamente, o DNA, que carrega esta informação. (Alberts et al.)
http://www.alzheimers.org
Fluxo da Informação Fluxo da Informação GenéticaGenética
Dogma Central da Biologia
O Projeto Genoma Humano O Projeto Genoma Humano (PGH)(PGH)
Iniciado em 1990
Financiamento de 3 milhões de dólares
Prazo previsto de 15 anos
Objetivos:
Identificar aproximadamente todos os 20.000-25.000 genes presentes no DNA humano
Determinar a seqüência de 3 bilhões de bases químicas presentes no DNA humano
Armazernar essas informações em bases de dados
Melhorar ferrametas para a análise dos dados
Transferir as tecnologias para o setor privado
Dado como concluído em 14 de Abril de 2003
Iniciativa Pública X Celera Iniciativa Pública X Celera GenomicsGenomics
J. Craig VenterVenterFrancis Collins
NHGRI - National Human Genome Research Institute
Celera Genomics
XX
TIGR J.Craig Venter Institute
Desenvolvendo BioinformáticaDesenvolvendo Bioinformática““O que aprendemos com o O que aprendemos com o
Projeto Genoma”Projeto Genoma”
Problema: SeqüenciamentoProblema: Seqüenciamento
Problema: Problema: SeqüenciamentoSeqüenciamento
Problema: Problema: SeqüenciamentoSeqüenciamento
Problema: Problema: SeqüenciamentoSeqüenciamento
Resolvendo o ProblemaResolvendo o Problema
Base CallingBase Calling
Phred : http://www.phrap.com/phred/
Lê o arquivo do cromatograma da seqüência de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.
Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%
Mascaramento de VetoresMascaramento de Vetores
Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante a construção das bibliotecas
>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT
>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
PHRAP (agrupamento) e PHRAP (agrupamento) e ConsedConsed
Reads
SeqüênciaConsenso
Alinhamento de SequênciasAlinhamento de Sequências
Determinar se as seqüências apresentam similaridade.
Uma similaridade significativa é um forte argumento
para homologia.
Definição dos termos :
Similaridade : é uma medida da qualidade do alinhamento entre
as seqüências, baseada em algum critério de comparação.
Homologia : refere-se à relação evolutiva entre as seqüências.
Genes Homólogos pode ser divididos em: ortólogos e parálogos
Genes HomólogosGenes Homólogos
Alinhamento de Sequências – Global x LocalAlinhamento de Sequências – Global x Local
Alinhamento Global
As sequências envolvidas dever ser alinhada de um extremo ao outro.
Ex.: ClustalW
Alinhamento Local
Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região.
Ex.: Blast, Blat
Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - -
Seq X : A T T A | | |Seq Y : A G T A
Seq X : A G C | | |Seq Y : A G C
Nova Geração de Nova Geração de Sequenciadores de DNASequenciadores de DNA
Roche (454)Roche (454) Illumina GAIllumina GA ABI SOLiDABI SOLiDABI 3730xlABI 3730xl
ABI 3730xl Roche (454) Illumina GA ABI SOLiD
Método SANGER - elétroforese em capilares
Piroseqüenciamento
Seqüenciamento por Síntese
Seqüenciamento por Ligação
Dados/run 290 Kb ~1 Gb ~20 Gb > 40 Gb
Tempo/run 1 hora 5 horas 3-9 dias 10 dias
Tamanho ~500 - 800 pb ~200 - 500 pb ~35-100 pb ~35 - 50 pb
Banco de DadosBanco de Dados
Propriedades:
-Representar um aspecto do mundo real;-Conter dados coerentes e com um significado inerente;-Deve ter um propósito;
A database is a repository for a collection of computerized data files. (C.J.Date)
A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)
Bancos de Dados para Bancos de Dados para Extração de ConhecimentoExtração de Conhecimento
Data warehouse
Databases
Integração dos Dados/Pré-Processamento
Seleção
Data mining
Dados
Padrões
ConhecimentoTransformação
Repositórios de Dados BiológicosRepositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb
1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information
1997 – EMBL – European Molecular Biology Laboratory
1986 – DDBJ – DNA Data Bank of Japan
International International NucleotideNucleotide Sequence Sequence Database Database ColaborationColaboration
2005100.000.000.000 bases
200898.868.465 seqüências99.116.431.942 bases
International International NucleotideNucleotide Sequence Sequence Database Database ColaborationColaboration
GenBankGenBank
Banco de Dados de Seqüências Genéticas do NIH
( http://www.ncbi.nlm.nih.gov/Genbank)
Repositório público de seqüências de nucleotídeosArquivamento de todos os dados de seqüências submetidos para qualquer organismo.
~20.000 submissões diretas por mês
~200.000 submissões a granel por mês
Redundância de seqüências do mesmo locusAnálise de Polimorfismo
International Nucleotide Sequence Database Collaboration
Último Release 15/08/2009108.431.692 seqüências (106.533.156.756 bases)
GenPeptBanco de dados de traduções automáticas das regiões codificadoras (CDS) das seqüências de nucleotídeos do GenBank®
Divisões do GenBankDivisões do GenBank
SIGLA DivisãoPRI primate sequences
ROD rodent sequences
MAM other mammalian sequences
VRT other vertebrate sequences
INV invertebrate sequences
PLN plant, fungal, and algal sequences
BCT bacterial sequences
VRL viral sequences
PHG bacteriophage sequences
SYN synthetic sequences
UNA unannotated sequences
EST EST sequences (expressed sequence tags)
PAT patent sequences
STS STS sequences (sequence tagged sites)
GSS GSS sequences (genome survey sequences)
HTG HTG sequences (high-throughput genomic sequences)
HTC unfinished high-throughput cDNA sequencing
ENV environmental sampling sequences
Organizada por TaxonomiaSubmissões DiretasAcurado (~1 error por 10.000 pb)Bem Caracterizada
Organizada por tipo de seqüênciaSubmissões a GranelNão acuradoNão é bem caracterizada
db
ES
Td
bG
SS
Co
reN
uc
leo
tid
e
RefSeqRefSeq
Coleção de seqüências curadas de DNA, RNA e proteínas.
(http://www.ncbi.nlm.nih.gov/RefSeq)
Somente um único exemplar de seqüência para cada molécula.
Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e eucariotos
15/10/2009
9.005 taxons distintos
Genômicas: 2.075.439
RNAs: 2.030.515
Proteínas: 8.835.796
Status do RegistroGENOME ANNOTATION
INFERRED
MODEL
PREDICTED
PROVISIONAL
REVIEWED
VALIDATED
WGS
RefSeqRefSeq
Accession Molecule MethodAP_123456 Protein Mixed
NC_123456 Genomic Mixed
NG_123456 Genomic Mixed
NM_123456NM_123456789
mRNA Mixed
NP_123456NP_123456789
Protein Mixed
NR_123456 RNA Mixed
NT_123456 Genomic Automated
NW_123456NW_123456789
Genomic Automated
NZ_ABCD12345678 Genomic Automated
XM_123456XM_123456789
mRNA Automated
XP_123456XP_123456789
Protein Automated
XR_123456 RNA Automated
YP_123456YP_123456789
Protein Mixed
ZP_12345678 Protein Automated
Mixed – processo automático e também de revisão.
GenBank GenBank versusversus RefSeq RefSeq
GenBank RefSeq
Não curado Curado
Submissão do autor Criado pelo NCBI a partir do GenBank
Somente o autor pode revisar
Múltiplos registros para o mesmo locus
Somente o autor faz a revisão NCBI revisa cada novo registro
Múltiplos registros para os mesmos loci Único registro para cada molécula de cada organismo
Registro podem entrar em contradições uns com os outros
Sem limites para espécies Limitado a organismos modelos
Dados compartilhados entre os membros do INSDC Exclusivo do NCBI
Assemelha-se à literatura primária Assemelha-se à artigos de revisão
Proteínas identificadas e relacionadas Proteínas e transcritos são identificados e relacionados
Acesso via NCBI Nucleotide database Acesso via Nucleotide & Protein databases
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
FASTA (Pearson)
>gi|28302128|ref|NM_000518.4| Homo sapiens hemoglobin, beta (HBB), mRNAACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC
GenBank
LOCUS NM_000518 626 bp mRNA linear PRI 27-JAN-2008DEFINITION Homo sapiens hemoglobin, beta (HBB), mRNA.ACCESSION NM_000518VERSION NM_000518.4 GI:28302128KEYWORDS .SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 626) AUTHORS Ma,Q., Abel,K., Sripichai,O., Whitacre,J., Angkachatchai,V., Makarasara,W., Winichagoon,P., Fucharoen,S., Braun,A. and Farrer,L.A. TITLE Beta-globin gene cluster polymorphisms are strongly associated with severity of HbE/beta(0)-thalassemia JOURNAL Clin. Genet. 72 (6), 497-505 (2007) PUBMED 17894837 REMARK GeneRIF: Forty-five SNPs within the interval including the LCR region and the delta gene showed strong association with disease severity.
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from L48217.1. On Feb 11, 2003 this sequence version replaced gi:13788565. Summary: The alpha (HBA) and beta (HBB) loci determine the structure of the 2 types of polypeptide chains in adult hemoglobin, Hb A. The normal adult hemoglobin tetramer consists of two alpha chains and two beta chains. Mutant beta globin causes sickle cell anemia. Absence of beta chain causes beta-zero-thalassemia. Reduced amounts of detectable beta globin causes beta-plus-thalassemia. The order of the genes in the beta-globin cluster is 5'-epsilon -- gamma-G -- gamma-A -- delta -- beta--3'. Publication Note: This RefSeq record includes a subset of the publications that are available for this gene. Please see the Entrez Gene record to access additional publications. COMPLETENESS: full length.FEATURES Location/Qualifiers source 1..626 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /chromosome="11" /map="11p15.5"
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
gene 1..626 /gene="HBB" /note="hemoglobin, beta; synonyms: HBD, CD113t-C" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" exon 1..142 /gene="HBB" /inference="alignment:Splign" /number=1 CDS 51..494 /gene="HBB" /GO_component="hemoglobin complex [PMID 1540659] [PMID 10588683]" /GO_function="heme binding; hemoglobin binding [PMID 1512262]; iron ion binding; metal ion binding; oxygen binding [PMID 11747442]; oxygen transporter activity [PMID 1971109] [PMID 11747442]; selenium binding [PMID 15780970]"
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
/GO_process="nitric oxide transport [PMID 8292032]; oxygen transport [PMID 154069] [PMID 11747442]; positive regulation of nitric oxide biosynthesis [PMID 7965120]; transport“ /note="beta globin chain" /codon_start=1 /product="beta globin" /protein_id="NP_000509.1" /db_xref="GI:4504349" /db_xref="CCDS:CCDS7753.1" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" /translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH" exon 143..365 /gene="HBB" /inference="alignment:Splign" /number=2
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
exon 366..626 /gene="HBB" /inference="alignment:Splign" /number=3 polyA_signal 602..607 /gene="HBB" polyA_site 626 /gene="HBB"
ORIGIN 1 acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atggtgcatc 61 tgactcctga ggagaagtct gccgttactg ccctgtgggg caaggtgaac gtggatgaag 121 ttggtggtga ggccctgggc aggctgctgg tggtctaccc ttggacccag aggttctttg 181 agtcctttgg ggatctgtcc actcctgatg ctgttatggg caaccctaag gtgaaggctc 241 atggcaagaa agtgctcggt gcctttagtg atggcctggc tcacctggac aacctcaagg 301 gcacctttgc cacactgagt gagctgcact gtgacaagct gcacgtggat cctgagaact 361 tcaggctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc aaagaattca 421 ccccaccagt gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 481 acaagtatca ctaagctcgc tttcttgctg tccaatttct attaaaggtt cctttgttcc 541 ctaagtccaa ctactaaact gggggatatt atgaagggcc ttgagcatct ggattctgcc 601 taataaaaaa catttatttt cattgc//
Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI
Formato PadrFormato Padrão ASN.1ão ASN.1Abstract Syntax Notation One
International Standards Organization (ISO)
Linguagem formal para a definição de tipos de dados abstratos
NCBI define as especificação para o armazenamento de seqüências de nucleotídeos, proteínas, estruturas, genomas, etc.
Seq-entry ::= set { level 1 , class nuc-prot , descr { user { type str "RefSeqGene" , data { { label str "Status" , data str "Reference Standard" } } } ,
…
Formato XMLFormato XML
Standard Generalized Markup Language (SGML)
eXtensible Markup Language
Recomendação da W3C para gerar linguagens de marcação para necessidades especiais
Intercâmbio de dados estruturados.
Similar à HyperText Markup Language (HTML)
Document Type Definition (DTD) – especificação da estrutura
Modular
<?xml version="1.0"?><!DOCTYPE Seq-entry PUBLIC "-//NCBI//NCBI Seqset/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_Seqset.dtd"><Seq-entry> <Seq-entry_set> <Bioseq-set> <Bioseq-set_level>1</Bioseq-set_level> <Bioseq-set_class value="nuc-prot"/> <Bioseq-set_descr> <Seq-descr> <Seqdesc> <Seqdesc_user> <User-object> <User-object_type> <Object-id> <Object-id_str>RefSeqGene</Object-id_str>
…
UniGeneUniGene
Sistema analítico automatizado para produzir uma visão organizada do transcriptoma.
(http://www.ncbi.nlm.nih.gov/UniGene/)
Contribuição Expressed Sequence Tags (ESTs)
Pode auxiliar na identificação de uma seqüência não anotada por similiaridade
Análise de Expressão Gênica DiferencialDigital Differential Display (DDD)
Agrupamento (Clusterização) Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores)
Excluir seqüências mitocondriais e de rRNA
Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos transponíveis (transposons)
Somente seqüências com mais de 100 pb de alta qualidade não repetitiva
Alinhamento de seqüências (Megablast)
• Sobreposição com um nível tolerável de mismatch
Cluster pode conter mais de uma forma alternativa do gene
Cluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’])
UniGeneUniGene
query
5’ EST hits
3’ EST hits
Profundidade Quantidade
32769-65536 1
16385-32768 5
8193-16384 17
4097-8192 57
2049-4096 211
1025-2048 716
513-1024 1910
257-512 4096
129-256 4579
65-128 3917
33-64 3968
17-32 5260
9-16 8156
5-8 13317
3-4 17960
2 18600
1 40871
Hs build #219
Repositórios de Seqüências deRepositórios de Seqüências deProteínasProteínas
• UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL e PIR)
(http://beta.uniprot.org/)
UPI00000015C9
HBB – Hemoglobin Beta
P68871
UniRef100_P68871UniRef90_P68871UniRef50_P02042
UCSC Genome BrowserUCSC Genome Browser
Fonte de dados secundária de sequências genômicas de uma variedade de vertebrados e invertebrados e de organismos-modelo.
Possui uma grande coleção de alinhamentos anotados.
Inicialmente desenvolvido e mantido por Jim Kent.
Utiliza o software de alinhamento BLAT para procuras por similaridade
UCSC Genome BrowserUCSC Genome Browser
Questões ???Questões ???