Introdução à Bioinformática e Bancos de Dados...

Introdução à Bioinformática e Introdução à Bioinformática e Bancos de Dados BiológicosBancos de Dados Biológicos

Thiago Yukio Kikuchi Oliveira

Um breve histórico...Um breve histórico...

1990Início doProjeto

Genoma Humano

1953Estrutura do DNA

1865Gregor Mendel

publica seu experimentos

1949Experimentos de Erwin Chargaff

1969Criação da ARPANET

e UNIX

1985Lançado o MS Windows 1.0

1991Lançada a

versão 1.0 do Kernel Linux

2003TérminoProjeto

Genoma Humano

1946ENIAC

O GenomaO Genoma

Definição: Informação genética total carregada por uma célula ou organismo; especificamente, o DNA, que carrega esta informação. (Alberts et al.)

http://www.alzheimers.org

Fluxo da Informação Fluxo da Informação GenéticaGenética

Dogma Central da Biologia

O Projeto Genoma Humano O Projeto Genoma Humano (PGH)(PGH)

Iniciado em 1990

Financiamento de 3 milhões de dólares

Prazo previsto de 15 anos

Objetivos:

Identificar aproximadamente todos os 20.000-25.000 genes presentes no DNA humano

Determinar a seqüência de 3 bilhões de bases químicas presentes no DNA humano

Armazernar essas informações em bases de dados

Melhorar ferrametas para a análise dos dados

Transferir as tecnologias para o setor privado

Dado como concluído em 14 de Abril de 2003

Iniciativa Pública X Celera Iniciativa Pública X Celera GenomicsGenomics

J. Craig VenterVenterFrancis Collins

NHGRI - National Human Genome Research Institute

Celera Genomics

TIGR J.Craig Venter Institute

Desenvolvendo BioinformáticaDesenvolvendo Bioinformática““O que aprendemos com o O que aprendemos com o

Projeto Genoma”Projeto Genoma”

Problema: SeqüenciamentoProblema: Seqüenciamento

Problema: Problema: SeqüenciamentoSeqüenciamento

Resolvendo o ProblemaResolvendo o Problema

Base CallingBase Calling

Phred : http://www.phrap.com/phred/

Lê o arquivo do cromatograma da seqüência de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%

Mascaramento de VetoresMascaramento de Vetores

Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante a construção das bibliotecas

>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT

>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

PHRAP (agrupamento) e PHRAP (agrupamento) e ConsedConsed

SeqüênciaConsenso

Alinhamento de SequênciasAlinhamento de Sequências

Determinar se as seqüências apresentam similaridade.

Uma similaridade significativa é um forte argumento

para homologia.

Definição dos termos :

Similaridade : é uma medida da qualidade do alinhamento entre

as seqüências, baseada em algum critério de comparação.

Homologia : refere-se à relação evolutiva entre as seqüências.

Genes Homólogos pode ser divididos em: ortólogos e parálogos

Genes HomólogosGenes Homólogos

Alinhamento de Sequências – Global x LocalAlinhamento de Sequências – Global x Local

Alinhamento Global

As sequências envolvidas dever ser alinhada de um extremo ao outro.

Ex.: ClustalW

Alinhamento Local

Procura-se alinhar apenas as regiões mais similares, independente da localização relativa de cada região.

Ex.: Blast, Blat

Seq X : A T T A | | |Seq Y : A G T A

Seq X : A G C | | |Seq Y : A G C

Nova Geração de Nova Geração de Sequenciadores de DNASequenciadores de DNA

Roche (454)Roche (454) Illumina GAIllumina GA ABI SOLiDABI SOLiDABI 3730xlABI 3730xl

ABI 3730xl Roche (454) Illumina GA ABI SOLiD

Método SANGER - elétroforese em capilares

Piroseqüenciamento

Seqüenciamento por Síntese

Seqüenciamento por Ligação

Dados/run 290 Kb ~1 Gb ~20 Gb > 40 Gb

Tempo/run 1 hora 5 horas 3-9 dias 10 dias

Tamanho ~500 - 800 pb ~200 - 500 pb ~35-100 pb ~35 - 50 pb

Banco de DadosBanco de Dados

Propriedades:

-Representar um aspecto do mundo real;-Conter dados coerentes e com um significado inerente;-Deve ter um propósito;

A database is a repository for a collection of computerized data files. (C.J.Date)

A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

Bancos de Dados para Bancos de Dados para Extração de ConhecimentoExtração de Conhecimento

Data warehouse

Databases

Integração dos Dados/Pré-Processamento

Seleção

Data mining

Padrões

ConhecimentoTransformação

Repositórios de Dados BiológicosRepositórios de Dados Biológicos

1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb

1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

1997 – EMBL – European Molecular Biology Laboratory

1986 – DDBJ – DNA Data Bank of Japan

International International NucleotideNucleotide Sequence Sequence Database Database ColaborationColaboration

2005100.000.000.000 bases

200898.868.465 seqüências99.116.431.942 bases

International International NucleotideNucleotide Sequence Sequence Database Database ColaborationColaboration

GenBankGenBank

Banco de Dados de Seqüências Genéticas do NIH

( http://www.ncbi.nlm.nih.gov/Genbank)

Repositório público de seqüências de nucleotídeosArquivamento de todos os dados de seqüências submetidos para qualquer organismo.

~20.000 submissões diretas por mês

~200.000 submissões a granel por mês

Redundância de seqüências do mesmo locusAnálise de Polimorfismo

International Nucleotide Sequence Database Collaboration

Último Release 15/08/2009108.431.692 seqüências (106.533.156.756 bases)

GenPeptBanco de dados de traduções automáticas das regiões codificadoras (CDS) das seqüências de nucleotídeos do GenBank®

Divisões do GenBankDivisões do GenBank

SIGLA DivisãoPRI primate sequences

ROD rodent sequences

MAM other mammalian sequences

VRT other vertebrate sequences

INV invertebrate sequences

PLN plant, fungal, and algal sequences

BCT bacterial sequences

VRL viral sequences

PHG bacteriophage sequences

SYN synthetic sequences

UNA unannotated sequences

EST EST sequences (expressed sequence tags)

PAT patent sequences

STS STS sequences (sequence tagged sites)

GSS GSS sequences (genome survey sequences)

HTG HTG sequences (high-throughput genomic sequences)

HTC unfinished high-throughput cDNA sequencing

ENV environmental sampling sequences

Organizada por TaxonomiaSubmissões DiretasAcurado (~1 error por 10.000 pb)Bem Caracterizada

Organizada por tipo de seqüênciaSubmissões a GranelNão acuradoNão é bem caracterizada

RefSeqRefSeq

Coleção de seqüências curadas de DNA, RNA e proteínas.

(http://www.ncbi.nlm.nih.gov/RefSeq)

Somente um único exemplar de seqüência para cada molécula.

Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e eucariotos

15/10/2009

9.005 taxons distintos

Genômicas: 2.075.439

RNAs: 2.030.515

Proteínas: 8.835.796

Status do RegistroGENOME ANNOTATION

INFERRED

PREDICTED

PROVISIONAL

REVIEWED

VALIDATED

RefSeqRefSeq

Accession Molecule MethodAP_123456 Protein Mixed

NC_123456 Genomic Mixed

NG_123456 Genomic Mixed

NM_123456NM_123456789

mRNA Mixed

NP_123456NP_123456789

Protein Mixed

NR_123456 RNA Mixed

NT_123456 Genomic Automated

NW_123456NW_123456789

Genomic Automated

NZ_ABCD12345678 Genomic Automated

XM_123456XM_123456789

mRNA Automated

XP_123456XP_123456789

Protein Automated

XR_123456 RNA Automated

YP_123456YP_123456789

Protein Mixed

ZP_12345678 Protein Automated

Mixed – processo automático e também de revisão.

GenBank GenBank versusversus RefSeq RefSeq

GenBank RefSeq

Não curado Curado

Submissão do autor Criado pelo NCBI a partir do GenBank

Somente o autor pode revisar

Múltiplos registros para o mesmo locus

Somente o autor faz a revisão NCBI revisa cada novo registro

Múltiplos registros para os mesmos loci Único registro para cada molécula de cada organismo

Registro podem entrar em contradições uns com os outros

Sem limites para espécies Limitado a organismos modelos

Dados compartilhados entre os membros do INSDC Exclusivo do NCBI

Assemelha-se à literatura primária Assemelha-se à artigos de revisão

Proteínas identificadas e relacionadas Proteínas e transcritos são identificados e relacionados

Acesso via NCBI Nucleotide database Acesso via Nucleotide & Protein databases

Principais Formatos dos Bancos de Dados Principais Formatos dos Bancos de Dados Flat filesFlat files do NCBI do NCBI

FASTA (Pearson)

>gi|28302128|ref|NM_000518.4| Homo sapiens hemoglobin, beta (HBB), mRNAACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGCAGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGATCCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCACCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCACTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACTGGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC

GenBank

LOCUS NM_000518 626 bp mRNA linear PRI 27-JAN-2008DEFINITION Homo sapiens hemoglobin, beta (HBB), mRNA.ACCESSION NM_000518VERSION NM_000518.4 GI:28302128KEYWORDS .SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 626) AUTHORS Ma,Q., Abel,K., Sripichai,O., Whitacre,J., Angkachatchai,V., Makarasara,W., Winichagoon,P., Fucharoen,S., Braun,A. and Farrer,L.A. TITLE Beta-globin gene cluster polymorphisms are strongly associated with severity of HbE/beta(0)-thalassemia JOURNAL Clin. Genet. 72 (6), 497-505 (2007) PUBMED 17894837 REMARK GeneRIF: Forty-five SNPs within the interval including the LCR region and the delta gene showed strong association with disease severity.

COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from L48217.1. On Feb 11, 2003 this sequence version replaced gi:13788565. Summary: The alpha (HBA) and beta (HBB) loci determine the structure of the 2 types of polypeptide chains in adult hemoglobin, Hb A. The normal adult hemoglobin tetramer consists of two alpha chains and two beta chains. Mutant beta globin causes sickle cell anemia. Absence of beta chain causes beta-zero-thalassemia. Reduced amounts of detectable beta globin causes beta-plus-thalassemia. The order of the genes in the beta-globin cluster is 5'-epsilon -- gamma-G -- gamma-A -- delta -- beta--3'. Publication Note: This RefSeq record includes a subset of the publications that are available for this gene. Please see the Entrez Gene record to access additional publications. COMPLETENESS: full length.FEATURES Location/Qualifiers source 1..626 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /chromosome="11" /map="11p15.5"

gene 1..626 /gene="HBB" /note="hemoglobin, beta; synonyms: HBD, CD113t-C" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" exon 1..142 /gene="HBB" /inference="alignment:Splign" /number=1 CDS 51..494 /gene="HBB" /GO_component="hemoglobin complex [PMID 1540659] [PMID 10588683]" /GO_function="heme binding; hemoglobin binding [PMID 1512262]; iron ion binding; metal ion binding; oxygen binding [PMID 11747442]; oxygen transporter activity [PMID 1971109] [PMID 11747442]; selenium binding [PMID 15780970]"

/GO_process="nitric oxide transport [PMID 8292032]; oxygen transport [PMID 154069] [PMID 11747442]; positive regulation of nitric oxide biosynthesis [PMID 7965120]; transport“ /note="beta globin chain" /codon_start=1 /product="beta globin" /protein_id="NP_000509.1" /db_xref="GI:4504349" /db_xref="CCDS:CCDS7753.1" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" /translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH" exon 143..365 /gene="HBB" /inference="alignment:Splign" /number=2

exon 366..626 /gene="HBB" /inference="alignment:Splign" /number=3 polyA_signal 602..607 /gene="HBB" polyA_site 626 /gene="HBB"

ORIGIN 1 acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atggtgcatc 61 tgactcctga ggagaagtct gccgttactg ccctgtgggg caaggtgaac gtggatgaag 121 ttggtggtga ggccctgggc aggctgctgg tggtctaccc ttggacccag aggttctttg 181 agtcctttgg ggatctgtcc actcctgatg ctgttatggg caaccctaag gtgaaggctc 241 atggcaagaa agtgctcggt gcctttagtg atggcctggc tcacctggac aacctcaagg 301 gcacctttgc cacactgagt gagctgcact gtgacaagct gcacgtggat cctgagaact 361 tcaggctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc aaagaattca 421 ccccaccagt gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 481 acaagtatca ctaagctcgc tttcttgctg tccaatttct attaaaggtt cctttgttcc 541 ctaagtccaa ctactaaact gggggatatt atgaagggcc ttgagcatct ggattctgcc 601 taataaaaaa catttatttt cattgc//

Formato PadrFormato Padrão ASN.1ão ASN.1Abstract Syntax Notation One

International Standards Organization (ISO)

Linguagem formal para a definição de tipos de dados abstratos

NCBI define as especificação para o armazenamento de seqüências de nucleotídeos, proteínas, estruturas, genomas, etc.

Seq-entry ::= set { level 1 , class nuc-prot , descr { user { type str "RefSeqGene" , data { { label str "Status" , data str "Reference Standard" } } } ,

Formato XMLFormato XML

Standard Generalized Markup Language (SGML)

eXtensible Markup Language

Recomendação da W3C para gerar linguagens de marcação para necessidades especiais

Intercâmbio de dados estruturados.

Similar à HyperText Markup Language (HTML)

Document Type Definition (DTD) – especificação da estrutura

Modular

<?xml version="1.0"?><!DOCTYPE Seq-entry PUBLIC "-//NCBI//NCBI Seqset/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_Seqset.dtd"><Seq-entry> <Seq-entry_set> <Bioseq-set> <Bioseq-set_level>1</Bioseq-set_level> <Bioseq-set_class value="nuc-prot"/> <Bioseq-set_descr> <Seq-descr> <Seqdesc> <Seqdesc_user> <User-object> <User-object_type> <Object-id> <Object-id_str>RefSeqGene</Object-id_str>

UniGeneUniGene

Sistema analítico automatizado para produzir uma visão organizada do transcriptoma.

(http://www.ncbi.nlm.nih.gov/UniGene/)

Contribuição Expressed Sequence Tags (ESTs)

Pode auxiliar na identificação de uma seqüência não anotada por similiaridade

Análise de Expressão Gênica DiferencialDigital Differential Display (DDD)

Agrupamento (Clusterização) Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores)

Excluir seqüências mitocondriais e de rRNA

Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos transponíveis (transposons)

Somente seqüências com mais de 100 pb de alta qualidade não repetitiva

Alinhamento de seqüências (Megablast)

• Sobreposição com um nível tolerável de mismatch

Cluster pode conter mais de uma forma alternativa do gene

Cluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’])

UniGeneUniGene

5’ EST hits

3’ EST hits

Profundidade Quantidade

32769-65536 1

16385-32768 5

8193-16384 17

4097-8192 57

2049-4096 211

1025-2048 716

513-1024 1910

257-512 4096

129-256 4579

65-128 3917

33-64 3968

17-32 5260

9-16 8156

5-8 13317

3-4 17960

2 18600

1 40871

Hs build #219

Repositórios de Seqüências deRepositórios de Seqüências deProteínasProteínas

• UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL e PIR)

(http://beta.uniprot.org/)

UPI00000015C9

HBB – Hemoglobin Beta

P68871

UniRef100_P68871UniRef90_P68871UniRef50_P02042

UCSC Genome BrowserUCSC Genome Browser

Fonte de dados secundária de sequências genômicas de uma variedade de vertebrados e invertebrados e de organismos-modelo.

Possui uma grande coleção de alinhamentos anotados.

Inicialmente desenvolvido e mantido por Jim Kent.

Utiliza o software de alinhamento BLAT para procuras por similaridade

UCSC Genome BrowserUCSC Genome Browser

Questões ???Questões ???

Introdução à Bioinformática e Bancos de Dados...

Documents

Transcript of Introdução à Bioinformática e Bancos de Dados...

Avanços e perspectivas em Bioinformática

Bioinformática Felipe G. Torres. DICA

Capítulos extras

LABORATÓRIO DE BIOINFORMÁTICA

Testes em Bioinformática

Utilizando Inteligência Artificial em Bioinformática

Introdução à Lógica de Programação Utilizando Perllgmb.fmrp.usp.br/cvbioinfo2008/extras/apresentacoes/thiago_logica.pdf · (Perl, Pascal, C, Cobol, Fortran, Java entre outras)

Palestra sobre Bioinformática

Bioinformática Aplicada · 000000000000000000000000000000000000000 000000000000000000000000000000000000000 000000000000111111111110001100000000000 000000000001111111111111111111000000001

Bioinformática: Anotação Funcional de Proteínas · Bioinformática: Anotação Funcional de Proteínas Rafael Dias Mesquita rdmesquita@iq.ufrj.br Laboratório de Bioinformática

Curso de bioinformática

Sistema Excretor (extras)

Palestra sobre Bioinformática - dei.isep.ipp.pt · Palestra sobre Bioinformática. 2 Agenda ... – Há grande diversidade e interligação de repositórios ... • Algorithmic Heights

Bioinformática e Investigação Criminal - edusantos.eti.bredusantos.eti.br/mcampos/bioinfo_forense_edusantos_aula_01.pdf · edu.campos.santos@gmail.com Bioinformática e Investigação

A importância da Bioinformática

Título da Apresentação - lgmb.fmrp.usp.brlgmb.fmrp.usp.br/cvbioinfo2009/extras/apresentacoes/Perl_0402.pdf · Variáveis e Estrutura de Dados Referências Expressões Regulares

Bioinformática-Modelos Computacionales Bioinspirados Bioinformática-Modelos Computacionales Bioinspirados Instituto Universitario de Sistemas Inteligentes.

Bioinformática en la era post-genómica

Uso da bioinformática na análise genômica. Início Fim Receber Processar Anotar Depositar Bioinformática.

Bioinformática com Biopython