Banco de dados biológicos

39
BANCOS DE DADOS BIOLÓGICOS Jorge Mondego

Transcript of Banco de dados biológicos

BANCOS DE DADOS BIOLÓGICOS

Jorge Mondego

Bancos de dados biológicos

Bancos de dados incluem:

- Arquivos contendo as informações

- Organização lógica e estruturada dessas informações

- Ferramentas para se ter acesso às informações

Disponibilizar dados biológicos para os cientistas

O máximo possível de um tipo particular de informação deve estar disponível em um único lugar

Por que criar bancos de dados biológicos?

Dados publicados podem ser difíceis de encontrar ou acessar

Coletá-los da literatura consume muito tempo

Disponibilizar dados em formato que possa ser lido por um computador

- Todo banco de dados é composto por entradas (pacotes discretos e coerentes de informação)

- Um software de recuperação de informação identifica entradas relevantes para o seu interesse

- Para que a pesquisa seja bem-sucedida, seja o mais específico possível

- Se você procura uma albumina de galinha....

Como acessar e recuperar informações dos bancos de dados?

- Se você procura uma albumina de galinha....

Busque por Chicken AND albumin

- Se você for procurar primeiro por Chicken vão aparecer entradas que não contêm informação sobre as albuminas (perda de tempo)

- Se você procurar por albumin vão aparecer entradas contendo a informação sobre albuminas que não são necessariamente de galinha (perda de informação)

• Saiba o quê e aonde você está pesquisando....

E. coli – Escherichia coli

E. Coli – Elisabetta coli, pesquisadora do departamento de psiquiatria, farmacologia, neurobiologia e biotecnologia.Seção de psiquiatria, Universidade de Pisa, Italia.

Sede por conhecimento

-Talvez você não encontre o que você busca, mas se e ncontrar.....provavelmente vai querer saber mais

- Exemplos: - Exemplos:

-Achar genes homólogos ao que você buscou

-Referências bibliográficas sobre o gene

-Estrutura da proteína codifcada por esse gene

Conecção entre os bancos de dados(Interatividade)

-Achar genes homólogos ao que você buscou- Conecção entre entradas do mesmo banco(banco de dados de genes)

-Referências bibliográficas sobre o gene- Conecção entre banco de dados de genes e banco - Conecção entre banco de dados de genes e banco de referências

-Estrutura da proteína codifcada por esse gene-Conecção entre banco de dados de genes e banco de struturas de proteínas

Bancos de dados e o crescimento da informação

Informação aumenta e os bancos devem se adequar

- Aumento do recurso computacional para o arquivamento einterpretação dos dados

- Aumento do número de bancos especializados (“boutiques”)

Informação aumenta, os genes evolueme os bancos devem se adequar...e ..evoluir

- Aumento do número de bancos especializados (“boutiques”)

- Surgimento dos sites “guarda-chuva” – tipo portal

- Aumento da interatividade

1 - Bancos de dados primários (seqüências de nucleot ídeos)- NCBI, EMBL, DDBJ2 - Meta-databases ENTREZ3 - Bancos de dados genômicosEnsembl, SGD, TAIR4 - Bancos de dados de proteínasUNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY5 - Bancos de dados de estrutura de proteínas

Exemplos de bancos de dados públicos para biologia molecular

5 - Bancos de dados de estrutura de proteínasPDB6 - Bancos de domínios e motivos proteicosPFAM, SMART, PROSITE, PRODOM, PRINTS7 - Bancos de vias metabólicasKEGG, BioCyc8 - Bancos de dados de expressão gênicaArrayExpress, GEO9 - Bancos de ontologiaGene Ontology

1 - Bancos de dados primários (seqüências de nucleot ídeos)

DDBJ (DNA Data Bank of Japan) EMBL Nucleotide DB (European Molecular Biology Labo ratory - EBI)

GenBank (National Center for Biotechnology Informa tion - NCBI)

Consórcio International Nucleotide Sequence Database (INSD)

Armazenam seqüências de nucleotídeos de todos os or ganismos

Eles trocam informação e são fontes para outros ban cos de dados

http://www.ddbj.nig.ac.jp/

http://www.ebi.ac.uk/embl/

http://www.ncbi.nlm.nih.gov/

Ponto forte do sistema NCBI são as conexões entreos vários bancos de dados

Selecionar

Inserir consulta

PubMed: biomedical literature citations and abstrac ts, includingMedline - articles from (mainly medical) journals

PubMed Central: free, full text journal articles Books: online books OMIM: online Mendelian Inheritance in Man OMIA: online Mendelian Inheritance in Animals Nucleotide : sequence database (GenBank) Protein : sequence database Genome : whole genome sequences and Mapping Structure : three-dimensional macromolecular structures Taxonomy : organisms in GenBank Taxonomy SNP: single nucleotide polymorphism Gene: gene-centered information HomoloGene : eukaryotic homology groups

Busca em vários bancosdo NCBI

Entrez

2–Meta-database

HomoloGene : eukaryotic homology groups PubChem Compound: unique small molecule chemical st ructures PubChem Substance: deposited chemical substance rec ords Genome Project: genome project information UniGene: gene-oriented clusters of transcript seque nces CDD: conserved protein domain database 3D Domains : domains from Entrez Structure UniSTS : markers and mapping data PopSet : population study data sets (epidemiology) GEO Profiles : expression and molecular abundance profiles GEO DataSets : experimental sets of GEO data Cancer Chromosomes : cytogenetic databases PubChem BioAssay : bioactivity screens of chemical substances GENSAT: gene expression atlas of mouse central nervous sy stem Probe : sequence-specific reagents

do NCBI

Interface por meio da qual todos os seusBDs componentes

podem ser acessados

3 - Bancos de dados genômicos

Coleção de informações sobre determinados genomas ( quase sempre organimos modelo).

Dados de anotação vinculados a genome browse

Iniciativa conjunta ente o EBI e o Sanger Center. Coleta e anotação de seqüências disponíveis de eucariotos, tendo como foco principal o Homo sapiens.

Busca por região no cromossomo 16

Ensembl fornece:- Genomas completos de diversos - Anotação de SNPs- Alinhamento com seqüências homólogas de outros orga nismo- Correlações com outros bancos de dados

SGD fornece:-Genoma completo-Fenótipos de mutantes específicos para cada gene-Dados de expressão gênica

The Arabidopsis Information Resource

TAIR fornece:-Genoma completo-Localização das inserções de T-DNA-Dados de expressão gênica

4 - Bancos de proteínas

Consórcio que visa fornecer anotação relevante e cu rada de proteínas. Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica.

Como funciona:

Proteínas anotadas são incluídas no UniProtKB-Swiss ProtTraduções de genes depositados no EBI são incluídos no UniProt-TrEMBL

Vantagens do UniProt:Vantagens do UniProt:

- banco curado manualmente

- contém muita informação sobre as proteínas (glicosilação, pontes dissulfeto, Sítios transmembrana)

- conectado a outros bancos de dados de proteínas

ExPASy – Expert Protein Analysis System

Sistema de análise e recuperação de informação de p roteínas.

Produz as anotações para o UniProtKB/SwissProt

Possui uma série de ferramentas para análise de pro teínas

5 - Bancos de estruturas de proteínas e outras macro moléculas

Estrutura do vírus da dengue

Anota, cataloga e distribui conjuntos de coordenada satômicas de macromoléculas

PDB fornece:- Detalhes experimentais sobre a geração da estrutura- Atribuições da estrutura- Coordenações atômicas- Links para outros bancos de dados

6 - Bancos de domínios proteicos

Anotam e catalogam domínios ou motivos proteicos. F azem comparações entre sequencia de consulta e banco de dados.

Os domínios ajudam na identificação de moléculas que compartilham

a mesma atividade

Interpro: Portal que inclui vários bancos de dados de domínios e de estrutura de proteínas

O Interpro une as anotações dos bancos “residentes” e gera uma código de acesso “consenso”

7 - Bancos de vias metabólicasKegg – coleção de bancos de dados on-line que ligam genomas com vias enzimáticas

EC number

BioCyc liga genomas e vias metabólicas

8 - Bancos de dados de expressão gênica

- Banco de dados de depósito de dados de expressão gê nica em larga escala (ArrayExpress – somente microarranjos)

9 - Bancos de ontologia

Gene Ontology (GO) project, fornece um vocabulário controlado para descrevergenes e produtos gênicos de um organismo.

Ontologias :Ontologias :

Molecular Function (atividade enzimática, função biológica)Biological process (processo em que a proteína está envolvida), Cellular component (Ccompartimento onde a proteína se localiza)

As ontologias são estruturadas como grafos acícilic os diretos. Parece uma Hierarquia, porém termos mais especializa dos (filhos)podem ser relacionados a mais de um termo menos esp ecializado (pai).

Biological process – Biossíntese de hexose tem dois pais:

- Processo metabólico de hexose e processo biossinté tico de monossacarídeos

- Biossíntese de hexose é um tipo de processo metabó lico e hexose é um monossacarídeo

- Qualquer gene envolvido com biossíntese de hexose será anotado com esse termo e automaticamente anotado e m processo metabólico de hexose e processo biossintét ico de monossacarídeos

Busca por ontologia no GO

Níveis GO

http://nar.oxfordjournals.org/cgi/content/full/gkm1 037/DC1/1

NAR database issue 2008

http://nar.oxfordjournals.org/content/vol36/suppl_1 /index.dtl