Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira [email protected].

44
Formato de Arquivos e Formato de Arquivos e Bancos de Dados Biológicos Bancos de Dados Biológicos Gislaine S. P. Pereira [email protected]

Transcript of Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira [email protected].

Page 1: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato de Arquivos e Formato de Arquivos e Bancos de Dados BiológicosBancos de Dados Biológicos

Gislaine S. P. [email protected]

Page 2: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

DBs - NCBI DBs - NCBI

NCBI (National Center for Biotechnology Information)

1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular

– Bancos de Dados públicos;

– Pesquisas na área da biologia computacional;

– Desenvolvimento de ferramentas para análise de dados genômicos;

– Informações biomédicas.

http://www.ncbi.nlm.nih.gov/

Page 3: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

NCBINCBI

Page 4: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

EntrezEntrez

Sistema de busca robusto que realiza

a procura simultânea em múltiplos bancos.

Page 5: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

EntrezEntrez

Mapa do relacionamento entre os diferentes bancos de dados.Mapa

Page 6: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Entrez BuscaEntrez Busca

Page 7: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

GB: gene bank - accession number

identifica a seqüência

e sua versão

GI : gene Info Identifier

identificador único

para cada seqüência

Page 8: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

O número do taxon é importante para pesquisas nos dbs.

Page 9: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 10: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 11: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato FastaFormato Fasta

>

identificação

Page 12: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato ASNFormato ASN

Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

Page 13: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP (Simple Object Access Protocol)

Protocolo para troca de informações.EInfo – retorna última atualização e links disponíveis para

cada db.

ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary).

EPost – retorna arquivo com de IDs (buscas subseqüentes).

ESummary – retorna o resumo de documentos buscando por IDs.

Page 14: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP

EFetch – retorna registros de uma lista de IDs no formato solicitado.

ELink – verifica links para artigos externos ou do db buscando por IDs.

Retorna os IDs dos artigos.

EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query).

ESpell – Retorna sugestões de ortografia.

Page 15: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

FTP (File Transfer Protocol)

GenBank – anotações de seqüências de DNA.

Gene – Informações sobre genes (organismos completamente seqüenciados).

RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos.

Cn3D – Programa de visualização de estruturas 3D.

BLAST – alinhamento local em bases de dados.

ftp://ftp.ncbi.nih.gov/

Page 16: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

DBs - EMBLDBs - EMBL

EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute)

Cambridge (Inglaterra);

Pioneiro no desenvolvimento de pesquisas em bioinformática;

Desenvolve banco de dados biológicos e programas

http://www.ebi.ac.uk/

Page 17: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

BD de seqüências de nucleotídeos do EMBL

- Catálogo mais completo de informações sobre proteínas.

- Repositório central de seqüências e

funções de proteínas (informações

UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e

PIR).

Page 18: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

Repositório público para dados de transcriptoma e relacionados.

-> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas.

Ensembl Genome Browser

Projeto em conjunto com o Instituto Sanger

Matém anotação automática de genomas de

eucariotos.

Ensembl anota genes conhecidos e novos

com a anotação de sua função fornecida por

InterPro, OMIM, SAGE e famílias gênicas.

O acesso aos dados e ao software são

livres e sem restrição.

Page 19: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.

Macromolecular Structure Database Group

Projeto europeu para a coleta,

gerenciamento e destribuição de dados

sobre estruturas macromoleculares

derivadas em parte do PDB (World Wide

Protein Data Bank).

Page 20: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Bancos de DadosBancos de Dados

Page 21: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

BuscaBusca

Page 22: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

BuscaBusca

Page 23: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

BuscaBusca

Page 24: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato EmblFormato Embl

ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco

Page 25: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato EmblFormato Embl

FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

Continuação do arquivo

Page 26: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Page 27: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Page 28: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Formato PIRFormato PIR

> Sinal de maiorDuas letras descrevendo o tipo

Protein (complete) P1Protein (fragment) F1DNA (linear) DLDNA (circular) DCRNA (linear) RLRNA (circular) RCtRNA N3other functional RNA N1

; ponto e vírgula

Código de identificação

Uma linha contendo a descrição

Seqüência contendo 1 ou + linhas

* Sinal de término

Page 29: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP

WSDbfetch – Retorna entradas de vários dbs biológicos atualizados

WSEB-Eye – Acesso ao mecanismo de busca EB-Eye

WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares

WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest)

WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes )

Outros serviços…

http://www.ebi.ac.uk/Tools/webservices/

Page 30: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

FTPArrayExpress – Dados de microarray

Embl – BD de nucleotídeos do EMBL

InterPro – Famílias, domínios de proteínas

UniProt – BD universal de proteínas

UniRef – BD referência de grupos de proteínas

http://www.ebi.ac.uk/FTP/

Page 31: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

ComparaçãoComparação

NCBI

BDs

Nucleotídeos

Busca

- Seleciona itens de interesse

- Padrão entre os BDs

- Maior consistência

Acesso aos dados

- SOAP, FTP

Específico para acesso de dados

Forte: Pesquisas de publicações

EBI

BDs

Proteínas

Busca

- Faz sub-buscas

- Padrões diferentes

- Maior quantidade de informações

Acesso aos dados

- SOAP, FTP

Usado para dados e ferramentas

Forte: Obtenção de seqüências novas

Page 32: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Site com os formatos EBISite com os formatos EBI

http://www.ebi.ac.uk/help/formats_frame.html

Page 33: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Exemplo busca de dadosExemplo busca de dados

Busca rápida de dados em formato texto no NCBI usando o clipboard

Page 34: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Exemplo busca de dadosExemplo busca de dados

Busca rápida de dados em formato texto no NCBI usando FASTA

Page 35: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Embl

Genbank

Fasta

Page 36: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Bancos - KEEGBancos - KEEG

KEEG (Kyoto Encyclopedia of Genes and Genomes)

Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo

– DB fonte de dados de bioinformática;

http://www.genome.jp/kegg/

Page 37: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

KEEGKEEG

Page 38: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

KEEGKEEG

Search NAT2

Page 39: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

KEEGKEEG

Page 40: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

DBs - GODBs - GO

Projeto:Gene Ontology (GO - 1998) colaboração de

produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos:

FlyBase (Drosophila),Saccharomyces Genome Database (SGD)Mouse Genome Database (MGD)

Componente celulare, Processo biológico, Função molecular

http://www.geneontology.org/

Page 41: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

GOGO

Componente celular

O componente da célula com a restrição de ser parte de uma estrutura maior.

Processo biológico

Série de eventos realizados.

Função molecular

Descreve atividade, função molecular.

http://www.geneontology.org/

Page 42: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

Componentes celulares

O componente de uma célula com a restrição de ser parte de uma estrutura maior.

Processos biológicos

Série de eventos realizados por uma ou mais configurações de processos biológicos.

Funções moleculares

Descreve atividades à nível molecular.

http://www.geneontology.org/

GOGO

Page 43: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

GOGO

The GO ConsortiumÉ um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO.

Page 44: Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br.

ConclusãoConclusão