Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Post on 17-Apr-2015

108 views 0 download

Transcript of Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato de Arquivos e Formato de Arquivos e Banco de Dados Biológicos IIBanco de Dados Biológicos II

Alynne Oya Chiromatzoalynne@lgmb.fmrp.usp.br

SumárioSumário

Principais Repositórios

NCBIEntrez

Tipos de Arquivos

Aquisição de dados

EBIEB-eye

Tipos de arquivos

Aquisição de dados

Comparação

Atividades

Principais BancosPrincipais Bancos

NCBI (National Center for Biotechnology Information)

1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular

– Bancos de Dados públicos;

– Pesquisas na área da biologia computacional;

– Desenvolvimento de ferramentas para análise de dados genômicos;

– Informações biomédicas.

http://www.ncbi.nlm.nih.gov/

NCBINCBI

Eu já sei o que eu busco?

Ou quero descobrir o que

existe a respeito do que busco?

EntrezEntrez

Sistema de busca robusto que realiza

a procura simultânea em múltiplos bancos.

EntrezEntrez

Colocar a imagem parcial

Mapa do relacionamento entre os diferentes bancos de dados.Mapa

Entrez BuscaEntrez Busca

Entrez BuscaEntrez Busca

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Formato GenPeptFormato GenPept

GB: gene bank - accession number

identifica a seqüência

e sua versão

Formato GenPeptFormato GenPept

GI : genInfo Identifier

identificador único

para cada seqüência

Formato GenPeptFormato GenPept

O número do taxon é importante para pesquisas nos BDs.

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

Formato GenPeptFormato GenPept

Formato FastaFormato Fasta

>

identificação

Formato ASNFormato ASN

É um sistema de notação usado para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

Formato ASNFormato ASN

Formato ASNFormato ASN

Acesso aos DadosAcesso aos Dados

SOAP (Service Oriented Architecture Protocol)

EInfo – Fornece a contagem, a última atualização e os links disponíveis para cada banco de dados para um determinado campo de indexação.

ESearch – Busca e retorna IDs primárias (para uso no EFetch, Elink e Esummary), palavras traduzidas e opcionalmente retém resultados para uso futuro.

EPost – Cria um arquivo contendo uma lista de IDs primários para uso nas estratégias de busca sub-sequentes.

ESummary – Retorna o resumo de documentos a partir de uma lista de ID primários fornecida pelo usuário.

Acesso aos DadosAcesso aos Dados

SOAP

EFetch – Retorna registros de uma lista de IDs primários fornecidos pelo usuário no formato requisitado.

ELink – Verifica a existência de links para artigos externos ou do banco de dados a partir de uma lista de um ou mais IDs primários. Retorna os IDs primários dos artigos e as pontuações de relevância.

EGQuery – Fornece uma contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query).

ESpell – Retorna sugestões de ortografia.

Descrição das funções do E-Utilities:

http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_toolkit.html

Acesso aos DadosAcesso aos Dados

FTP

GenBank – Coleção de anotações de todas as seqüências de DNA públicas disponíveis.

Gene – Informações sobre genes de organismos completamente seqüenciados.

RefSeq – Conjunto não-redundante de seqüências de DNA, proteínas e transcritos (dogma central).

Demais bancos ...

Cn3D – Programa de visualização de estruturas 3D.

BLAST – Ferramenta de procura de alinhamentos locais em bases de dados.

Demais programas ...

ftp://ftp.ncbi.nih.gov/

Principais BancosPrincipais Bancos

EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute)

Cambridge, Inglaterra

Pioneiro no desenvolvimento de pesquisas em bioinformática

Desenvolve banco de dados biológicos e programas

http://www.ebi.ac.uk/

EMBL-EBIEMBL-EBI

BD de seqüências de nucleotídeos do EMBL

EMBL-EBIEMBL-EBI

- Catálogo mais completo de informações sobre proteínas.

- Repositório central de seqüências e

funções de proteínas criado pela junção das

informações contidas no UniProtKB/Swiss-

Prot, UniProtKB/TrEMBL e PIR.

EMBL-EBIEMBL-EBI

Repositório público para dados de transcriptoma e relacionados, o qual visa

armazenar dados MIAME (Minimum Information About a Microarray Experiment).

Ele armazena padrões de expressão indexados por gene e as suas respectivas

biomedidas.Microarray?

EMBL-EBIEMBL-EBI

Ensembl Genome Browser

Projeto em conjunto com o Instituto Sanger

Matem anotação automática de genomas de

eucariotos.

Ensembl anota genes conhecidos e novos

com a anotação de sua função fornecida por

InterPro, OMIM, SAGE e famílias gênicas.

O acesso aos dados e ao software são livres

e sem restrição.

EMBL-EBIEMBL-EBI

BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.

EMBL-EBIEMBL-EBI

Macromolecular Structure Database Group

Projeto europeu para a coleta,

gerenciamento e destribuição de dados

sobre estruturas macromoleculares

derivadas em parte do PDB (World Wide

Protein Data Bank).

Bancos de DadosBancos de Dados

Bancos de DadosBancos de Dados

BuscaBusca

BuscaBusca

BuscaBusca

BuscaBusca

Human complete

BuscaBusca

BuscaBusca

Formato EmblFormato Embl

ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

Formato EmblFormato Embl

ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

Continuação do arquivo

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Formato PIRFormato PIR

> Sinal de maiorDuas letras descrevendo o tipo

Protein (complete) P1Protein (fragment) F1DNA (linear) DLDNA (circular) DCRNA (linear) RLRNA (circular) RCtRNA N3other functional RNA N1

; ponto e vírgula

Código de identificação

Uma linha contendo a descrição

Seqüência contendo 1 ou + linhas

* Sinal de terminação

Acesso aos DadosAcesso aos Dados

SOAP

WSDbfetch – Retorna entradas de vários BDs biológicos atualizados

WSEB-Eye – Acesso ao mecanismo de busca EB-Eye

WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares

WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest)

WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes )

Mais outros serviços…

http://www.ebi.ac.uk/Tools/webservices/

Acesso aos DadosAcesso aos Dados

FTP

ArrayExpress – Dados de microarray

Embl – BD de nucleotídeos do EMBL

InterPro – Famílias, domínios de proteínas

UniProt – BD universal de proteínas

UniRef – BD referência de grupos de proteínas

Demais bancos…

Programas

http://www.ebi.ac.uk/FTP/

ComparaçãoComparação

NCBI BDs

Nucleotídeos

Busca- Seleciona itens de interesse

- Padrão entre os BDs

- Maior consistência

Acesso aos dados- SOAP:

Específico para acesso de dados

Forte: Pesquisas de publicações

EBI BDs

Proteínas

Busca- Faz sub-buscas

- Padrões diferentes

- Maior quantidade de informações

Acesso aos dados- SOAP

Usado para dados e ferramentas

Forte: Obtenção de seqüências novas

Site com os formatosSite com os formatos

http://www.ebi.ac.uk/help/formats_frame.html

AtividadesAtividades

Busca rápida de dados em formato texto no NCBI usando o clipboard

AtividadesAtividades

AtividadesAtividades

AtividadesAtividades

AtividadesAtividades

AtividadesAtividades

AtividadesAtividades

Transformar o trecho abaixo de genbank para:

Fasta

Embl

Obrigada!Obrigada!