Bancos de dados Bancos de dados aplicados ao estudo de proteínas.
Transcript of Bancos de dados Bancos de dados aplicados ao estudo de proteínas.
Bancos de dados
Bancos de dados aplicados ao estudo de proteínas
1. Introdução
• Histórico – acúmulo de informação biológicas
Histórico:Ciências convergentes
Charles Robert Darwin (1809 —1882)
Herman Hollerith (1860-1929)
1953
1946
O ENIAC (Electrical Numerical Integrator and Computer)
James D Watson and Francis Crick
ENIAC30 toneladas160 m25.000 cálculos/segundo200 k memória
Histórico: Aquisição e armazenamento dos dados
Insulina
1° proteína a ser cristalizada (Abel, 1926),
1° proteína a ser sequenciada (Sanger et al, 1955 ),
1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964),
Década de 60
Histórico: Aquisição dos dados
Degradação de Edman (Químico sueco Pehr Edman)
Histórico: Armazenamento dos dados
“Atlas of Protein Sequences”
1965 Margaret Dayhoff's
Primeira bionformata
Surgimento da eletroforese 2D
• Surge a 2D-PAGE
• Trabalhos de MacGillivray et al.( 1974);
• O´Farrel (1975) ; Klose (1975)
O´Farrel
Década de 1970
Aquisição dos dados: As Ômicas
• TRANSCRIPTÔMICA:-Differential Display (DD) - Serial Analysis of Gene
Expression (SAGE)- DNA Microarray
• PROTEÔMICA:-Eletroforese bidimensional
(2D)-MudPit
-Espectrometria de massa
Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….
• Genômica
Era “Pós-Genômica”
• GENOMA – DNA – 3,4 bilhões de nt
• TRANSCRIPTOMA – mRNA – 30 mil genes
• PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas
Homo sapiens Modificações pós-traducionais?
Interações entre proteínas?
Eletroforese 2D e Bioinformática
Proteoma Comparativo ou Diferencial
Sobreposição permite identificar diferenças nos padrões de bandas
Cromatografia líquida multidimensional-MudPit
Descrita pela primeira vez por WASHBURN et al. (2001),
Identificação e Sequenciamento de proteínas
E agora o que fazer?
EST
Vias metabólicas Análise in silico
SN
Ps
GENÔMICA e PROTEÔMICA
BIOTECNOLOGIA
Microarranjos
Sequenciamento genômico Eletroforese 2DEspectrometria de massa
Genes e proteínas alvos
Bancos de dados
Tipos de bancos de daods biológicos
Bancos de dados PrimáriosDados obtidos diretamente de seqüenciamentoDados submetidos por pesquisadoresConteúdo controlado pela pessoa que o submeteExemplos: GenBank, EMBL, DDJB, SNP, GEO
Bancos de dados Derivados (ou Secundários)Construído a partir da base de dados primáriaPadrões resultantes da análise dos primáriosConteúdo controlado por curadores (NCBI)Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure,Conserved Domain, SwissProt, Pfam
Tipos de bancos de dados• Bancos de dados Primários de
proteínas
“Atlas of Protein Sequences”
• Bancos de dados SecundáriosTrEMBL
+
• Seqüências depositadas têm várias anotações biológicas, como:– a função da proteína, – informações de
homologia,– seqüências relacionadas
("features").
• Promove a anotação funcional de proteínas.
• PIR-NRL3D– PIR - Sequence-Structure Database
• Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank).
• Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR.
• Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades.
• PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html
SWISS-PROT e TrEMBL
• SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL.
• Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL.
• Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações.
TrEMBL
SWISS-PROT e TrEMBL
• TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL.
• As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível.
• Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/
TrEMBL
Bancos de dados de proteínas
Crescimento do UniProt
TrEMBL
Busca de informações
Informações estruturais
• Modelos conceituais de estruturas de proteínas– Tipos de estruturas e modelos conceituais– Proteínas globulares– Estrutura secundária– Estrutura terciária– Estrutura quaternária– Proteínas integrais de membrana– Domínios– Evolução– Estrutura e função
Informações estruturais
• Tipos de estruturas e modelos conceituais:
– Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares
– Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas.
– Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.
Bancos de dados Estruturais
– PDB: recurso primário para dados estruturais de proteínas.
– Contém dados derivados de estudos de cristalografia de raio-X e NMR.
Banco de estrutura de proteínas
Ferramentas
• PDBSum– O PDBSum é um do principais recursos para
obtenção de informações estruturais, mantido pela University College London.
– Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB.
– Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.
Ferramentas• SCOP
– O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida.
– Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.
Predição de estruturas• SOSUI
– Tokyo University of Agriculture and Technology (Department of Biotechnology).
– O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana.
– Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas.
– Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.
Famílias de proteínas
PROSITE• O banco de dados PROSITE contem seqüências
modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais.
• Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo.
• O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados.
• Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.
Famílias de domínios proteínas
• Muitas proteínas são construídas a partir domínios em uma arquitetura modular.
• O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas.
• O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas.
Ferramentas
• Recursos– Pfam e SMART podem ser usados para
análise de famílias de domínios de proteínas.– Um recurso integrado, o Interpro, une os
bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.
Ferramentas
• ExPASy– O ExPASy (Expert Protein Analysis System) é
mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática.
• Link para o ExPASy: http://www.expasy.org/
Ferramentas• InterPro
– Mantido pelo European Bioinformatics Institute.
– O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas.
– Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom.
– Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.
Interprot
Exercícios
• Usando o SMART:• Usar sequência EF558621;• Usar sequência editada da BVL;• Faça uma busca por domínios e famílias.• Anote os resultados informando os dados de
cada domínio obtído;• Informe o que significa o SMART e quais
ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)