Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational...

46
Introdução Moléculas de proteínas se dobram formando estruturas tridimensionais específicas A função de uma proteína está diretamente ligada à sua estrutura 3D Como resultado, há um grande esforço, tanto experimental como computacional, em determinar as estruturas de uma proteína

Transcript of Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational...

Page 1: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Introdução

Moléculas de proteínas se dobram formando estruturas tridimensionais específicas

A função de uma proteína está diretamente ligada à sua estrutura 3DComo resultado, há um grande esforço, tanto

experimental como computacional, em determinar as estruturas de uma proteína

Page 2: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Protein Folding

Page 3: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Introdução

A estrutura de uma proteína pode ser determinada experimentalmente por: Cristolografia de raios x NMR (nuclear magnetic resonance) spectroscopy

Esses métodos porém, nem sempre podem ser aplicados: Cristolografia é limitada pela dificuldade de fazer

algumas proteínas formarem cristais NMR só pode ser aplicado em moléculas de

proteínas relativamente pequenas

Page 4: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Introdução

Além disso, apesar de décadas de trabalho, o problema da predição da estrutura 3D de uma proteína, dada sua sequência de aminoácidos, ainda continua não resolvidoMétodos computacionais no entanto podem

fornecer uma boa previsão e são amplamente utilizados

Page 5: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Grupo Amina

Grupo CarboxilaCarbono α

Side Chain

Page 6: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Aminoácidos

Há 20 side chains diferentes especificados pelo código genético, cada um com diferentes átomos e propriedades químicas:(hidrofóbico, polar, positively charged, etc)É devido a essas diferenças nas

propriedades que existem uma enorme variedade de ‘foldings’ de proteínas na natureza

Page 7: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Aminoácidos

Várias forças atuam provocando o folding da proteína. Uma dessas forças é o efeito hidrofóbico, que acaba fazendo com que proteínas solúveis em agua formem um núcleo hidrofóbico

No entanto o backbone dessas proteínas são altamente polares, o que é indesejado nesse ambiente do núcleo hidrofóbico

Page 8: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Aminoácidos

Para neutralizar esse grupos polares, são formados várias ligações de hidrogênio entre os átomos do backbone

Estrutura secundária são essas estruturas formadas devidos a essas ligações de hidrogênioalpha-helix, beta-sheets, etc...

Page 9: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Alpha Helix

Formado através de sequências contínuas de aminoácidos, através de ligações de hidrogênio entre átomos nas posições i e i+4

Tamanho pode variar, de 4 a até centenas de aminoácidos

Page 10: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Beta Strands ...Beta Sheet

Beta Strands interagem com outros Beta Strands através de pontos de hidrogênios, formando um Beta Sheet

Em sheets paralelos, os Strands correm na mesma direção. Em antiparalelos correm em direções contrárias. Há também sheets mistos

Page 11: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Ligacões de Hidrogênio nas grupos amina e carboxila dos aminoácidos formam estruturas secundárias

A sequencia de aminoácidos

Page 12: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Estruturas Super Secundarias são formadas por combinações de estruturas secundarias

Estruturas Terciarias são formadas por Estruturas Secundarias e Super-Secundarias combinadas e definem o dobramento em 3 dimensões da proteína

Estruturas Quaternarias definem o arranjo espacial de mais de uma proteína numa cadeia de proteínas

Page 13: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Chou-Fasman Method [2]

Uma das primeiras abordagens para predição de estruturas secundárias

Taxa de acerto de 50% a 60% dependendo da proteína

Usa uma combinação de regras estatísticas e heurísticas

Page 14: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Conjunto de Sequências de Proteínas com estruturas secundárias já conhecidas (através de cristolografia de raio X)

Idéia: Diferentes aminoácidos ocorrem preferencialmente em diferentes elementos de estruturas secundárias

Calcula a frequência com que cada aminoácido aparece em um tipo particular de estrutura secundária, utilizando o conjunto de sequências com estruturas já conhecidas

Page 15: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Atribui 3 parâmetros para cada aminoácido, baseado nas frequências observadas P(a): Tendência de formar um alpha helix P(b): Tendência de formar um beta sheet P(turn): Tendência de formar um beta turn

Além disso, atribui 4 parâmetrs baseado na frequência em que foram observados na 1ª, 2ª, 3ª ou 4ª posições de um beta turn

...

Page 16: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

1. Algoritmo recebe a entrada (sequência de aminoácidos)

2. Varre essa sequência em busca de subsequências (núcleos) com alta concentração de aminoácidos com tendência a formar helix ou sheet

3. Verifica através de heurísticas se essas regiões podem ser classificadas em alpha-helix ou beta-sheets

[2]

[3]

Page 17: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Chau-Fasman Method

Há regras para classificar a subsequência em beta-sheets ou beta-turns também

Predições conflitantes também são resolvidas através de heurísticasExemplo:

Page 18: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Exemplo:

4 de 6 aminoácidos com P(a) > 100

... T S P C E Q A R E Q A Q R T S P C ...

A R E Q T S P C

P(a) 142 98 151 111 83 77 57 70

P(b) 83 93 37 110 119 75 55 119

Total P(a) = 1115

Total P(b) = 756

Maior, logo prediz região como alpha-helix

Page 19: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

GOR Method

Similar ao método de Chau-Fasman, porém ao invés de considerar apenas a tendência de um determinado aminoácido formar uma certa estrutura secundária...

Ele também considera a probabilidade condicional desse aminoácido formar essa estrutura dado que seus vizinhos já o fizeram

Idéia: Experimentos mostram que cada aminoácido tem um efeito significante na estrutura de aminoácidos em posições até 8 a frente ou atrás dele

Page 20: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

GOR METHOD 25 proteínas com estruturas conhecidas foram

analisadas, e a frequência com que cada aminoácido foi encontrado em um helix, sheet, turn or coil dentro de uma janela de 17 posições foi determinada Criando uma matriz 17 * 20 usada para calcular a estrutura

mais provável para cada aminoácido dentro da janela de 17 posições

A janela percorre a sequência primária, calculando a estrutura mais provável para cada aminoácido, baseado nos aminoácidos vizinhos

Taxa de acerto de aproximadamente 65%

Page 21: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Dependências Locais

As técnicas vistas até agora prediziam estruturas secundárias examinando apenas cada aminoácido individualmente

Abordagens posteriores passaram a considerar interações de alta ordem entre os resíduos das seqüências, melhorando a taxa de acerto.

Page 22: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Dependências Locais

Uma forma de fazer isso é uma extensão do GOR que leva em conta o tipo dos resíduos vizinhos na janela

Outras técnicas incluem métodos de aprendizagem de máquina como:Nearest-NeighborNeural Networks

Page 23: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

K-Nearest Neighbors

Ponto preto está sendo classificado

K = 9

Dos 9 vizinhos mais próximos, 6 são da classe azul e 3 da vermelha

O classificador irá então prever a classe do ponto preto como azul

Page 24: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Nearest Neighbors aplicado a predição de estruturas Secundárias Predizer a estrutura secundária de um

resíduo considerando uma janela de resíduos ao redor dele, e encontrando alinhamentos similares nas sequências com estruturas conhecidas

Idéia: Pequenas sequências de aminoácidos muito similares entre si possuem estruturas secundárias similares, mesmo que estejam não homólogas

Page 25: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Redes Neurais

Tenta predizer a estrutura de um resíduo considerando os resíduos rj-8, ... , rj, ... , rj+8

Cada resíduo é representado por 21 bits (1 bit pra cada tipo de aminoácido +1 bit extra). Portando 17x21 bits de entrada

Treinamento: Se estrutura é helix, output = 1 p/ helix e 0 p/ sheet

Nova Sequência: Classifica como helix quando 4 ou mais resíduos onde o output helix é maior que tanto o output sheet e um certo threshold

Page 26: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Explorando informação evolucionária

Idéia: Quando predizendo a estrutura secundária de uma proteína em particular, predições das proteínas homólogas podem ser úteis

Métodos de previsão tem alcançado melhores resultados usando proteínas homológas também como entradas

Fato: A estrutura de uma proteína é mais conservada que a sequência da proteína. Se duas proteínas compartilham mais que 30% da sequência então provavelmente possuem estruturas similares

Page 27: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Tight Turns

Estruturas secundarias. Formadas por poucos residuos (no

máximo 6) Ligação de dois resíduos formando

uma ponte de hidrogênio Distancia entre os Cα dos resíduos

que formam a ponte é menor que 7Å

Page 28: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Tight Turns

Page 29: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Tipos de Tight Turns

β-turn os residuos ligados por pontes de hidrogênio são separados por 3 outros residuos

γ-turn os residuos ligados por pontes de hidrogênio são separados por 2 outros residuos

α-turn os residuos ligados por pontes de hidrogênio são separados por 4 outros residuos

π-turn os residuos ligados por pontes de hidrogênio são separados por 5 outros residuos

Page 30: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

β-turns

β-turn os residuos ligados por pontes de hidrogênio são separados por 3 outros residuos

Mais comum e mais estudada São tambem classificadas de acordo com os

ângulos entre os resíduos r+1 e r+2

Page 31: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.
Page 32: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de β-turns

Os primeiros métodos eram focados em identificar quais resíduos fazem parte de β-turns

Métodos mais recentes têm tentado identificar o tipo de β-turn

Page 33: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de β-turns

Método probabilisticoComputa a probabilidade de um amino acido

ai estar localizado na j-esima posição da β-turn

Page 34: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de β-turns (cont) Métodos De Aprendizagem de Máquina

Redes neurais Método inicial

Janela de 4 resíduos como entrada (20 bits cada) 1 Camada intermediaria 4 Saidas

βturn tipo 1 βturn tipo 2 Outro tipo de βturn Não é βturn

Método mais recente Várias camadas de redes Começa com uma janela de 9 resíduos, acaba com uma de 4 Utiliza predição de outras estruturas secundarias

KNN e SVM tambem podem ser utilizados

Page 35: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de outras turns

Recentemente, existem tentativas de se predizer γ-turns e α-turns com técnicas similares

Como são poucos os resíduos que fazem parte de γ-turns e α-turns, estes métodos obtiveram sucessos limitados.

Page 36: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

β-hairpins

Page 37: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

β-hairpins

Estruturas super-secundarias muito simples

É composta de uma β-turn ligando duas β-strands anti-paralelas.

Esta turn geralmente contem de 2 a 5 resíduos

Page 38: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição β-hairpins

Métodos de predição começaram a aparecer há pouco tempo

Os 2 métodos mais recentes utilizam redes neurais Primeiro Método

Identifica sequencias β-strand - β-turn – β-strand Compara com as β-hairpins ja conhecidas 14 Scores são calculados e jogados como entrada em uma

rede neural treinada para diferenciar β-hairpins e não β-hairpins

Page 39: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição β-hairpins (cont)

Segundo Método Obtem-se homologos utilizando o PSI-BLAST Duas redes neurais são treinadas

A primeira rede prediz o primeiro residuo da turn Considera os 4 resíduos anteriores e os 7 posteriores

A segunda rede prediz o ultimo residuo da turn Considera os 7 resíduos anteriores e os 4 posteriores

Finalmente, os resultados são combinados para predizer se a turn faz parte de um hairpin ou não

Page 40: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Coiled Coils

Page 41: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Coiled Coils

Formados por duas ou mais α-helix ligadas As helices apresentam uma sequência de 7 resíduos

que se repetem chamados heptad

Os resíduos “a” e “d” são hidrofóbicos, e os resíduos “e” e “g” são hidrofílicos

A ligação entre as helices se dá pelos resíduos hidrofóbicos.

Page 42: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de Coiled Coils

Método probabilisticoAnalisam as frequencias dos resíduos que

fazem parte do heptad numa tabela 20x7Similar ao Chou and FasmanEste método tambem é utilizado para predizer

“Leucine Zippers”

Page 43: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de Coiled Coils

Predição inter-proteínasCoiled coils são formados por duas ou mais

α-helixLogo, predizendo as ligações entre α-helix é o

método mais intuitivoPorém, as α-helix podem estar em

sequencias diferentesSão necessarios estudos de predição inter-

proteínas

Page 44: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Predição de Coiled Coils

Predição de estruturas secundarias melhorou bastante com informações evolucionarias utilizando homologos

O proximo passo é utilizar estas informações para predizer quando as α-helix fazem parte de coiled coils

Porém, sequencias homologas podem demonstrar interações entre α-helix bem diferentes

Os métodos podem

Page 45: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

β-Barrel

Page 46: Predicting Protein Secondary and Supersecondary Structure Capítulo 29 (Handbook of Computational Biology) Victor Cisneiros Sergio Sette.

Referências

Wilkes University: Bioinformatics work 8 lecture (http://course.wilkes.edu/bioinformatics/stories/storyReader$122)

Handbook of Computational Molecular Biology Wikipedia