Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma...

Post on 24-Apr-2020

0 views 0 download

Transcript of Aprimoramento de uma ferramenta de predição de ncRNAs … · 2016-02-18 · Aprimoramento de uma...

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Aprimoramento de uma ferramenta de predicaode ncRNAs baseada em estruturas secundarias

Trabalho de Formatura Supervisionado

Felipe Lamberti AmadoOrientador: Prof. Dr. Alan Mitchell Durham

Instituto de Matematica e Estatıstica - USP

Sao Paulo, 11 de novembro de 2013

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Biologia basica - Transcricao e Traducao

Dogma central da Biologia

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Biologia basica - Transcricao e Traducao

Dogma central - nao previa ncRNAs

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Tipos de RNA

Tipos de RNA

http://www.nature.com/horizon/rna/background/pdf/micrornas.pdf

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Importancia dos MicroRNAs

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

Representando sequencias como grafos

Como funciona o preditor?

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Introducao

O preditor

Arestas de i a j onde i < j - 1 ocultadas por motivos esteticos.

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Objetivos

Objetivos deste trabalho

I Otimizar os parametros utilizados pelo preditor

I Fazer uma comparacao justa com algum outro preditor demicroRNAs

I Implementar uma extensao do preditor para realizar otreinamento automatico

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Parametros a serem otimizados

I Limiar deprobabilidade

I Tamanhomınimo dehelice

0,02

0,254

0,056

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Curvas ROC

● ● ●●

● ● ●●

● ●●●

● ● ●●●

●●●●

●●

●●●●●

●●●●●●

●●●●●● ●

●●●●●

3 4 5

6 7 8

9 10 11

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.00.6 0.7 0.8 0.9 1.0Specificity

Sen

sitiv

ity

0.00

0.25

0.50

0.75

prob_threshold

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Arvore de decisao

Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?

seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0

: : : : : :

≡ Padrao i v Padrao j

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Arvore de decisao

Sequencia Padrao 1 Padrao 2 ... Padrao N microRNA real?

seqA 1 0 ... 0 1seqB 1 1 ... 1 1seqC 0 1 ... 0 0

: : : : : :

≡ Padrao i v Padrao j

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Padroes otimizados

Padrao I V Padrao II

Limiar de probabilidade: 0 Limiar de probabilidade: 0,57Tamanho mınimo de helice: 7 Tamanho mınimo de helice: 5

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Otimizacao dos parametros

Antes x Depois da otimizacao

Medida Antes Depois

Especificidade 87,538% 84,154%Sensibilidade 71,692% 82,692%

Acuracia 79,615% 83,423%

Especificidade = TN/(TN + FN)Sensibilidade = TP/(TP + FP)Acuracia = (TP + TN)/(TP + FP + TN + FN)

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Comparacao entre os preditores

Comparacao entre os preditores

Medida MiPred Nosso preditor

Especificidade 88,076% 84,154%Sensibilidade 80,615% 82,692%

Acuracia 84,346% 83,423%

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Treinamento automatico do preditor

I Feito encontrando subestruturas tıpicas em um conjunto demicroRNAs

I Que foram encontradas utilizando um algoritmo de subgrafomaximal entre dois grafos

I Que, por sua vez, foi implementado utilizando uma reducaoao problema do clique maximal

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Reducao ao problema do clique maximal

I Entrada: Grafos G1 =< V1,A1 > G2 =< V2,A2 >

I Grafo produto de arestas He = G1 ◦ G2 possui como vertices oconjunto VH = E1 × E2

I Ha uma aresta do no v = (v1, v2) ao w = (w1,w2) em He ssev1 6= w1 e v2 6= w2 e (o no que conecta as arestas v1 e w1 ecompatıvel com o no que conecta v2 e w2 OU v1 e w1 nao saoarestas adjacentes em G1 e v2 e w2 tambem nao saoadjacentes em G2)

I Saıda: Clique maximal de He que corresponde a um subgrafocomum

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Reducao do problema ao problema do clique maximal

Retirado do artigo de Koch de 2001.

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Aplicando iterativamente

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Metodos e resultados

Treinamento automatico do preditor

Famılia A x Famılia B

(a) (b)

I O treinamento foi realizado em 21sequencias da famılia A,encontrando 4 subestruturasrecorrentes

I 53,7% das sequencias da famılia Aforam identificadas com sucesso

I Apenas 2,7% das sequencias dafamılia B foram identificadas comosendo de A

http://rfam.sanger.ac.uk/

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Conclusoes

Conclusoes

I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente

I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Conclusoes

Conclusoes

I Com a otimizacao dos parametros, obtivemos uma discretamelhora, mas suficiente para alcancar um nıvel de acuraciacomparavel a um dos melhores preditores de microRNAatualmente

I Apesar de ter apresentado um bom resultado em um dostestes realizados, o algoritmo de treinamento automaticoainda precisa de melhorias

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Parte subjetiva

O que mais me ajudou neste trabalhoI Disciplina de Algoritmo em grafosI Disciplina de Biologia ComputacionalI Disciplina de Data Mining (cursada durante intercambio)I Iniciacao cientıfica

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Parte subjetiva

Duvidas?

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Bibliografia I

Hu LL et al (2012). Benchmark comparison of ab initiomicroRNA identification methods and software. GMR.

A Machado-Lima, HA del Portillo, AM Durham (2008).Computational methods in noncoding RNA research.. J MathBiol. 56(1-2):15-49

Ina Koch (2001). Enumerating all connected maximal commonsubgraphs in two graphs. Elsevier.

Sarah W. Burge et al (2013). Rfam 11.0: 10 years of RNAfamilies. Nucleic Acids Res.

Jiang P et al (2007). MiPred: classification of real and pseudomicroRNA precursors using random forest prediction modelwith combined features. Nucleic Acids Res.

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Bibliografia II

Wei-Yin Loh and Yu-Shan Shih (1997). Split SelectionMethods For Classification Trees. Statistica Sinica 7, 815-840

Marilena V. Iorio et al (2005). MicroRNA Gene ExpressionDeregulation in Human Breast Cancer. AACR.

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

MicroRNA

http://en.wikipedia.org/wiki/MicroRNA

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

RNAfold

shuf34

G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G C

G G C C G G U C C G G C U C C G A G C U C G G G G G C G C C C U A G U C C G A G U G A U A G U A C U G C C G C U A A C G U U G A G U U G U A G G G CGG

CC

GG

UC

CG

GC

UC

CG

AG

CU

CG

GG

GG

CG

CC

CU

AG

UC

CG

AG

UG

AU

AG

UA

CU

GC

CG

CU

AA

CG

UU

GA

GU

UG

UA

GG

GC

GG

CC

GG

UC

CG

GC

UC

CG

AG

CU

CG

GG

GG

CG

CC

CU

AG

UC

CG

AG

UG

AU

AG

UA

CU

GC

CG

CU

AA

CG

UU

GA

GU

UG

UA

GG

GC

(c)

GGCCGGUCCGGCUC

CG A G CUC G G G G G C G C C C U A

G U C C G AGU GA U A G U

A C UG

CCGCUAACGUUGAG

UUGUAGGGC

(d)

Aprimoramento de uma ferramenta de predicao de ncRNAs baseada em estruturas secundarias

Apendice

Bibliografia

Pseudo-no

(e)

http://en.wikipedia.org/wiki/File:Pseudoknot.svg