Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni...
Transcript of Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni...
![Page 1: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/1.jpg)
Uma abordagem para detecção e remoção de artefatos em
seqüências ESTs
Christian BaudetZanoni Dias (Orientador)
Instituto de Computação – UnicampCampinas, 01 de Dezembro de 2006
![Page 2: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/2.jpg)
Roteiro Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem Detecção e remoção de baixa qualidade Novo conjunto de procedimentos de
detecção e remoção de artefatos Conclusões e trabalhos futuros
![Page 3: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/3.jpg)
Motivação Importância da pesquisa genômica Identificação de genes pode trazer:
Descoberta da cura de doenças Descoberta de características de interesses
comerciais Conhecimento sobre evolução dos
organismos Necessidade de dados confiáveis
![Page 4: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/4.jpg)
Transcrição e Tradução
![Page 5: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/5.jpg)
O que são ESTs? EST – Expressed Sequence Tags
Adams et al, 1991 – “Complementary DNA sequencing: expressed sequence tags and the human genome project”
Transcrição Gene transcrito para mRNA
Produção de cDNA Enzima transcriptase reversa
![Page 6: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/6.jpg)
E o que são artefatos? Artefatos são trechos que:
Não pertencem ao organismo alvo do estudo Baixa qualidade ou baixa complexidade
Remoção necessária Podem influenciar negativamente a análise
dos dados
![Page 7: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/7.jpg)
Seqüência original
![Page 8: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/8.jpg)
Artefatos de baixa qualidade
![Page 9: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/9.jpg)
Artefato de vetor
![Page 10: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/10.jpg)
Artefato de adaptador
![Page 11: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/11.jpg)
Artefato de cauda poli-A
![Page 12: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/12.jpg)
Seqüência final
![Page 13: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/13.jpg)
Detecção e remoçãode artefatos
Conjuntos de procedimentos variam muito de projeto para projeto
Os conjuntos normalmente são formados por várias etapas
As etapas são dependentes entre si Execução é feita seqüencialmente Cada etapa depende do resultado da etapa
anterior
![Page 14: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/14.jpg)
Nova Estratégia Detecções de diferentes artefatos
Etapas independentes Cada etapa analisa a seqüência original
Etapa final Combina todos os artefatos encontrados Identifica a região do inserto
![Page 15: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/15.jpg)
Comparação das estratégias
![Page 16: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/16.jpg)
Avaliação da Nova Estratégia Processamento das seqüências do projeto Cattle
EST (Bos taurus) Procedimentos baseados no trabalho de Telles e
da Silva, 2001 – “Trimming and clustering sugarcane ESTs” Simplificação dos métodos de detecção de vetor e
de caudas poli-A/T Detecção de adaptador separada da detecção de
vetor Algoritmo de subseqüência máxima para detecção
de baixa qualidade Sem detecção de derrapagem
![Page 17: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/17.jpg)
Avaliação da Nova Estratégia Todos os tipos de artefatos foram detectados Análise dos artefatos produzidos mostrou:
2,46% de um total de 12.520 seqüências possuíam artefatos que não seriam identificados caso as etapas não fossem independentes
Remoção de seqüências ribossomais também aplicável a mamíferos
Clustering com maior grau de agrupamento de seqüências Menor número de singletons e clusters
![Page 18: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/18.jpg)
Derrapagem Artefato de seqüenciamento
Regiões ricas em grupos ecoados Trabalho de Telles e da Silva único na literatura
Três novos métodos Média Aritmética Média Geométrica Cobertura por Ecos
Duas estratégias Sufixo Subseqüência
![Page 19: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/19.jpg)
Média Aritmética
![Page 20: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/20.jpg)
Média Geométrica
![Page 21: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/21.jpg)
Cobertura por Ecos
![Page 22: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/22.jpg)
Avaliação dos Métodos Testes
Variação de parâmetros Processamento de seqüências do projeto
SUCEST (291.689 ESTs) Melhor estratégia: Subseqüência
Encontra artefatos na porção inicial da seqüência
Melhor método: Cobertura por Ecos Menor perda de hits de BLAST
![Page 23: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/23.jpg)
Baixa Qualidade
![Page 24: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/24.jpg)
Baixa Qualidade Avaliação de dois algoritmos
Janela deslizante Subseqüência máxima
Variação exaustiva dos parâmetros Análise de 1950 execuções distintas Critério de seleção de alternativas
2,5% de erro médio (25 bases 5’) 5,0% de erro médio (25 bases 3’) 80,0% de preservação média do BLAST hit
![Page 25: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/25.jpg)
Baixa Qualidade Adição de procedimento para detecção de
ilhas de baixa qualidade Janela deslizante
Tamanho: 10 bases Erro médio de 20,0% no mínimo
Reprocessamento dos fragmentos Melhor algoritmo: Subseqüência máxima
Qualidade mínima 11 Procedimento de detecção de ilhas
![Page 26: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/26.jpg)
Novo conjunto de procedimentos
Combinação dos resultados dos estudos realizados Nova estratégia Simplificação de métodos Adoção das decisões dos estudos de
derrapagem e baixa qualidade Realização de testes com o conjunto
completo de ESTs do projeto SUCEST
![Page 27: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/27.jpg)
SUCEST x Novo Conjunto
SUCEST Novo Conjunto
Menor descarte de seqüências
18,44% 12,97%
Menor tamanho médio
641,57 ± 139,79 bp 472,05 ± 121,68 bp
Maior qualidade média
27,74 ± 14,30 33,25 ± 14,78
![Page 28: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/28.jpg)
SUCEST x Novo Conjunto Produção de clustering: 145.845 seqüências
SUCEST: 118.991 seqüências 20.202 singletons e 16.394 contigs (36.596)
Novo conjunto: 126.988 seqüências 22.479 singletons e 17.486 contigs (39.965) Melhores consistências interna e externa Menor redundância Redução do número de hits Full-Length Diminuição de SNPs e aumento de INDELs
![Page 29: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/29.jpg)
Conclusão Nova estratégia apresenta bons resultados Novas alternativas para detecção de
derrapagem Estudo de baixa qualidade
Análise aprofundada Adição de procedimento para detecção de
ilhas de baixa qualidade Novo conjunto de procedimentos
![Page 30: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/30.jpg)
Trabalhos Futuros Estudo mais detalhados dos demais artefatos
Estudo de outras variações de parâmetros dos algoritmos para detecção de derrapagem
Estudo do efeito da variação de exigência da qualidade média sobre a construção de clusterings
Aperfeiçoamento de algoritmos de clusterização de seqüências (Projeto de Doutorado)
![Page 31: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/31.jpg)
Trabalhos Publicados Nova estratégia
C. Baudet and Z. Dias, “New EST trimming strategy”. In J.C. Setubal and S. Verjovski-Almeida, editors, Lectures Notes on Bioinformatics, volume 3594, pages 206-209. Springer-Verlag Berlin Heildelberg, July 2005. Brazilian Symposium on Bioinformatics 2005 (BSB2005), extended abstract.
C. Baudet and Z. Dias, “New EST trimming strategy”, Technical Report: IC-05-09, Institute of Computing – University of Campinas, May 2005.
![Page 32: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/32.jpg)
Trabalhos Publicados Derrapagem
C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. Genetics and Molecular Research, 5(1):169-181, 2006.
C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. X-Meeting 2005, Caxambu – MG, October 2005, poster.
![Page 33: Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas,](https://reader035.fdocumentos.com/reader035/viewer/2022070310/552fc0f8497959413d8b5544/html5/thumbnails/33.jpg)
Trabalhos Publicados Baixa qualidade
C. Baudet and Z. Dias, “Low quality trimming on SUCEST ESTs”. X-Meeting 2006, Fortaleza – CE, August 2006, poster.
Novo conjunto de procedimentos C. Baudet and Z. Dias, “New EST trimming
procedure applied to SUCEST sequences”. 14th Annual International Conference On Intelligent Systems For Molecular Biology (ISMB2006), Fortaleza – CE, August 2006, poster.