Gene Projects [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e...
-
Upload
david-paes -
Category
Documents
-
view
217 -
download
0
Transcript of Gene Projects [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e...
![Page 1: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/1.jpg)
Gene Projects
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
![Page 2: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/2.jpg)
Motivação• Muitos dados são gerados num projeto genoma :
– Fungo Crinipellis Perniciosa :• 170.000 reads• 26000 contigs + singlets• 70% hits encontrados no NR
– Café• 200.000 reads• 35000 contigs + singlets• 80% hits encontrados NR
• Necessidade de explorar os dados no decorrer do sequenciamento
![Page 3: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/3.jpg)
• Estratégias mais eficientes para buscar genes :– Busca por palavras chaves em resultados de
blasts (Keyword Search)– Busca por sequências similares (Blast Search)– Busca por padrões de repetição (Pattern Search)
• Estratégia para eliminar redundância :– Clusterização
![Page 4: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/4.jpg)
Introdução• Gene Projects é uma programa que permite :
– Realizar buscas por :• Palavra chave• Similaridade de sequências• Padrões
– Fazer clusterizações dos reads de interesse e analisar a qualidade da montagem
– Visualizar a sequência fasta e o resultado de blast dos reads e dos contigs formados
– Ampliar o contig na busca de genes inteiros– Burcas ORFs (ORFFinder)– Armazenar todos em resultados em projetos– Trabalhar via WEB
![Page 5: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/5.jpg)
Uma visão geral
WWW Gene Projects
Banco de
Dados
Ferramentas de Buscas
Análise
Palavra chaveSequênciaPadrões
Visualizar sequências e
blasts
Clusterização
Visualizar sequências, blasts, montagens, ORFs e ...
Reads Contigs
![Page 6: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/6.jpg)
Temáticas
Fluxograma: projeto genoma
![Page 7: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/7.jpg)
Submissão
- Phred
- Cross_Match
Blastx/n contra nr/nt Relatório
Sequência Fasta
Qualidade das bases
Informação sobre vetores
Armazena os arquivos de Blasts
Alimenta o banco de dados com :
- Qualidade do read (qte bases > 20)
- Tamanho do read
- Resultado da blastagem (e-value,
score, cabeçalho)
- Vetores (qte bases com vetor)
Serviço de submissãoServiço de submissão
![Page 8: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/8.jpg)
>Unknown sequences #1
5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...
![Page 9: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/9.jpg)
Gene ProjectsGene Projects- Busca de seqüências por: - Palavra chave; - Blast Sequences; - Seqüências específicas. - Pattern search
- Filtros de qualidade de nucleotídeos.
- Visualização das seqüências selecionadas:
- “Clusterização” utilizando o software Phrap/Cap3
- Análise de contigs e singlets por : - Blast contra nr; - Blast contra reads; - ORFFinder.
- Ferramenta para fechamento de contigs através de Blast saturação.
![Page 10: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/10.jpg)
Iniciando um projeto
• Cadastro de usuário
• Inclusão de projetos
Não usar espaços ou caracteres especiais para o usuário e nome do projeto
![Page 11: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/11.jpg)
Ferramentas de busca
![Page 12: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/12.jpg)
Ferramentas de busca
• Reads search
![Page 13: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/13.jpg)
Ferramentas de busca
• Keyword search
![Page 14: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/14.jpg)
Ferramentas de busca
• Blast search
![Page 15: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/15.jpg)
Ferramentas de busca
• Pattern search
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
Ex :
[CG](5)TG{A}N(1,5)C
![Page 16: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/16.jpg)
• Interface de projetos
![Page 17: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/17.jpg)
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
![Page 18: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/18.jpg)
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag
Blastn/reads
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
Blastando ...
Sequencias que produziram alinhamentos significantes :
CP01-S0-001-001-A01-UC.F 1419 0.0 -> Existente CP01-S0-001-001-A04-UC.F 1291 0.0 -> Existente CP02-PF-012-001-D08-UE.R 1263 0.0 -> Incluido CP02-S2-000-028-H06-UE.F 1261 0.0 -> Incluido
Se não existirem novas inclusões : FIM
Se existirem novas inclusões : Acrescenta os novos reads
Clusterizando novamente
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaagatatatatatatatatatat …
Se o tamanho do novo contig exceder o limite : FIM
Blast SaturaçãoBlast Saturação
![Page 19: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/19.jpg)
Anotação automática de genesAnotação automática de genes
GERAÇÃO DE SEMENTES:
- Localização de uma ORF em um contig;
- Comparação de ORFs novas com genes existentes;
- Anotação automática nos bancos nr e GO (Gene Ontology Consortium);
- Identificação de regiões promotora e codante;
- Atualização de genes existentes
INTERFACE DE ANOTAÇÃO:
- Resultado do GO;
- Resultados de Blast contra nr;
- Classificação baseada no GO : - Função molecular; - Processo biológico; - Componente celular.
- Ferramentas de busca em sites por: - Palavra chave; - Blast Sequences.
- Histórico de anotação;
- Consulta de genes anotados
![Page 20: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/20.jpg)
• ORFFinderAnálise dos clusters
![Page 21: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/21.jpg)
Análise dos clustersAnálise dos clusters• Blastn contra a montagem geral
![Page 22: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/22.jpg)
![Page 23: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/23.jpg)
Interface de AnotaçãoInterface de Anotação
GeneProjects
![Page 24: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/24.jpg)
ConclusãoConclusão• Permite a mineração dos dados em qualquer
instante do projeto• Facilita a busca de genes específicos• Armazena todos os resultados em projetos• Possui ferramentas de ampliação e análise de
seqüências codantes• Faz a conexão do novo contig gerado com a
montagem geral• Disponibiliza todos os esses serviços via WEB
![Page 25: Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.](https://reader035.fdocumentos.com/reader035/viewer/2022062411/570638461a28abb8238f3618/html5/thumbnails/25.jpg)
FIMFIM