TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS...
Transcript of TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS...
TURNO: Norturno VERSÃO: No
UNIVERSIDADE REGIONAL DE BLUMENAUCENTRO DE CIÊNCIAS EXATAS E NATURAISDEPARTAMENTO DE SISTEMAS E COMPUTAÇÃOCURSO DE CIÊNCIAS DA COMPUTAÇÃO — BACHARELADOCOORDENAÇÃO DE TRABALHO DE CONCLUSÃO DE CURSO
PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO
TÍTULO: TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO)
ÁREA: Área de Concentração (cada substantivo escrito com a primeira letra maiúscula)
Palavras-chave: Palavra-chave 1. Palavra-chave 2. Palavra-chave 3. (separadas por ponto, com primeira letra maiúscula).
1 IDENTIFICAÇÃO
1.1 ALUNO
Nome: Felipe Fernandes Albrecht Código/matrícula: 61791 / 14451
Endereço residencial:
Rua: Manaus N°: 59 Complemento:
Bairro: Bela Vista CEP: 89110-000 Cidade: Gaspar UF: SC
Telefone fixo: 3329-3232 Celular: 9655-6210
Endereço comercial:
Empresa: Senior Pesquisa e Tecnologia L
Rua: Joinville N°: 526 Bairro: Vila Nova
CEP: 89035-200 Cidade: Blumenau UF: SC Telefone: 3221-3365
E-Mail FURB: [email protected] E-Mail alternativo: [email protected]
1.2 ORIENTADOR
Nome: Jomi Fred Hübner
E-Mail FURB: [email protected] E-Mail alternativo:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
2 DECLARAÇÕES
2.1 DECLARAÇÃO DO ALUNODeclaro que estou ciente do Regulamento do Trabalho de Conclusão de Curso de
Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada
em todas as páginas. Ainda me comprometo pela obtenção de quaisquer recursos necessários
para o desenvolvimento do trabalho, caso esses recursos não sejam disponibilizados pela
Universidade Regional de Blumenau (FURB).
Assinatura: Local/data:
2.2 DECLARAÇÃO DO ORIENTADORDeclaro que estou ciente do Regulamento do Trabalho de Conclusão do Curso de
Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada
em todas as páginas. Ainda me comprometo a orientar o aluno da melhor forma possível de
acordo com o plano de trabalho explícito nessa proposta.
Assinatura: Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
3 AVALIAÇÃO DA PROPOSTA
3.1 AVALIAÇÃO DO(A) ORIENTADOR(A)Acadêmico(a): Felipe Albrechr
Orientador(a): Jomi Fred Hübner
ASPECTOS AVALIADOS
aten
de
aten
de
parc
ialm
ente
não
aten
de
ASP
ECTO
S T
ÉCN
ICO
S
1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?
2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?
Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA
3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?
4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram
claramente descritos? 5. METODOLOGIA
5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a
metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de
maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA
6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais
características dos mesmos?7. CONSIDERAÇÕES FINAIS
7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?
ASP
ECTO
S M
ETO
DO
LÓG
ICO
S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na
proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES
9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?
10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem
utilizada é clara)?
A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO
Assinatura do(a) avaliador(a): Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
4 CONSIDERAÇÕES DO(A) ORIENTADOR(A):11. Caso o(a) orientador(a) tenha assinalado em sua avaliação algum item como “atende parcialmente”, devem ser
relatos os problemas/melhorias a serem efetuadas.12.
Assinatura do(a) avaliador(a): Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
AVALIAÇÃO DO(A) COORDENADOR DE TCCAcadêmico(a): Felipe Albrecht
Avaliador(a): José Roque Voltolini da Silva
ASPECTOS AVALIADOS
aten
de
aten
de
parc
ialm
ente
não
aten
de
ASP
ECTO
S T
ÉCN
ICO
S
1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?
2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?
Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA
3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?
4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram
claramente descritos? 5. METODOLOGIA
5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a
metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de
maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA
6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais
características dos mesmos?7. CONSIDERAÇÕES FINAIS
7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?
ASP
ECTO
S M
ETO
DO
LÓG
ICO
S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na
proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES
9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?
10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem
utilizada é clara)?
A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO
OBSERVAÇÕES:
Assinatura do(a) avaliador(a): Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
AVALIAÇÃO DO(A) PROFESSOR(A) DA DISCIPLINA DE TCCIAcadêmico(a): Felipe Albrecht
Avaliador(a): Joyce Martins
ASPECTOS AVALIADOS
aten
de
aten
de
parc
ialm
ente
não
aten
de
ASP
ECTO
S T
ÉCN
ICO
S
1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?
2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?
Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA
3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?
4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram
claramente descritos? 5. METODOLOGIA
5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a
metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de
maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA
6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais
características dos mesmos?7. CONSIDERAÇÕES FINAIS
7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?
ASP
ECTO
S M
ETO
DO
LÓG
ICO
S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na
proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES
9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?
10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem
utilizada é clara)?
PONTUALIDADE NA ENTREGA atraso de_____ dias
A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO
OBSERVAÇÕES:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
Assinatura do(a) avaliador(a): Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
AVALIAÇÃO DO(A) PROFESSOR(A) ESPECIALISTA NA ÁREAAcadêmico(a): Felipe Albrecht
Avaliador(a):
ASPECTOS AVALIADOS
aten
de
aten
de
parc
ialm
ente
não
aten
de
ASP
ECTO
S T
ÉCN
ICO
S
1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?
2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?
Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA
3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?
4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram
claramente descritos? 5. METODOLOGIA
5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a
metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de
maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA
6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais
características dos mesmos?7. CONSIDERAÇÕES FINAIS
7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?
ASP
ECTO
S M
ETO
DO
LÓG
ICO
S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na
proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES
9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?
10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem
utilizada é clara)?
A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO
OBSERVAÇÕES:
Assinatura do(a) avaliador(a): Local/data:
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
1
2
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
UNIVERSIDADE REGIONAL DE BLUMENAU
CENTRO DE CIENCIAS EXATAS E NATURAIS
CURSO DE CIENCIAS DA COMPUTACAO – BACHARELADO
RECONSTRUCAO FILOGENETICA EM
AMBIENTE DISTRIBUIDO
FELIPE FERNANDES ALBRECHT
BLUMENAU2006
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
FELIPE FERNANDES ALBRECHT
RECONSTRUCAO FILOGENETICA EM
AMBIENTE DISTRIBUIDO
Proposta de Trabalho de Conclusao de Cursosubmetida a Universidade Regional de Blu-menau para a obtencao dos creditos na disci-plina Trabalho de Conclussao de Curso I docurso de Ciencias da Computacao – Bacha-relado.
Prof. Jomi Fred Hubner – Orientador
BLUMENAU2006
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
SUMARIO
1 INTRODUCAO 4
1.1 OBJETIVOS DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 RELEVANCIA DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO . . . . . . . . . . 8
1.4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 REVISAO BIBLIOGRAFICA 11
2.1 GENETICA MOLECULAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 BIOINFORMATICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 FILOGENETICA MOLECULAR . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 SISTEMAS DISTRIBUIDOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 CONSIDERACOES FINAIS 17
REFERENCIAS BIBLIOGRAFICAS 18
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
4
1 INTRODUCAO
Desde o inıcio da historia, a humanidade preocupa-se em compreender a vida e
suas origens. Diversos foram os filosofos e cientistas que propuseram teorias e metodos
para explicar a origem da vida. Com a publicacao do livro “A Origem das Especies”
por Charles Darwin em 1859, o conceito da evolucao foi apresentada pela primeira vez.
A Teoria da Evolucao diz que os organismos sofrem mutacoes entre diferentes geracoes
e as modificacoes vantajosas sao perpetuadas, enquanto as desvantajosas sao eliminadas
pela selecao natural. Com os conceitos propostos por Charles Darwin, e possıvel analizar
as mudancas que ocorreram nas especies de seres vivos e propor uma linhagem evolutiva
delas. Como exemplo, atraves destes conceitos, e possıvel afirmar que os seres humanos e
demais especies de primatas possuem uma especie ancestral em comum.
O estudo das relacoes evolucionarias entre especies de seres vivos, tanto vivas
quanto extintas e a inferencia de possıveis arvores evolutivas e chamado de filogenetica
(MOUNT, 2004). Este estudo era feito primordialmente pela observacao das caracterısticas
morfologicas, ou seja, da aparencia e funcionamento dos orgaos e sistemas dos seres vi-
vos. Com o advento da genetica molecular, onde sao estudadas principalmente sequencias
geneticas e proteicas, a filogenetica passou a utilizar estas informacoes moleculares. O
estudo da filogenetica destes dados possui como principal objetivo inferir arvores evoluti-
vas destas sequencias e das especies que as possuem com o maior grau de confiabilidade
possıvel. Este novo estudo de filogenetica utilizando dados moleculares e chamado de filo-
genetica molecular. Desta forma, a filogenetica molecular descreve a origem e evolucao de
sequencias geneticas e proteicas e, segundo Mount (2004, p. 282), uma analise filogenetica
de uma famılia de acidos nucleicos ou de proteınas relacionadas e a determinacao de como
os membros desta famılia devem ter sido derivados durante a evolucao. Os resultados
dos trabalhos de inferencia filogenetica sao apresentados na forma de dendogramas, que
sao basicamente arvores evolutivas. Um exemplo de dendograma e exibido na fig. 1.1,
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
5
onde e apresentada uma arvore filogenetica construıda atraves de analise de Acido Ribo-
nucleico (Ribonucleic Acid) (RNA) exibindo os tres reinos e seus principais filos.
Fonte: (CARL. . . , 2003).
Figura 1.1 – Dendograma dos tres reinos e seus principais filos.
A filogenetica molecular possui tres metodos bastante utilizados para inferir a
arvore ou as arvores evolucionarias que melhor refletem as variacoes observadas no grupo
de sequencias moleculares. Os tres metodos sao: maxima verossimilhanca, metodos de
distancia e maxima parsimonia.
Em algumas ocasioes e utilizado o termo reconstrucao filogenetica, para denotar
uma inferencia filogenetica. O porque disto e que atraves de dados, taxinomos ou mo-
leculares, e do estudo desdes dados, pretende-se reconstruir, ou inferir, uma arvore mais
proxima possıvel da verdadeira, formada pela evolucao dos organismos.
Nas pesquisas de filogenias mais complexas, e comum a utilizacao de workflows.
Workflows sao um conjunto de softwares, cada um com uma funcao especıfica, que execu-
tam uma operacao. Por exemplo, na filogenetica utiliza-se workflows compostos por um
software de pesquisa de sequencias em banco de dados; outro que recebe estas sequencias
e faz um alinhamento delas, ressaltando suas semelhancas; e por fim um software que le
o resultado do alinhamento das sequencias e reconstroi uma arvore filogenetica baseada
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
6
nestes dados.
Um problema comum a todos os metodos de reconstrucao de arvore filogenetica e
a alta necessidade computacional caso o numero de sequencias seja alto. Para resolver
este problema, a principal solucao seria distribuir o problema entre diversos processado-
res. Desta forma, duas solucoes sao possıveis: a utilizacao de supercomputadores ou a
utilizacao de clusters. A utilizacao de supercomputadores esbarra no alto custo destes
equipamentos, tornando inacessıveis para diversas instituicoes de pesquisa. Uma solucao
que esta se destacando em ambientes distribuıdos sao os clusters beowulf (STERLING,
2002).
Clusters e um termo largamente utilizado que significa uma interligacao de com-
putadores atraves de software e rede independentes num unico sistema, ou seja, uma
inteligacao de computadores independentes para resolverem um problema em comum.
Os clusters podem ser utilizado em sistemas High Availability (HA) para garantir alta
disponibilidade ou em High Performance Computing (HPC) para proporcionarem poder
computacional maior do que um unico computador proporcionaria (STERLING, 2002).
Os clusters beowulf sao clusters de desempenho escalavel baseados em hardware fa-
cilmente encontrado no mercado, em sistemas de redes comuns e tendo como infraestrutura
softwares livres (BEOWULF. . . , 2004). Os clusters beowulf possuem alta adaptabilidade,
podendo ser formados por dois nodos conectados via ethernet ou ser um complexo sistema
de 1024 nodos conectados atraves de rede de alta velocidade.
A comunicacao entre os nodos de um cluster beowulf e feita atraves de bibliotecas
de troca de mensagens. Atualmente o principal padrao e o Message Passing Interface
(MPI) (MESSAGE. . . , 2006). Ele possui diversas implementacoes podem ser bibliotecas nos
aplicativos, fazendo a abstracao da comunicacao entre os nodos. E importante ressaltar
que os softwares executados em clusters beowulf devem ser preparados para isto, utilizando
algoritmos para processamento distribuıdo e utilizando na sua implementacao alguma
biblioteca para a comunicacao entre os nodos.
Como referido anteriormente, tem-se como problema na pesquisa de filogenias a de-
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
7
mora do processo de reconstrucao da arvore filogenetica quando o numero de sequencias
for elevado (a partir de 40 sequencias). Neste trabalho pretende-se especificar um algo-
ritmo para a inferencia de arvores filogenicas em ambientes distribuıdos implementado
utilizando padroes abertos. Com isto, pretende-se reduzir o tempo computacional ne-
cessario para a inferencia de arvores filogeneticas.
1.1 OBJETIVOS DO TRABALHO
O objetivo deste trabalho e disponibilizar uma ferramenta para a inferencia de
arvores filogeneticas em um ambiente distribuıdo.
Os objetivos especıficos do trabalho sao:
a) propor um algoritmo para inferencia de arvores filogeneticas em ambiente dis-
tribuıdo;
b) implementar o algoritmo num software de reconstrucao de arvores filogeneticas
do pacote PHYLIP 1;
c) substituir o software PAUP*2 (SWOFFORD, 2004) no workflow proposto
por Theobald e Wuttke (2005) po software desenvolvido neste trabalho.
1.2 RELEVANCIA DO TRABALHO
A filogenetica e uma importante area de estudo, pois nela sao feitos os estudos
de inter-relacoes parentescas entre taxons3 sao ordenados de acordo com sua relacao pa-
rentesca e atraves dela pode-se conhecer as relacoes evolucionarias entre os seres vivos.
Porem, para efetuar estes estudos, sao necessarios diversos processos com alto custo com-
putacional, que podem ser significativamente lentos se forem executados em um unico
computador.
Com a intencao de reduzir o tempo de reconstrucao de arvores filogenicas, surge
1O pacote PHYLIP (FELSENSTEIN, 2005) e um conjunto de softwares amplamente utilizados no estudode filogenetica. Ele e disponibilizado livremente em http://evolution.genetics.washington.edu/phylip.html.
2O software PAUP* e largamente utilizado nas reconstrucoes filogeneticas, possuindo como problemao custo da sua licenca de utilizacao
3Taxon e uma unidade associada a um sistema de classificacao. Taxons (ou taxa) podem estar emqualquer nıvel de um sistema de classificacao podendo ser um reino, um genero, uma especie ou qualqueroutra unidade de um sistema de classificacao dos seres vivos.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
8
a ideia de distribuir este processo. Com a utilizacao de padroes de comunicacao abertos,
softwares livres e com a reutilizacao de softwares ja existente, esta nova ferramenta podera
auxiliar, na reducao do tempo computacional e do custo financeiro, diversos estudos de
filogenetica molecular.
1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO
O trabalho sera composto por um software para reconstrucao de arvores filogenetica
em ambiente distribuıdo. Abaixo sao detalhados os Requisitos Nao Funcionais (RNF) e
os Requisitos Funcionais (RF).
O software deve:
a) reconstruir arvores filogeneticas utilizando o metodo de distancia (RF);
b) ser compatıvel com os formatos dos arquivos de entrada e saıda do pacote
PHYLIP (RNF);
c) ser implementado utilizando o padrao MPI (RNF);
d) ser compilado e executado em qualquer ambiente Unix que tenha suporte ao
padrao MPI (RNF);
e) seguir o padrao do pacote PHYLIP na sua interface com o usario (RNF).
1.4 METODOLOGIA
O trabalho sera desenvolvido observando as seguintes etapas:
a) estudo da genetica molecular: nesta etapa serao estudados a genetica molecular,
seus componentes e os processos de evolucao dos mesmos visto que a filogenetica
molecular e o estudo das relacoes evolutivas dos elementos da genetica molecu-
lar;
b) estudo da filogenetica: nesta estapa serao estudados os metodos de reconstrucao
de arvores filogeneticas;
c) estudo de metodos de distribuicao: nesta etapa serao analizados possıveis
metodos de distribuicao dos processos de reconstrucao de arvores filogeneticas;
d) especificacao do algoritmo distribuıdo: nesta etapa sera especificado um algo-
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
9
ritmo para a reconstrucao de arvores filogeneticas em ambiente distribuıdo;
e) estudo do padrao MPI: nesta etapa sera feito um estudo do padrao MPI e
quais das funcionalidades dele serao utilizadas na implementacao do algoritmo
especificado na etapa anterior;
f) estudo do pacote PHYLIP: nesta etapa sera estudado o funcionamento e im-
plementacao do pacote PHYLIP, pois nele que sera implementado o algoritmo
especificado na etapa anterior;
g) especificacao do software: nesta etapa o software de reconstrucao de arvores
filogeneticas em ambiente distribuıdo sera especificado utilizando diagramas da
Unified Modeling Language (UML);
h) implementacao do software: nesta etapa o software de reconstrucao de arvores
filogeneticas em ambiente distribuıdo sera implementado utilizando como base
o pacote PHYLIP.
i) testes: esta etapa ocorrera em paralelo com a implementacao. Serao feitos testes
de unidade e testes de caixa preta para averiguar se os resultados das execucoes
do software estao corretos;
j) integracao com o workflow : nesta etapa o software sera integrado com o work-
flow de reconstrucao filogenetica atraves de modelos estatısticos de famılias de
proteınas proposto por Theobald e Wuttke (2005);
k) testes de integracao: esta etapa ocorrera paralelamente a etapa anterior. Nela
sera averiguado se o workflow apresenta resultados corretos com a substituicao
do software PAUP* pela ferramenta desenvolvida neste trabalho;
l) comparacao de desempenho: comparacao com outras ferramentas para verificar
se o desempenho atingido supera o desempenho oferecido pelas ferramentas ja
existente.
As atividades serao realizadas nos perıodos relacionados no quadro 1.1.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
10
2006maio jun. jul. ago. set. out. nov.
etapas / quinzenas 1 2 1 2 1 2 1 2 1 2 1 2 1 2estudo de genetica molecular x xestudo de filogenetica x xestudo de metodos de distribuicao xespecificacao do algoritmo distribuıdo x xestudo do padrao MPI x xestudo do pacote PHYLIP x x x xespecificacao do software x x ximplementacao do software x x xtestes x x xintegracao com o workflow xtestes de integracao x xcomparacao de desempenho xredacao do volume final x x x x x x x x x x x
Quadro 1.1 – Cronograma
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
11
2 REVISAO BIBLIOGRAFICA
Para melhor compreender o trabalho proposto, e importante apresentar algu-
mas nocoes de genetica molecular, bioinformatica, filogenetica molecular e sistemas dis-
tribuıdos. A secao 2.1 apresenta os princıpios da genetica molecular. Na secao 2.2 e
apresentada a bioinformatica, seus principais trabalhos e desafios. A secao 2.3 apresenta
a filogenetica molecular, no que e baseada e seus principais metodos. Tambem e apre-
sentada nesta secao o workflow proposto por Theobald e Wuttke (2005). Na secao 2.4
sao apresentados os conceitos de sistemas distribuıdos e o padrao MPI. E por fim, na
secao 2.5 sao apresentados os principais softwares de reconstrucao de arvores filogeneticas.
2.1 GENETICA MOLECULAR
A genetica e a area da biologia que estuda a hereditariedade entre os seres vivos.
Ela se basea no fato de que as caracterısticas morfologicas e estruturais dos pais sao
herdadas pelos filhos e atraves de mutacoes pontuais estas caracterısticas sao modificadas
ao longo de geracoes.
A Teoria da Evolucao das especies, proposta por Charles Darwin (DARWIN, 1859) e
amplamente aceita pela comunidade cientıfica. Ela apresenta as relacoes parentescas entre
as especies e forneceu criterios para uma classificacao hierarquica, consistente e unica dos
organismos. A Teoria da Evolucao das especies e baseada no princıpio que os seres vivos
sofrem mutacoes. Quando as mutacoes sao beneficas para o ser vivo, elas sao perpetuadas
em futuras geracoes, enquanto as que nao sao beneficas, nao sao perpetuadas e acabam
extintas.
O mecanismo que armazena as informacoes hereditarias dos seres vivos e o Acido
Desoxirribonucleico (Deoxyribonucleic Acid) (DNA) e ele e estudado pela genetica molecu-
lar. Segundo Strachan e Read (2002, pg. 1), a genetica molecular trata das inter-relacoes
entre as macromoleculas de informacoes - o DNA e o RNA - e de como elas sao utilizadas
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
12
para sintetizar os poliptıdeos, os componentes basicos de todas as proteınas. Em todos
os seres vivos, as informacoes hereditarias estao contidas no DNA e em alguns vırus estao
no RNA.
Todos os seres vivos e vırus possuem genes, que sao sequencias de nucleotıdeos
que servem como moldes para a sıntese de proteınas. Os nucleotıdios podem ser Ade-
nina (A), Timina (T), Guanina (G), Citosina (C) e Uracila (U), sendo que as sequencias
de DNA sao formadas pelas quatro primeiras e nas de RNA a Timina e substituıda pela
Uracila. O conjunto de todos os genes de um organismo e denominado genoma. As
proteınas sao sequencias de aminacios, que constituem a maior parte da massa celular
seca. Segundo Alberts et al. (2004, pg. 129), proteınas nao sao meramente os blocos
que constroem as celulas, elas tambem executam praticamente todas as funcoes celula-
res. Proteınas especializadas fazem a sıntase do DNA, funcionam como hormonios, fibras
elasticas, anticorpos, mensageiras extracelulares e diversas outras funcoes.
De uma forma resumida, os genes estao codificados no genoma em forma de
sequencias de DNA, proteınas especializadas leem os genes e os transcrevem na forma
de RNA que sao levados aos ribossomos para servirem de molde na sıntese de proteınas.
Esta relacao de DNA, RNA e proteınas e chamada de dogma central da genetica molecular
(STRACHAN; READ, 2002).
2.2 BIOINFORMATICA
A bioinformatica e uma area de estudo que inclui a genetica molecular, a ciencia
da computacao e a estatıstica. Nela sao resolvidos problemas de caracter biologico,
utilizando-se tecnicas em sua maior parte estatısticas implementadas em computadores.
Os principais problemas da bioinfomatica sao relacionados a comparacao de sequencias
geneticas e proteicas. Estas comparacoes tem como objetivo pesquisar similaridade entre
as sequencias, para poder analisar a homologia entre as sequencias e tambem para inferir
a estrutura destas moleculas (MOUNT, 2004).
Sequencias homologas sao sequencias que possuem um ancestral comum, ou seja,
em algum ponto da historia houve uma mutacao numa sequencia que gerou uma variante
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
13
mutante. Esta variante mutante e sua ancestral e outras variantes de ambas as sequencias
sao consideradas homologas. O estudo da homologia entre as sequencias e o grau de
parentesco entre sequencias geneticas e chamado de filogenetica molecular (MOUNT, 2004).
2.3 FILOGENETICA MOLECULAR
A filogenetica, tambem chamada de sistematica filogenetica, e o estudo das relacoes
evolucionarias entre taxons, desde o nıvel de indivıduo ate moleculares que armazenam
informacoes hereditarias da especie. O principal objetivo dela e a classificacao dos taxons
de acordo com o seu grau de parentesco evolutivo. Estes resultados sao representados
graficamente na forma de filogenias ou avores filogeneticas, indicando a relacao hereditaria
entre os organismos, onde cada taxon e ordenado de acordo com sua relacao parentesca.
Com a evolucao da genetica molecular e com a maior quantidade de dados geneticos
e proteicos, a filogenetica molecular teve inıcio. A filogenetica molecular estuda a evolucao
de genomas, genes e proteınas. Os metodos mais comuns para a reconstrucao de arvores
filogeneticas sao: maxima verossimilhanca, metodos de distancia e maxima parsimonia.
O metodo de maxima verossimilhanca se baseia na criacao de diferentes arvores
filogeneticas e com a utilizacao de modelos evolutivos, verifica qual ou quais delas tem
a maior probabilidade de representar a verdadeira evolucao ocorrida. A maxima par-
simonia trabalha agrupando caracterısticas pontuais presentes nas moleculas de DNA,
RNA ou proteicas e por fim, busca-se uma arvore que possua o menor numero de mutacoes
possıveis. O metodo de distancia utiliza uma matriz de valores contendo as distancias
evolutivas previamente calculadas entre as moleculas geneticas ou proteicas. Atraves des-
tas distancias, e construıda uma arvore, cujo objetivo e que se tenha o menor custo de
distancia entre os nodos.
Para a escolha do metodo mais apropriado e dito: programas baseados em metodos
de distancia sao comumente utilizados em laboratorios de biologia molecular porque eles
sao mais diretos e simples no uso e tambem podem ser utilizados quando ha grande
numero de sequencias. Metodos de maxima verossomilhanca sao mais trabalhosos no uso
e requerem maior compreensao do modelo evolutivo nos quais eles sao baseados. Como
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
14
eles envolvem alto esforco computacional e este esforco aumenta dramaticamente com o
aumento da quantidade de sequencias, programas baseados neste metodo estao limitados
a analise de uma pequena quantidade de sequencias. Caso as sequencias sejam altamente
similares, recomenda-se utilizar o metodo de maxima parsimonia, que prediz a arvore
filogenetica minimizando o numero de passos necessarios para observar as variacoes nas
sequencias dos ancestrais ate a sequencia atual. Por este motivo, este metodo tambem e
conhecido como metodo de evolucao mınima (MOUNT, 2004).
Uma tecnica de filogenetica molecular, proposta por Theobald e Wuttke (2005), e
a filogenetica utilizando modelos estatısticos das famılias de proteınas. Em seu trabalho,
Theobald e Wuttke (2005) apresenta um workflow para a reconstrucao filogenetica uti-
lizando modelos estatısticos das famılias de proteınas. O primeiro passo do workflow e
a pesquisa de sequencias similares para cada proteına que deseja-se reconstruir a arvore
filogenetica. Com as proteınas similares, constroem-se modelos estatısticos da famılia da
proteına utilizando modelos ocultos de Markov. Os modelos estatısticos de cada famılia
das proteınas e comparado com todos os demais modelos e com os resultados destas com-
paracoes e construıdo uma matriz de valores que sera utilizada para que o software PAUP*
reconstrua a arvore filogenetica utilizando o metodo de distancia.
2.4 SISTEMAS DISTRIBUIDOS
Sistemas distribuıdos sao sistemas compostos por mais de um computador onde
a computacao do processo e distribuıdo entre eles. Um modelo de sistemas distribuıdos
sao os clusters. Neles, as tarefas de processamento de dados sao dividas entre diversos
nos, sendo cada no um computador independente. Um modelo de cluster que esta sendo
intensamente utilizado e o beowulf.
A computacao paralela num clusters beowulf e realizada dividindo-se o problema
computacional em partes, fazendo uso de multiplos processos e atribuindo a cada um
dos processos uma parte do problema. Uma das maneiras mais simples e diretas para
a comunicacao entre os processos e o envio e recebimento de mensagens entre os pro-
cessos participantes da computacao. Esta tecnica e chamada de passagem de mensagem
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
15
(STERLING, 2002).
Para a passagem de mensagens, um grupo de fornecedores de computadores pa-
ralelos especificaram um padrao, o MPI. O MPI nao e uma implementacao especıfica,
mas um padrao para ser seguido na implementacao de bibliotecas de troca de mensagens
para computacao paralela. Para o desenvolvedor e transparente qual implementacao do
MPI sera utilizada, pois ele desenvolvera utilizando as interfaces especificadas por ele.
Desta forma, pode-se abstrair completamente qual implementacao do MPI sera utilizada
no momento de execucao.
O padrao MPI define diversas operacoes, sendo as principais: conhecimento do
numero de processos que participam do cluster, conhecimento de qual o numero do pro-
cesso no cluster, envio de mensagem a algum processo especıfico ou a todos os processos e
recebimento de mensagem de um processos especıfico ou de todos os processos. O padrao
MPI tambem fornece operacoes de envio e recebimento de mensagens assıncronos, especi-
ficacao de tipos, entrada e saıda paralela e acesso a memoria remota. Conhecendo apenas
as operacoes basicas citadas e possıvel implementar softwares distribuıdos utilizando o
padrao MPI (STERLING, 2002).
Um exemplo de utilizacao do padrao MPI na bioinformatica e o software mpi-
BLAST (DARLING; CAREY; FENG, 2003). Este software e utilizado para efetuar pesqui-
sas por similariedades em bancos de dados de sequencias geneticas e proteicas. Como o
processo de pesquisa pode ser demorado caso o banco de dados seja muito grande (acima
de um bilhao de pares de bases) ou deseja-se efetuar diversas pesquisas de forma rapida,
o mpiBLAST utiliza a tecnica de repartir o banco de dados em partes e delegar a cada
processo do cluster a pesquisa em uma parte dele.
2.5 TRABALHOS CORRELATOS
Existem diversos softwares para reconstrucao de arvores filogeneticas, sendo os
principais, PAUP* e PHYLIP. O PAUP* implementa os tres metodos num unico soft-
ware tendo ele uma linguagem propria para definir qual metodos e parametros utilizar. O
PAUP* permite definir qual metodo sera utilizado na reconstrucao filogenetica, sendo que
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
16
os algoritmos algoritmos dele nao sao publicados. O PHYLIP e um pacote de diversos
softwares, para reconstrucao de arvores filogeneticas, exibicao destas arvores e avaliacao
da credibilidade das arvores reconstruıdas. O PHYLIP implementa algoritmos dos tres
metodos previamente descritos, sendo que os algoritmos sao publicados em artigos e em
livros e o codigo fonte que compoe pacote e aberto. Porem, o PAUP* e utilizado no work-
flow de Theobald e Wuttke (2005) porque segundo os autores, os algoritmos deste sao mais
otimizados, favorecendo desta forma o tempo de execucao do processo de reconstrucao da
arvore filogenetica.
Para a construcao de arvores filogeneticas em ambientes distribuıdos, o soft-
ware mais conhecido e o Reconstrucao Distribuıda de Filogenias por Maxima Verossi-
milhanca (Distributed Phylogeny Reconstruction by Maximum Likelihood) (DPRml) (KE-
ANE et al., 2005). Como o nome do software sugere, ele utiliza o metodo de maxima
verossimilhanca para a reconstrucao das arvores. Nele, cada possıvel arvore e processada
num no do sistema distribuıdo e verificado sua validade e probabilidade, entao os valo-
res sao retornados para o escalonador que escolhera a(s) arvore(s) mais provavel(s). As
principais caracterısticas do DPRml sao: a portabilidade e heterogeneidade do cluster,
pois utiliza Java Remote Method Invocation (RMI) para comunicacao entre os nodos e a
escalabilidade, onde novos nodos podem ser adicionados e removidos dinamicamente.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
17
3 CONSIDERACOES FINAIS
Entre os pacotes existentes para reconstrucao filogenetica, o PHYLIP (FELSENS-
TEIN, 2005) e o mais utilizado na area academica, pois possui um vasto conjunto de
aplicativos e e um pacote de software livre. Os algoritmos do PHYLIP nao sao otimi-
zados o bastante para a execucao de tarefas com muitas sequencias, tornando a tarefa
de reconstrucao de arvores filogeneticas lentas nestes casos. Como alternativa, existe o o
pacote PAUP* (SWOFFORD, 2004), que possui algoritmos otimizados e velozes, porem e
um pacote de software fechado e pago. Outra questao referente a ambos pacotes, e que
eles nao sao executados de forma distribuıda, mesmo com algoritmos otimizados. No caso
do PAUP* pode-se demorar na execucao das tarefas quando o volume de dados for alto.
Como uma alternativa para ambientes distribuıdos, tem-se o DPRml (KEANE et
al., 2005). Este software possui apenas o metodo de maxima verossimilhanca e nao foi
desenvolvido para clusters beowulf, mas para ambientes distribuıdos utilizando o Java
RMI. As vantagens dos clusters Beowulf e a sua escalabilidade, podendo crescer de
forma transparente para quemo utiliza e desenvolve software distribuıdos.
Como os metodos de reconstrucao de arvores filogeneticas sao paralelizaveis,
pretende-se implementa-los para reconstrucao de arvores filogencias num ambiente dis-
tribuıdo. Pretende-se implementar o algoritmo distribuıdo utilizando a base do pacote
PHYLIP e para comunicacao entre os processos, o padrao MPI. Entao instalalo num
cluster beowulf para executar a reconstrucao filogenetica utilindo o metodo de distancia
mınima de forma distribuıda. Apos, deseja-se utiliza-lo no workflow de reconstrucao filo-
genetica utilizando modelos estatısticos de famılias de proteınas proposto por Theobald
e Wuttke (2005). Com esta integracao, pretende-se ganhar desempenho na execucao de
tarefas de reconstrucao de arvore filogeneticas que necessitam de alto poder computacio-
nal.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.
18
REFERENCIAS BIBLIOGRAFICAS
ALBERTS, Bruce et al. Biologia molecular da celula. 2. ed. Porto Alegre: [s.n.],2004.
BEOWULF.ORG: the Beowulf cluster site. San Francisco: [s.n.], 2004. Disponıvel em:<www.beowulf.org>. Acesso em: 26 mar. 2006.
CARL Woese and New Perspectives on Evolution. 2003. Disponıvel em: <http://nai-.arc.nasa.gov/news stories/news detail.cfm?ID=274>.
DARLING, A.; CAREY, L.; FENG, W. The desing, implementation, and evaluationof mpiblast. In: 4TH INTERNATIONAL CONFERENCE ON LINUX CLUSTERS:THE HPC REVOLUTION 2003 IN CONJUNCTION WITH THE CLUSTERWORLDCONFERENCE & EXPO, 2003, San Jose, Californa, USA. Proceddings... San Jose,CA: LA-UR, 2003.
DARWIN, Charles. The origin of species. [S.l.]: Martin Claret, 1859.
FELSENSTEIN, J. PHYLIP (Phylogeny inference package) version 3.6.Washington, 2005.
KEANE, T.M. et al. DPRml: distributed phylogeny reconstruction by maximumlikelihood. Bioinformatics, v. 21(7), p. 969–974, 2005.
MESSAGE Passing Interface. Chicago: [s.n.], 2006. Disponıvel em: <www-unix.mcs.anl-.gov/mpi/>. Acesso em: 26 mar. 2006.
MOUNT, David W. Bioinformatics: sequence and genome analysis. 2. ed. New York:[s.n.], 2004.
STERLING, Thomas (Ed.). Beowulf cluster computing with Linux. Cambridge,Massachusetts: The Mit Press, 2002.
STRACHAN, Tom; READ, Andrey P. Genetica molecular humana. 2. ed. PortoAlegre: [s.n.], 2002.
SWOFFORD, D. L. PAUP*: phylogenetic analysis using parsimony (*and othermethods). version 4. Sunderlander, Massachusetts: Sinauer Associates, 2004.
THEOBALD, Douglas L.; WUTTKE, Deborah S. Divergent evolution within proteinsuperfolds inferred from profile-based phylogenetics. Journal of Molecular Biology,v. 354, p. 722–737, 2005.
Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.