AutoMan: Gerência Automática no OurGrid Celso Brennand [email protected].
Transcript of AutoMan: Gerência Automática no OurGrid Celso Brennand [email protected].
2
Agenda
• Contexto: OurGrid e sua Gerência.
• Desafios de Gerência de Grades.
• Nossa proposta: AutoMan.
• Avaliação.
• Lições Aprendidas.
• Conclusões e Trabalhos Futuros.
3
Contexto: OurGrid
• Grade computacional entre-pares.• Fácil Implantação.• Inexistência de negociação para a entrada
de novos pares.• Recursos ociosos Poder computacional.• Mecanismo de incentivo: Rede de Favores• Não apresenta uma solução para gerência
de seus componentes.
4
OurGrid
MyGrid
Peer
UserAgent
CorePeer
5
Gerência do OurGrid
• Um Administrador Um ou vários sites.
• Checar todas as máquinas e serviços do(s) site(s).
• Reativar máquinas e serviços falhos.
6
Cenário de Gerência: Caso LSD
• Administradores só estão disponíveis em horário de expediente.
• Se a falha ocorrer à noite, feriado ou fim de semana?
7
Desafios da Gerência de Grades
• Demanda grande esforço
• Gerência de grades é muito ampla
• Recursos heterogêneos
• Domínios diferentes
• Escalablidade
• Alta disponibilidade
• Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.
8
Solução Proposta
• Mínimo de intervenção humana.
• Ajudar administradores.
• Tentar prover disponibilidade 24/7.
• Desenvolver uma arquitetura de gerência e monitoração automática que:
9
AutoMan
• Sistema de Monitoração e Gerência.
• Facilitar a gerência do OurGrid.
• Baseado nas atividades comuns de gerência dos administratores.
• Agentes AutoMan– Monitores– Agregador de dados ( Aggregator )– Analisador e atuador ( Leukocyte )
10
Monitores
• Sensores– Serviços ( instrumentação
do código )• UserAgent• CorePeer• Peer
– Máquinas ( Ganglia )• Carga: CPU, memória.• Espaço em disco.
• JMX• Monitoração hierárquica
11
Aggregator
• Armazenamento
• Consulta
• Publish-subscribe
12
Leukocyte
• Diagnosticar ( Detector)– Analiza as métricas
• Resolver ( Effector )– Script – ssh– Reativar um serviço– Limpar /tmp
• Inscreve-se em certas métricas.
13
Arquitetura AutoMan
Interessados inscrevem-se nas
métricas
Monitor percebe o Peer saiu do ar
Envia uma métrica PeerDown para o
AggregatorJM
XPeerDown
Aggregator armazena a métrica
e envia para os interessados
JMXP
eerD
own
JMX
PeerD
own
ssh
Ssh(PeerUp)Leukocyte analiza
(Detector) a métrica recebida e
toma uma ação (Effector)
O Peer está ativo novamente!!!
Monitores
Agregador de dados
Aggregator
Analisador e atuador
Leukocyte
RMI
inte
ress
ado
(Pee
rDow
n)RM
I
interessado
(PeerDow
n)
14
Avaliação Experimental
• Medindo o Overhead do AutoMan
• Indisponibilidade dos serviços OurGrid com e sem o AutoMan
15
Medindo o Overhead do AutoMan
• Ferramenta que captura o tempo de execução de um Job.
• Ambiente controlado.
• OurGrid com e sem a monitoração.
• Método T-Test para verificar se a diferença é significativa.
• Overhead 1,86% em um intervalo de confiança de 95%.
16
Indisponibilidade dos serviços OurGrid com e sem o AutoMan
• Entidades avaliadas com e sem AutoMan: – Peer, Worker e CorePeer.
• Indisponibilidade: – Contornável: falhas do serviço.– Inevitável: máquina é desligada ou está em
um SO que o serviço não está instalado.
• Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.
17
Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Entidade Indisponibilidade Média
Sem AutoMan( unidade de tempo)
Indisponibilidade Média
Com AutoMan( unidade de tempo)
Worker 6.198 s
~2 horas
600 s =
10 min
Peer 29.237 s
~8 horas
0 s
CorePeer 4.719 s
~1h30 min
103 s
~2 min
18
Lições Aprendidas
• Cuidado com arquivos de configuração:– É muito fácil introduzir erros nesses arquivos.
• Não assuma que o software que está sendo monitorado está livre de bugs.
• Gerência Automática não substitui totalmente a gerência manual.
• Mecanismos de recuperação devem ser escolhidos cuidadosamente.
19
Conclusões
• O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis.
• Aumento da disponibilidade da grade OurGrid.
• Torna o OurGrid ainda mais amigável.• Arquitetura que pode ser reutilizada em
outros sistemas distribuídos.
20
Trabalhos Futuros
• Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog.
• Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC.
• Separar completamente o código de gerência (POA).
21
Projeto OurGrid UFCG/HP
Celso Brennand
Obrigado!!!
Projeto OurGrid LSD/UFCG/HP
www.ourgrid.org
22
AutoMan: Gerência Automática no OurGrid
Celso Brennand
Marco Spohn
Alvaro Coelho
Ayla Dantas
Francisco Brasileiro
Gustavo Pereira
David Candeia
Guilherme Germoglio
Flavio Santos