Post on 07-Apr-2016
Seminário TécnicoConceitos e Projeto de Sistemas Distribuídos e Paralelos
Adriano Machado (adrianoc@dcc.ufmg.br)
Why do Internet services fail, and Why do Internet services fail, and What can be done about it?What can be done about it?
David Oppenheimer, Archana Ganapathi , and David A. Patterson
University of California at Berkeley
Julho de 2003
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speedSumárioSumário
• Motivação• Objetivo• O que foi feito• Metodologia• Análise e Resultados• Conclusões• Direções Futuras• Pontos Fortes e Pontos Fracos
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MotivaçãoMotivação
• Disponibilidade de Serviços Internet se torna cada dia mais importante;
• Falhas observadas pelos usuários são relativamente freqüentes;
• Melhorar disponibilidade dos serviços requer conhecer suas causas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speedObjetivoObjetivo
• Estudo das causas de falhas de serviços Internet a partir de dados de 3 provedores de serviços Internet de grande escala;
• Propor técnicas que possam evitar ou reduzir as falhas identificadas e qual o impacto de adoção dessas técnicas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
O que foi feitoO que foi feito
• Identificação de falhas nos componentes dos serviços Internet;
• Análise do tempo de recuperação da falha (TTR);
• Análise de estudos de caso;• Análise da aplicabilidade de técnicas
para evitar ou minimizar impactos das falhas;
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• 1) Obtenção de dados relativos à falhas de três provedores de serviços Internet:
– Portal Internet e serviços on-line (Online);– Provedor de serviço de hospedagem
(Content);– Provedor de serviço do tipo mídia on-line
(Read-Mostly).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Online
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Content
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Read-Mostly
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Comparação dos serviços Internet
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• 2) Análise das falhas dos componentes a fim de identificar as falhas de serviços.
ContentContent OnlineOnline
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• 3) Análise de cada incidente (falha de serviço)– Causa da falha por localidade– Causa da falha por tipo de falha– Tempo para diagnosticar + reparar
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Causa da falha por localidade
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Causa da falha por tipo de falha
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Tempo para diagnosticar + reparar
Tempo (em horas)Tempo (em horas)Número entre parênteses: amostraNúmero entre parênteses: amostra
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Causa de falhas por % de falha de serviços
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Causa de falhas por % de tempo para reparar dano
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Observações / Conclusões parciais– Erros de operador: maior causa de falha
dos serviços;– Erros de operador: mais significativo
levando-se em conta o tempo do serviço fora do ar;
– Geralmente ocorre por mudanças feitas pelo operador, não reparos;
– Erros na rede: muito significativo (Read-Mostly)
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• 4) Técnicas para aliviar falhas observadas:– Propõem;– Analisam eficácia, considerando 40 falhas
de serviço do “Online”.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
MetodologiaMetodologia
• Eficácia da Técnica X custo de adoção
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Análise e ResultadosAnálise e Resultados
• Das técnicas propostas:– Testes on-line aliviaram 26 falhas das 40
analisadas;– Instrumentar e monitorar HW/SW: reduziria
TTR em 25% dos casos analisados;– Aumentar redundância: 22,5% de eficácia;– Problema: “Online” já utiliza 60% dessas
técnicas (resultado não é fiel à realidade).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
ConclusãoConclusão
• Por que erros do operador causam tantas falhas de serviços Internet?– Técnicas existentes para minimizar essas
falhas são pouco voltadas para auxiliar erros do operador.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
ConclusãoConclusão
• Por que operador demora tanto a corrigir falha? – Detecção da falha e seu diagnóstico são
difíceis devido à falta de ferramentas adequadas para o operador e dificuldade em manter serviço 24x7 (muitas vezes o operador somente volta o serviço sem corrigir o problema pela causa).
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
ConclusãoConclusão
• Atenção às práticas do operador, oferecer mais recursos a ele;
• Erros poderiam ser minimizados com:– Qualidade dos testes;– Auditoria da configuração do sistema;– Melhores técnicas para detecção e diagnóstico de
falhas;• Utilizar metodologia de desenvolvimento que
utilize métodos formais e técnicas de SPE ().
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Direções FuturasDireções Futuras
• Quantificar o impacto de práticas operacionais que vem sendo adotadas;
• Análise de outros diferentes serviços Internet:– E-commerce;– Intranet / Extranet;– P2P, etc.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Direções FuturasDireções Futuras
• Criar um repositório de dados relativos à falhas de domínio público:– Taxonomia padrão para classificar falhas;– Métricas padrão para avaliação de impacto
das falhas;– Técnicas para “anonimização” automática;
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Pontos FortesPontos Fortes
• Análise de dados reais;• Boa interpretação dos dados obtidos;• Boa metodologia de desenvolvimento
do trabalho;• Boa análise de trabalhos correlatos;• Boas referências apresentadas.
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Pontos FracosPontos Fracos
• Não levaram em conta as falhas causadas por problemas de segurança;
• Representatividade dos dados:– não levam em conta aspectos
transacionais;• Análise das causas: não leva em conta
questões de desempenho e escalabilidade (será que não ocorreram?)
• Resultado do Read-Mostly não me convenceu!
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
Nota FinalNota Final
• Apresentação do artigo: 9• Relevância do assunto: 10• Metodologia adotada: 10• Contribuições dos autores: 9• Análise bibliográfica: 9• Nota Final: 9,4 / 10,0
e-Commerce, Systems Performance Evaluation, and Experimental Development Laboratory
e-speed
PerguntasPerguntas