Aplicando técnicas de OLAP para gerência de grades OurGrid
description
Transcript of Aplicando técnicas de OLAP para gerência de grades OurGrid
Aplicando técnicas de OLAP para gerência de grades OurGrid
Abmar Grangeiro BarrosEstágio Integrado
Agenda
• Ambiente e supervisão• Contexto• Resumo do problema• Atividades• Resultados• Considerações finais
Ambiente de Estágio
• LSD• Supervisão acadêmica– Prof.ª Dr.ª Raquel V. Lopes
• Supervisão técnica– Rodrigo Vilar de Miranda
Contexto
• Uso de grades computacionais na pesquisa científica
• Dificuldade de gerenciá-las:– Distribuição– Alta heterogeneidade– Complexidade
• Dados históricos podem ajudar nas atividades gerenciais
Contexto
• Caso de Uso: OurGrid– Middleware de grades computacionais
desenvolvido no LSD.– Possui um sistema hierárquico de coleta de
estatísticas.– Já existe uma ferramenta de análise de dados
históricos: OurGrid Statistics.
Contexto
Contexto
Resumo do problema
• O OurGrid Statistics não escalou.– A principal tabela do BD central ultrapassou os
8 Mi de registros.– O Statistics não conseguia gerar mais nenhum
gráfico.• As consultas do Statistics foram escolhidas de
forma ad-hoc.– Quais as consultas que otimizam a atividade
gerencial?
Objetivos
• Fazer um levantamento bibliográfico sobre como é feita gerência em outras grades.
• Estudar estratégias de OLAP que viabilizem as consultas a serem realizadas.
• Implementar as consultas escolhidas usando as técnicas estudadas.
Atividades
• Gerência– Revisão bibliográfica, estudo de middlewares– Questionário com gerentes de grade no LSD– Escolha do conjunto de consultas
• OLAP– Revisão bibliográfica– Escolha da ferramenta
• Implementação e implantação da solução• Documentação
Resultados
• Gerência– Conceito: monitorar e controlar os componentes
da grade para garantir um certo nível de QoS.– Middlewares de grade devem fornecer
ferramentas para prover informações gerenciais:• gLite• Condor• OurGrid
gLite
gLite
Condor
Condor
OurGrid
OurGrid
Questionário
• Amostra: Integrantes do LSD que desempenham atividades gerenciais.
• Objetivo: Extrair suas principais necessidades quanto à informação de gerência.
Questionário
• Quais as atividades relacionadas a gerência de grids que você desempenha?
• Quais ferramentas você utiliza pra realizar essas atividades?
• Que tipo de informação histórica (última semana, durante o dia) seria útil para suas atividades de gerência?
Resultados
• A pesquisa sobre os middlewares e o questionário revelaram que:– A principal informação buscada é disponibilidade
dos componentes.– Seguida de relatório de falhas e tempo de
execução de tarefas.
Resultados
• Consultas a implementar:– Média da quantidade de Peers online.– Média da quantidade de Workers em cada estado,
ao longo do tempo e por site.– Razão da disponibilidade média por site.– Quantidade de jobs submetidos, com sucesso e
com falha.– Tempo médio de execução de tarefa.
Resultados
• OLAP– Online Analytical Processing.– Trabalha com dados em massa.– Operações são geralmente read-only.– Deve responder rápido o suficiente para permitir
uma exploração interativa dos dados.
Análise multidimensional
Year 2000 2001 Growth
Product Dollar sales
Unit sales
Dollar sales
Unit sales
Dollar sales
Unit sales
Total $7,073 2,693 $7,636 3,008 8% 12%
— Books $2,753 824 $3,331 966 21% 17%
—— Fiction $1,341 424 $1,202 380 -10% -10%
—— Non-fiction $1,412 400 $2,129 586 51% 47%
— Magazines $2,753 824 $2,426 766 -12% -7%
— Greetings cards $1,567 1,045 $1,879 1,276 20% 22%
Análise multidimensional
• Dimensões (Dimensions)– Formam as colunas e linhas– Ex.: Year e Product– Hierarquia de dimensões (Ex.: Books, Magazines)
• Medidas (Measures)– Formam os valores– Ex.: Dollar sales e Unit sales
Agregações
• Para consultas complexas, cubos OLAP conseguem responder em 0,1% do tempo da mesma consulta em OLTP.
• O mais importante mecanismo em OLAP é a agregação.
Agregações
• Agregações são construídas a partir das tabelas de fatos:– As granularidades de dimensões específicas são
alteradas.– Os valores são agregados sobre essas dimensões.
• A combinação de todas as possíveis agregações contém as respostas pra qualquer consulta, diretamente dos dados.
Agregações
• Assim, um número muito grande de agregações deve ser computado, o que é computacionalmente inviável.
• Normalmente uma parte das agregações são pré-calculadas, outras são calculadas por demanda.
• O problema de decidir quais agregações pré-calcular é conhecido como view-selection.
View-selection
• O objetivo do view-selection é minimizar o tempo médio de resposta das consultas.
• View-selection é NP-completo.• Abordagens já exploradas:– Algoritmos gulosos– Busca aleatória (Randomized search)– Algoritmos genéticos– Busca A*
Ferramentas
• Comerciais– Microsoft Analysis Services– Oracle Essbase– IBM Cognos TM1
• Open-Source– Mondrian OLAP Server– Jedox Palo
Implementação
• As tabelas do esquema original não se encaixavam com a definição de tabelas de fatos.
• Foi necessário o desenvolvimento de pré-processadores.
Implementação
• Decisão: menor grão de tempo apresentado deve ser a hora.– Assim os pré-processadores acumulam valores de
uma em uma hora.– O número de registros da tabela pré-processada
chega a ser 90% menor que o da tabela original.– Granularidade continua sendo a mesma usada no
Statistics.
Implantação
• Mondrian roda dentro de um container WEB Apache Tomcat.
• Funciona como servidor OLAP para consultas MDX.
• Fornece um framework de exibição de tabelas pivô, tabelas específicas para operações OLAP.
Implantação
• Arquivos XML descrevem os esquemas dos cubos.
Implantação
• Páginas JSP criam as consultas em MDX e desenham o pivô.
Implantação
Implantação
• olap.ourgrid.org– Servidor OLAP rodando com dados reais e atuais
da comunidade OurGrid.– Tem implementadas, inicialmente, as consultas
elaboradas durante o Estágio.
Considerações Finais
• Diferença de desempenho considerável com o uso de técnicas de OLAP.
• É necessário fazer testes de usabilidade junto à ferramenta.– Avaliar quanto a ferramenta ajuda de fato nas
atividades gerenciais.
Considerações Finais
• Trabalhos futuros– Expandir o conjunto de consultas trabalhado
nesse Estágio.– Adaptar ferramentas existentes para o uso com o
servidor OLAP, como o Statistics.
Lições aprendidas
• Foi possível por em prática alguns tópicos importantes do curso:– Banco de dados– Sistemas distribuídos
• É importante seguir um cronograma e fazer uma documentação contínua das atividades.
Obrigado!