Informação é tudo! produção sob monitoramento.

16
Informação é Tudo! Produção sob Controle Julian Monteiro TDC 2013

description

Apresentado no TDC 2013, trilha ALM

Transcript of Informação é tudo! produção sob monitoramento.

Informação é Tudo!���Produção sob Controle

Julian Monteiro

TDC 2013

Agenda

• Contexto: Sistema em produção e grande volume de dados

• Necessidade de evolução • Chegada do monitoramento • Dia a dia

12.000 Veículos + 100 Empresas

10 Estados

GPS GPRS / 3G

Rastreamento de frota de veículos

Dificuldade na identificação de falhas

Grande volume de dados

Recepção de dados 400 msgs/segundo Quantidade de novos registros 24 milhões/dia Queries 7 mil/segundo

Crescimento���Necessidade de evolução da solução

1.  Situação

•  Problemas...

2.  Estabilização

3.  Historinha

4.  Monitoramento

Agregar dados de funcionamento

• Log sempre esteve lá! só que, em diversos servidores e arquivos

• Solução: • Coleta: tail | grep | sed | cut > metrics.txt • Agrega: scp user@host1:metrics.txt . • Visualiza: logstats.php (arquivo HTML disponível na web)

Dados à Informação

Keep it simple… suficiente por 6 meses

Evolução: Zabbix • Zabbix como ferramenta de apoio

• Usualmente monitora infraestrutura • All-in-one, open source (GPLv2) • Server / Agents • Low-level discovery • User metrics

•  UserParameter=meuitem[*], /usr/bin/coleta.sh $1

...e as métricas da aplicação/negócio?

Métricas sob-demanda No nosso contexto:

• Histograma atraso pacotes

Métricas sob-demanda No nosso contexto:

• Mapa por região / operadora telefonia

Separação em grupos (A/B)

Métricas sob-demanda No nosso contexto:

• Fluxo de dados em cada subsistema

Métricas sob-demanda No nosso contexto:

• Filas

Métricas sob-demanda No nosso contexto:

• Tempo de acesso à telas

Uso do Zabbix

• Coleta de dados: zabbix-agent

• Recebimento automático: zabbix-sender

• Segregação por cliente

•  Cada cliente é mapeado num “host”

•  Template facilita criação de gráficos/telas

•  Criação automática de hosts (via API)

Dia a dia

•  Instalação de monitores no ambiente de trabalho •  Integridade na troca de versão (histórico é

referência) • Teste de fumaça • Equipe reage rápido a problemas (alertas ativos,

SMS, etc...)

Obrigado������

[email protected]

Para dar uma olhada:

Graphite, statds, logster, metrics, nagios, zenoss