11 gigas por dia e um milhão de possibilidades (meetup bh)
-
Upload
marcus-lacerda -
Category
Software
-
view
81 -
download
0
Transcript of 11 gigas por dia e um milhão de possibilidades (meetup bh)
Marcus Lacerda
❖ Formado UFU em 2002
❖ Na Ci&T ~12 anos
❖ Bike & Kart for fun
marcus-lacerdaa
marcuslacerda
11GbPrecisávamos estar preparados para:
1M
Log de execução
2Deploy /
dia
Plataforma24x73k
600k
Usuários
Request / Day
Operação
Qual era nosso desafio?
Linhas de código
Questões como:
ciandt.com
1. Quais são as funcionalidades mais acessadas?
2. Qual foi a quantidade de erros não tratados nos últimos dias (instabilidade)? Onde estão os logs?
3. Quantos usuários estão acessando o sistema simultaneamente e a partir qual região (IP)?
4. Existe degradação no tempo de resposta nos períodos de pico?
Acompanhamento das execuções de
monitoração
Envia notificações de
acordo com resultado de
queries
Alertas:● Expansão do Witix para envio de
notificações no Celular● Possibilidade de criar novos pontos de
monitoração (qualquer query do WiTIX)● Integrações com: Telegram, Slack, Jira,
Shell e etc.
Benefícios:❖ Monitoração 24x7 sem necessidade de
time❖ Encaminhamento de cenários de forma
mais rápida
Notificações (Watcher ou Elastalert)
Alertas nos últimos 7 dias => +50% em 3 itens
Notificações (Watcher ou Elastalert) - serviço indisponível em 15 minutos
type: frequency #(spike, flatline, blacklist, whitelist, any, change)timeframe: minutes: 15
# Query a ser executadafilter: - query: query_string: query: '(environment: "*PRD") AND message: "E152" AND message: "TIBCO"'
# Para onde será enviado o alertaalert: - "telegram"
2
Análise de Tendência
1(1) Aumento de demanda previsto
(2) P70 no tempo de resposta com tendência de estourar a meta de 15 segs
PROBLEMA FUTURO
5 Tips: O que aprendemos?
ciandt.com
Independente da plataforma que for utilizar, é sempre bom lembrar que...
Schema-free, but tenha cuidados:
Especial com o TTL
"Not analyzed" campos sem necessidade
Backup single node vs cluster data replication
● environment● hostname● servername● application● module
Identificação da origem
application instance identifier:
Rastreabilidade entre diferentes índices
O request b7cd80b7 gerou 4 logs entradas no log e 1 chamada SQL.
Fica mais fácil achar o problema agora!!!
● Logstash (+ 30 plugins)● Filtros (Java, .NET)● Interceptor vs Aspect● Byte-code injection
Referências:● https://github.com/dropwizard/metrics● https://github.com/stagemonitor/stagemonitor
Não seja intrusivo no código da aplicação
“Nenhum sistema jamais teve esse nível de informação e assertividade para encontrar os problemas. Hoje é possível saber o que realmente está acontecendo com o sistema em produção, em tempo real"
Client's Feedback
ciandt.com