NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma...

49
NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente o nível de serviço em uma rede ou conjunto de redes. Estas atividades asseguram alta disponibilidade de recursos pelo rápido reconhecimento de problemas e degradação de performance, disparando funções de controle quando for necessário

Transcript of NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma...

Page 1: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

NOC - Netowork Operation CenterDefinição:

"Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente o nível de serviço em uma rede ou conjunto de redes. Estas atividades asseguram alta disponibilidade de recursos pelo rápido reconhecimento de problemas e degradação de performance, disparando funções de controle quando for necessário

Page 2: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Atuação

Para verificar se o nível de serviço atual corresponde ao desejado, informações são extraidas da rede para obter a funcionalidade e performance em tempo real.

As informações são extraidas continuamente ou sob demanda e armazenadas no banco de dados da gerencia da rede.

Page 3: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Partes destes dados são submetidos à análise e outros dados são utilizados para comparar o status real da rede com aquele desejado (planejado), permitindo verificar se alguma anomalia está ocorrendo.

Atuação

Page 4: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Deve-se preparar uma série de atividades para resolução de problemas, desde uma simples substituição de um dispositivo defeituoso até a execução de ferramentas mais sofisticadas para um diagnóstico mais acurado do problema.

Atuação

Page 5: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

O Sistema de acompanhamento de problemas

• A utilização de um "Sistema de Registro de problemas"("Trouble Ticket System") auxilia o NOC no diagnóstico do problema e permite criar um Banco de Dados(BD) de experiências com problemas, viabilizando a utilização de sistemas especialistas na solução dos problemas.

• Os TTS também agilizam o processo de controle da rede porque permitem uma comunicação direta com os responsáveis pelo NOC

Page 6: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

"TROUBLE TICKETING SYSTEMS(TTS)"

Funções e características de um TTS

• Fazendo uma analogia com um "quadro hospitalar", o "Registro de Problema" deve prover um histórico completo do problema de forma que qualquer operador possa tomar alguma iniciativa sem que para isso tenha de consultar outro operador;

Page 7: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Deve permitir um melhor escalonamento de problemas atribuindo prioridades aos mesmos. Os supervisores e operadores poderão tomar decisões acerca da necessidade ou não de mais pessoal pela carga corrente do "Centro de Operações de Rede".

• Seria interessante permitir que a prioridade dos registros mudassem de acordo com a hora do dia ou em resposta a alarmes de tempo

"TROUBLE TICKETING SYSTEMS(TTS)"

Page 8: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Se o TTS for suficientemente integrado ao sistema de mail então alguns registros podem ser despachados diretamente ao responsável;

• Deve-se atribuir um "timeout" para cada registro de problema. Caso o problema não seja resolvido em tempo, automaticamente é acionado um alarme. A fim de se evitar "postergação indefinida", pode-se adotar um escalonamento baseado no tempo de espera, no tipo de rede e na severidade do problema;

• Caso a empresa opere em mais de um Centro de Operações de Rede, deve-se canalisar os registros ao grupo de engenheiros, operadores ou representantes de clientes responsáveis por aquela rede de onde provem o registro de problema;

"TROUBLE TICKETING SYSTEMS(TTS)"

Page 9: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Fornece mecanismos para a obtenção de estatisticas tais como "Tempo médio entre falhas" e "Tempo médio de conserto". Uma coleta e análise apropriada de tais estatisticas permite que se tome medidas preventivas a eventuais falhas em dispositivos do sistema;

"TROUBLE TICKETING SYSTEMS(TTS)"

Page 10: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Potenciais Usuários de um TTS• Os potenciais usuários de um TTS dependerão de quão

sofisticado será o sistema de registro de problemas.

• Se este sistema tiver um mecanismo de ajuda orientado por um sistema especialista, boa parte do registro pode ser feita quase que automaticamente, dessa forma qualquer usuário(ou seja, incluindo o usuário final) poderá usufruir do sistema.

• Deve-se ressaltar também que mecanismos de segurança são fundamentais (prover logs e passwords) para um bom e correto funcionamento de um TTS.

• Caso o TTS nao seja tão amigável, este poderá ser utilizado somente pelo pessoal que detenha conhecimento mais aprofundado do sistema(administradores).

• É importante que o TTS esteja disponível ao usuário final porque diminui a burocracia na solução de qualquer problema.

Page 11: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Informações constantes em um TTS

• Hora e data do início do problema;

• Operador que está abrindo o registro;

• Severidade do problema;

• Uma linha descrevendo o problema(para uso em relatórios);

• Máquina envolvida;

• Rede envolvida;

• Endereço da máquina envolvida;

• Endereço da máquina destino;

• Próxima ação;

• Hora e data pra alarme;

• Para quem este registro deveria ser enviado;

• Responsável pelo registro;

Page 12: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Após a resolução do problema

• Hora e Data da resolução

• Duração

• Descrição sumária do que aconteceu

• Componente chave afetado

• Inspecionado por

• Escalado para

• Um "check mark" para eventuais investigações estatísticas

Page 13: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Responsabilidades do NOC

Monitoramento e Coleta de Dados

Projeto dos Displays de status de rede

Determinando o Alcance do Controle

Determinação de Problemas

Testes sob Produção

Roteamento Dinâmico e Alternativo

"Network Recovery"

Distribuição de Informação

Ativando ou Desativando a Rede e/ou seus componentes

Interfaces com outro pessoal do Suporte à Rede

Avaliação das Ferramentas no Controle Operacional da Rede

Page 14: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Monitoramento e Coleta de Dados

• Para assegurar a manutenção do perfil do serviço

• Avaliado por:

– Tempo de Resposta;

–Disponibilidade;

–Exatidão.

Page 15: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Coleta contínua x Coleta sob-demanda.

A fim de atuar ao invés de somente reagir, é necessário realizar medidas continuamente

Monitoramento e Coleta de Dados

Page 16: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

A ocorrência da primeira informação sobre alguma falha deve receber a maior atenção por duas razões:

–Uma falha em um componente de rede pode não prejudicar a operação até durante muito tempo após a ocorrência da falha. Quando o impacto for visível, dados sobre a falha podem não estar mais disponíveis;

–A operação não pode ser interrompida para "dumps"ou para esperar para que a falha ocorra novamente.

Monitoramento e Coleta de Dados

Page 17: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• A coleta de dados sob-demanda pode ser útil na investigação de problemas especiais de performance de rede ou para diagnosticar problemas funcionais como parte da atividade de controle operacional

• Entretanto, ela não é adequada para supervisionar a rede nem para propósito de planejamento.

Monitoramento e Coleta de Dados

Page 18: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Em um ambiente de comunicação, as seguintes fontes de informações podem ser utilizadas:

–Características padrões do software de comunicação;

– Ferramentas especiais executadas sob o software de comunicação;

–Monitores de rede;

–Monitores de aplicação;

– Logs de problemas e alertas de várias interfaces.

Monitoramento e Coleta de Dados

Page 19: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Controle Centralizado

• Vantagens:

– Visão global;

– Pessoal do NOC localizado em um só local;

– Reação ótima a todas as redes;

– Arquivos de registro de problemas e experiências mantidos centralizados;

– Operador livre de sistemas remotos;

– Base para automação;

– Determinação mais rápida de problemas;

– Coordenação de mudanças;

– Implementação de padrões;

– Relatórios e estatísticas através de dados correlatos dependentes.

Page 20: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.
Page 21: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Controle Centralizado

• Desvantagens:–Muitos dados para serem filtrados;

–Overhead no processamento;

–Overhead na transmissão de dados;

–Necessidade de um canal secundário;

Page 22: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Controle Remoto

• Vantagens:

– Somente dados seletivos;

– Reação mais rápida na área local;

• Desvantagens:

– Overhead no "download";

– Educação e contratação de pessoal especializado para os locais remotos;

– Instalação de múltiplas ferramentas;

– Somente otimização local;

– Problemas de sincronização.

Page 23: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Determinação de problemas

• Por problema se compreende um incidente ou evento que causa um mal funcionamento do sistema.

• Os objetivos principais são minimizar os efeitos dos problemas e reduzir o tempo até a restauração do estado normal.

• A determinação de problema compreende quatro passos:

– Detecção do problema;

– Determinação do problema;

– Diagnóstico do problema;

– Resolução do problema.

Page 24: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Determinação de problemas Níveis de complexidade de problemas:

Primeiro nível:

• Aqueles problemas simples que são resolvíveis facilmente através de uma simples consulta à base de dados do "Trouble Ticketing System"com o auxílio de alguma ferramenta não tão sofisticada.

• Aproximadamente 85% dos problemas podem ser resolvidos desta forma

• O diagnóstico destes problemas é simples

Page 25: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Segundo nível:

• Somente tratáveis por operadores da rede.

• Aproximadamente 10% dos problemas são deste nível. O diagnóstico é considerável.

Determinação de problemas Níveis de complexidade de problemas:

Page 26: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Terceiro nível:

• Tratáveis por especialistas em comunicação (software e hardware). Estes problemas são geralmente de natureza crítica e complexa e podem requerer envolvimento de especialistas da empresa fornecedora do software e/ou hardware envolvidos.

• O diagnóstico requer recursos humanos consideráveis e instrumentação apropriada.

Determinação de problemas Níveis de complexidade de problemas:

Page 27: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• A detecção do problema ocorre:

–Quando os limiares são excedidos, mensagens são geradas e enviadas ao console de rede apropriado alertando o operador acerca do problema, geralmente com uma identificação do tipo e localização do problema;

–Através de mensagens enviadas por clientes;

Determinação de problemas

Page 28: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• A determinação do problema significa poder responder exatamente a seguinte questão:

"O que está errado e onde está o problema na rede? "

• A determinação do problema pode ser facilitada significativamente através da exibição de informações tais como: se o problema é funcional, de serviço, de processamento, "link", etc.

Determinação de problemas

Page 29: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Diagnóstico do Problema:

• Para diagnosticar o problema, utiliza-se informações tais como:

– "arquivos de experiências anteriores"

– “arquivos com recomendações do fornecedor do produto (hardware / software)"

– "arquivos de inventário", etc.

• Para o diagnóstico do problema se recomenda a utilização de um sistema especialista, tendo como base de dados os arquivos citados acima e outros dados fornecidos pelo operador.

Page 30: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Resolução do Problema:

• A parte final da determinação do problema é a delegação da resolução do problema para a manutenção técnica(incluindo serviços dos fornecedores) ou para a análise da performance da rede.

Page 31: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Testes sob Produção

• Visam verificar dinamicamente a operação correta da rede

• Os testes poderiam incluir componentes individuais, tais como "nós" e "links".

• Os testes podem ser executados durante a operação normal mas eles não podem interferir na produção de forma alguma

Page 32: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Tipos de testes

• Intrusivo: Circuito normal e/ou a operação do equipamento são interrompidos

• Não-intrusivo: Testes podem ser realizados sem interromper os serviços de rede.

Usualmente, os testes são executados em canais secundários.

Page 33: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Automação dos testes

• Muitos dos testes que são implementados em "hardware"e "software" são executados automaticamente, sem nenhuma atenção do operador.

• Quando uma situação específica ocorre, o controle é passado para uma rotina de teste.

• O único meio para controlar a execução é através da definição do "software".

Page 34: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Network recovery

• "Network Recovery" se torna muito caro a menos que procedimentos estejam definidos para restauração rápida da rede após o reparo dos componentes danificados. Após serem executados todos os reparos, testes são executados para verificar funcionamento normal.

• Se os testes são satisfatórios, os componentes reparados e/ou "links" podem ser ligados.

Page 35: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• O controle operacional da rede é freqüentemente tentado a ignorar responsabilidades a mais em termos destes fatores:

– Fechamento dos registros de problemas fornecendo comentários sobre as causas do problema;

–Atualização do Arquivo de Experiência;

–Atualização do Arquivo do Fornecedor do produto atingido pelo problema;

Network recovery

Page 36: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

–Atualização do Arquivo de controle de inventário através da inserção de informações adicionais sobre o componente em consideração;

Network recovery

Page 37: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

– Informar os clientes da rede acerca da restauração da rede.

Network recovery

Page 38: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• É importante em favor do gerenciamento da rede assegurar que os operadores da rede sejam propriamente educados, motivados e não sobrecarregados de tal forma que suas únicas preocupações sejam o sintoma e sua resolução ao invés da causa e sua resolução.

Network recovery

Page 39: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Distribuição de Informação

• Como parte da responsabilidade da determinação do problema, o NOC deve manter o cliente informado sobre condições excepcionais da rede.

• Uma vez que partes da rede estão fora de ordem, o NOC poderia procurar pela alternativa ótima para mensagens de "broadcast".

• Também é necessário comunicar informações sobre alterações planejadas.

• Isto pode ser incorporado em mensagens periódicas

Page 40: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Ativando ou Desativando a Rede e/ou seus componentes

• Quando for necessário fazer alguma manutenção na rede que exija sua desativação temporária, deve-se realizar uma série de atividades que permitam que a desativação, reconfiguração e a ativação ocorram de forma correta.

Page 41: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Setar dados dinâmicos em estado de inicialização;

• Setar todas as tabelas de "links" em estado de inicialização;

• Comparar tabela com áreas adjacentes;

• Verificar todas a linhas;

• Ativar todas as linhas;

• Verificar todas as estações da área;

• Verificar os componentes de software;

• Ativar partes do software para estado "idle".

Ativação

Page 42: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Desativação

• Desativar todas as linhas "livres" desocupadas;

• Desativar o software de comunicação;

• Esperar pelas linhas ocupadas;

• Desativar os componentes de software.

Page 43: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Reconfiguração:

• Verificar/ativar todas linhas;

• Verificar todas as estações do domínio;

• Reconfigurar as tabelas de "links";

• Ativar os "links" de acordo com as tabelas de "links";

• Setar dados dinâmicos em estado de inicialização;

• Ativar os componentes de software.

Page 44: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Interfaces com outro pessoal do Suporte à Rede

• Devido a falta de tempo e treinamento, o NOC freqüentemente tem de delegar problemas para outros grupos.

• Três grupos estão envolvidos:

–Manutenção técnica

–Análise de performance e "tuning"

–Administração da Rede

Page 45: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Análise de performance e "tuning"

• Localização de gargalos;

• Investigações especiais;

• Geração de software;

• Realização de avaliações estatísticas com propósitos especiais;

• Prover relatórios;

• Preparação de procedimentos operacionais fáceis-de-serem-utilizados;

• Planejar "upgrades" de software e/ou hardware;

Page 46: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Administração da Rede

• Manutenção de arquivos;

• Avaliação dos níveis de serviço;

• Prover novos padrões;

• Avaliação dos "registros de problemas" e prover a forma para a entrada de "registros de problemas";

• Negociação dos níveis de serviço com os clientes;

• Assegurar que o NOC tem as facilidades, treinamento e pessoal capacitado para atingir seus propósitos;

• Relatar aos vendedores sobre as observações dos operadores sobre a falta de simpatia dos clientes.

Page 47: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Avaliação das Ferramentas no Controle Operacional da Rede

• A motivação do pessoal que trabalha do NOC é um importante fator para que este atinja seus objetivos.

• Não é necessário delegar a responsabilidade para a seleção do instrumento correto para o controle operacional, mas o pessoal deveria estar envolvido nas seguintes áreas:

– Definição de crítérios;

– Pesar os critérios;

– Avaliação dos critérios para um número gerenciável de alternativas;

– Realização e avaliação do processo de instalação;

– Ordenação das alternativas em termos de tecnologia.

Page 48: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

• Esta política de envolvimento e educação é crítica não somente para avaliação de ferrramentas mas também na introdução de todo novo upgrade de software e/ou hardware da rede.

Avaliação das Ferramentas no Controle Operacional da Rede

Page 49: NOC - Netowork Operation Center Definição: "Network Operational Control"(NOC) consiste em uma coleção de atividades requeridas para manter dinamicamente.

Considerações acerca da Implementação

• O primeiro passo consiste em realizar um "checklist" sobre a situação atual.

• A lista seguinte fornece algumas recomendações para a elaboração do "checklist":

– Lista de inventário de componentes:

nodos e "links"(velocidade,protocolos,etc);

– Disponibilidade de informação "on-line" a nível de serviço;

– Metodologia de determinação de problema;

– Disponibilidade de catálogos de "what-if"

(de apoio a tomada de decisões:

do tipo o que fazer se isto ocorrer);