A importância da gestão de incidentes para a saúde da infraestrutura de TI

*Por Ralph Eck

Ou vai ou racha. É a isso que tudo se resume quando os Administradores de Sistemas (SysAdmins) estão lidando com o fluxo deFundo_site dados vindos de todas as direções. Faça isso! Largue aquilo! Cuidado ali! O monitoramento de TI tem o objetivo de fornecer orientação e mostrar uma direção para a solução dos problemas, mas, muitas vezes, faz exatamente o oposto.  É nessa situação que o monitoramento da gestão de incidentes entra em jogo, no intuito de mudar as coisas para melhor.

 

Entenda como monitoramento a análise de dados de que você precisa para manter seus principais sistemas de TI em funcionamento. Ainda que isso pareça óbvio, não é a primeira coisa a se pensar. O monitoramento pode deixar você com toneladas de dados que significarão quase nada se você não estruturá-los corretamente.

 

A distinção mais óbvia que precisa ser feita é se você é o tipo de pessoa que prefere relatórios ou alertas. Ambos ajudam manter a saúde de um sistema. Mas os relatórios são utilizados principalmente para documentar o estado geral de um sistema. Digamos, por exemplo, que você seja um provedor de web hosting e pretende demonstrar a qualidade do seu serviço aos seus clientes. Um relatório vai servir bem a esse propósito. Supondo que tudo esteja bem.

 

Mas é óbvio que um relatório não é suficiente para manter um sistema de TI saudável. Muitos problemas certamente afetarão a qualidade de todo o serviço e a diminuirão para um nível em que não deveria estar. Então, o que você precisa fazer é manter-se ativo logo após ter a primeira indicação de que algo vai mal. E é exatamente aí que um alerta irá ajudá-lo a manter tudo em ordem. Em outras palavras: os alertas permitem antever um incidente antes que ele se torne um problema. Portanto, são nos alertas que os Administradores de Sistemas devem se concentrar, para que os relatórios mostrem um sistema saudável.

 

A necessidade de gerenciamento de incidentes é evidente

 

A tecnologia de monitoramento de hoje permite que os SysAdmins recebam alertas automáticos sempre que um monitor detecta um problema. Mas até mesmo o fato de você poder decidir se quer receber os alertas em forma de e-mail, mensagem de texto ou chamada telefônica não necessariamente vai te surpreender.

 

No entanto, há um par de fatores cruciais que precisam ser reconhecidos e tratados, incluindo o gerenciamento adequado de incidentes. Cada um deles precisa ser abordado de forma apropriada, e uma rotina adequada de escalonamento é o primeiro passo para garantir que um alerta esteja chamando a atenção da pessoa certa no momento certo. Por exemplo, ninguém quer receber um alerta de mensagem de texto no meio da noite, enquanto está longe de sua mesa e provavelmente dormindo. Não seria útil.

 

Embora isso não seja um problema quando relacionado a algo menor, a história pode ser totalmente diferente quando se tratar de um objeto vital do seu sistema. Se esse objeto crítico estiver possivelmente em perigo, você pode querer certificar-se de que o alerta vá para a pessoa certa e da maneira correta. O gerenciamento de incidentes certamente é importante, mas não é o único fator a ser levado em conta.

 

Parâmetro para determinar o nível de gravidade

 

Para determinar o caminho correto de escalonamento, é necessário que os parâmetros sejam definidos de modo que cada problema possa ser atribuído a um nível de gravidade. Isso ajudará a determinar se um alerta é crítico ou se pode ser tratado apenas como um aviso de que algo não está em seus parâmetros habituais.

 

Vale ressaltar que é o importante para uma empresa pode não ser para outra. Embora alguns usuários considerem relevante saber se um servidor não está respondendo dentro de um limite de tempo pré-definido, outros terão de descobrir se os elementos da página falharam ao carregar ou se as suas capacidades de memória RAM ultrapassaram o limite.

No entanto, assim como qualquer SysAdmin te diria, alertas inconsistentes ou contraditórios, às vezes, podem ser quase tão frustrantes como não receber nenhum. A chave para evitar isso é ter mais de um local de monitoramento, de modo que vários locais possam confrontar seus resultados com os dos outros.

 

É importante ter a certeza de que um problema não esteja sendo resolvido por duas pessoas ao mesmo tempo. Seria um desperdício de recursos. Quando um alerta está sendo entregue a várias partes, todos os envolvidos devem ser avisados quando alguém assumir o problema. E todo mundo precisa ser informado sobre o status para evitar a repetição desnecessária de tarefas.


O monitoramento continua a ser uma tarefa essencial para os Administradores de Sistemas e gerentes de TI. Ainda assim, o sucesso dele depende de uma configuração apropriada, priorização e elementos-chave, como o gerenciamento de incidentes, a definição de parâmetros e o reconhecimento de alertas. Se esses elementos não estiverem alinhados, o monitoramento será um pesadelo para as pessoas que fazem os sistemas de Ti funcionarem. Mas se estiverem, certamente farão muita diferença.

*Por Ralph Eck, gerente geral da Monitis

Share This Post

Post Comment