Gerenciamento de Incidentes
Dando continuidade ao post anterior, o assunto agora é gerenciamento de incidentes.
O objetivo do gerenciamento de incidentes é restaurar ao normal a operação o mais rápido possível com o menor impacto ao negócio e/ou ao usuário, a um custo coerente.
Vamos começar pelo time que trata de incidentes. O service desk é o ponto de contato com os usuários. Este canal mostra como é a percepção deles em relação aos serviços prestados e muitas vezes tiram o pessoal de TI da zona de conforto, aprimorando assim o serviço. Dependendo do tamanho da empresa outra equipe, chamada de operação de 1º nível, trata os incidentes gerados automaticamente via software. Estes executam procedimentos pré-formatados que caso não funcionem são repassados para os especialistas.
O ITIL define um incidente como uma interrupção não planejada de um serviço de TI, ou a redução da sua qualidade. A falha de um item que não impacta o serviço também é considerado um incidente. Essa definição pouco mudou do ITIL v2 para o ITIL v3, entretanto, houve uma mudança que considero um grande avanço na v3: a inclusão do processo de gerenciamento de eventos.
Em várias empresas que passei é comum encontrar incidentes reportados que não são incidentes realmente. Eu sempre defendi que esses itens não deveriam ser tratados como incidentes, mas que fossem analisados por uma equipe para atuação pró-ativa ou pelo time responsável pelo serviço prestado. Pela versão atual do ITIL um evento pode indicar alguma coisa que não está funcionando corretamente e que pode acarretar em um incidente. Essa mudança é importante porque o tratamento de um incidente é bem mais burocrático que o de um evento, e com isso o processo de gerenciamento de incidentes ganha em agilidade. É bem comum encontrar os eventos (alertas) como incidentes de baixa criticidade e dependendo do tamanho da organização isso até faz sentido, mas nos casos de empresas com 50 mil ou mais incidentes ao mês, essa mudança reduz em mais de 30% os número de incidentes reportados.
Por exemplo, a configuração de monitoramento de infra-estrutura básica seria bem menos complicada pois Disco, Memória, CPU e Rede podem ter dois tratamentos: quando são eventos e quando são incidentes. Seguindo a lógica, vamos imaginar que quando um disco chegar a 85% de utilização ocorrerá um evento (alerta) e neste caso, o time responsável pelo serviço assume a responsabilidade de atuar para evitar a ocorrência de um incidente. Pela definição, não é necessário seguir o processo de incidentes, mas o de eventos. No caso da utilização chegar em 90% ou mais, teríamos um incidente que seria atendido pela equipe de operação de 1º nível e escalado quando necessário. Em ambos os casos é fundamental ter um responsável pelo evento ou incidente e manter as informações em um banco de dados para histórico.
Muito cuidado para não fazer com que os alertas (seja de incidentes ou eventos) sejam uma fonte de mensagens SPAM. Já vi administradores de rede criarem regra para que as mensagens de monitoramento fossem para uma pasta que nunca era lida, devido ao número de alertas que eram gerados por dia.
Um dos maiores desafios que vejo nas empresas hoje e fazer o co-relacionamento entre os incidentes corretamente, ou seja, quando um servidor pegar fogo, todos os incidentes relacionados aquele servidor deveriam estar consolidados em um único incidente. Outro grande desafio e definir adequadamente SLAs para os incidentes e juntamente com isso configurar (e manter) a categorização para eles.
Abaixo um exemplo de relatório que criei para um cliente. O relatório traz informações importantes sobre o comportamento dos incidentes, tais como: volumetria por dia e consolidado, SLA, horas do dia que ocorrem os incidentes, qual volume por turno, porcentagem de fechamento dos chamados por fração de tempo e etc. O relatório é um insumo para o processo de gerenciamento de problemas e revela fatos que muitas vezes passam desapercebidos.
Para quem quiser começar a montar um service desk, o MOSS 2007 (Microsoft Office Sharepoint Services) oferece um template de service desk e call Center no link:
https://technet.microsoft.com/pt-br/windowsserver/sharepoint/bb407286(en-us).aspx
No link abaixo são disponibilizados templates para as funções de IT Manager e Customer Service Manager, que serve como base para acompanhamento do processo.
https://office.microsoft.com/en-us/sharepointserver/HA102147321033.aspx