O Code Blue e a priorização de incidentes
Depois de um tempo envolvido em um projeto de consolidação de datacenters de hospitais e clínicas, tive a oportunidade de aprender bem como definir a criticidade correta para um incidente, mesmo porque, nesse setor, um incidente mal priorizado, no pior caso, poderia até custar a vida de algum paciente. Antes disso era muito vago discernir qual a diferença entre um incidente com prioridade 1 e um com prioridade 2. Imaginem o que era ter que realizar procedimentos de atualizações em servidores conectados a unidades de UTI.
Pelo modelo do ITIL um incidente é priorizado de acordo com o impacto e a urgência. O que ocorre é que, quando se define mal o impacto e/ou a urgência, a criticidade perde a credibilidade. Um exemplo clássico é a priorização de incidentes da chefia (ou dos pedidos que venham de lá) em detrimento dos demais.
A priorização é notadamente utilizada para definir os prazos para atendimento. Entretanto, no meu ponto de vista, este não é o único quesito importante, pois nada adianta você iniciar o atendimento no prazo sem os recursos adequados.
Assim, definir os recursos para o atendimento é um dos principais objetivos da priorização dos incidentes. Tomemos um exemplo da área médica. Um code blue, nos hospitais da América do Norte, geralmente significa que um paciente requer ressuscitação imediata ou ,estando a caminho, tão logo chegue ao hospital. Com isso, o cardiologista, o pessoal da emergência e quaisquer outros recursos previamente treinados já dão prioridade para esse caso, por ser o mais urgente no momento.
Que tal transpor essa situação para o ambiente de TI?
Para exemplificar melhor, criei as tabelas abaixo que definem a criticidade, prazos e recursos.
|
Core Business ou perda de dados |
Atividades de Apoio ao Core Business |
Tarefas do dia a dia | |
>50% usuários afetados |
1 |
2 |
3 | |
>10 - <50% de usuários afetados ou usuários VIPs |
2 |
3 |
4 | |
<10% de usuários afetados |
3 |
4 |
4 |
Prioridade |
Descrição |
Tempo mínimo de resposta |
1 |
Urgente |
15 min |
2 |
Alta |
1 hora |
3 |
Média |
8 horas |
4 |
Baixa |
24 horas |
Prioridade |
Descrição |
Recurso (nº de pessoas) |
1 |
Urgente |
1 de cada equipe |
2 |
Alta |
2 do Suporte + 1 Atendente |
3 |
Média |
1 do Suporte ou 1 Atendente |
4 |
Baixa |
1 do Suporte ou 1 Atendente |
Não se esqueça que o processo deve ser medido e avaliado quanto à sua eficiência. O número de recursos pode variar de acordo com a necessidade, mas o importante é definir um número mínimo que seja capaz de dar o tratamento adequado e no prazo. Um incidente pode colocar em risco a reputação e/ou fazer uma empresa perder muito dinheiro.