Introdução

Concluído

Métricas de valor único, como erro quadrático médio ou perda de log, são maneiras rápidas de comparar modelos em termos de desempenho. Eles nem sempre são intuitivos, no entanto, e nem sempre podem dar uma imagem completa sobre como o modelo está realmente funcionando. Por exemplo, se estamos tentando detetar câncer, mas apenas 1 em cada 100.000 amostras de tecido realmente contém câncer, um modelo que sempre diz "sem câncer" terá uma excelente perda de log (custo), mas será completamente inútil na clínica. Escolher maneiras mais inteligentes de avaliar modelos é importante para que você possa obter uma compreensão adequada de como seu modelo funcionará no mundo real.

Cenário: Resgate em montanha com aprendizado de máquina

Ao longo deste módulo, usaremos o seguinte cenário de exemplo para explicar e praticar o trabalho com diferentes métricas e desequilíbrios de dados.

À medida que o inverno se aproxima novamente, a preocupação aumentou porque os caminhantes estão ignorando os avisos de risco de avalanche e estão se aventurando mesmo quando a montanha está fechada. Não só isso corre o risco de causar mais avalanches, mas como os caminhantes raramente fazem check-in antes de se aventurar, não há como saber se alguém estava na montanha quando uma avalanche ocorreu. Um doador generoso forneceu à equipe de resgate de avalanches um enxame de drones em miniatura que são capazes de escanear automaticamente a encosta da montanha em busca de objetos. Devido ao terreno extremo e ao consumo de bateria no frio, sua largura de banda permanece muito baixa para transmitir vídeo. Em vez disso, os sensores a bordo podem extrair informações básicas, como forma, tamanho e movimento do objeto e transmiti-las para a base. Você pode construir um modelo que possa determinar quando o drone se deparou com uma pessoa, para acompanhar quem está na montanha?

Pré-requisitos

  • Familiaridade básica com modelos de classificação

Objetivos de aprendizagem

Neste módulo, irá:

  • Avaliar o desempenho dos modelos de classificação.
  • Analise as métricas para melhorar os modelos de classificação.
  • Reduza os problemas de desempenho causados por desequilíbrios de dados.