O que é classificação?

Concluído

A classificação binária é dividida em duas categorias. Por exemplo, podemos rotular pacientes como não diabéticos ou diabéticos.

A previsão de classe é feita determinando a probabilidade de cada classe possível como um valor entre 0 (impossível) e 1 (certo). A probabilidade total para todas as classes é sempre 1, pois o paciente é definitivamente diabético ou não diabético. Portanto, se a probabilidade prevista de um paciente ser diabético é de 0,3, existe uma probabilidade correspondente de 0,7 de que o paciente não seja diabético.

Um valor limite, geralmente 0,5, é utilizado para determinar a classe prevista. Se a classe positiva (neste caso, diabético) tiver uma probabilidade prevista maior ao invés do limite, então a classificação de diabético é prevista.

Treinar e avaliar um modelo de classificação

A classificação é um exemplo de uma técnica de aprendizado de máquina supervisionada, o que significa que ela se baseia em dados que incluem valores conhecidos de recursos e valores conhecidos de rótulos. Neste exemplo, os valores dos recursos são medições de diagnóstico para pacientes, e os valores dos rótulos são uma classificação de não diabético ou diabético. Um algoritmo de classificação é utilizado para ajustar um subconjunto de dados em uma função que pode calcular a probabilidade de cada rótulo de classe a partir dos valores dos recursos. Os dados restantes são usados para avaliar o modelo comparando as previsões que ele gera dos recursos para os rótulos de classe conhecidos.

Um exemplo simples

Vamos explorar um exemplo para ajudar a explicar os princípios fundamentais. Suponha que tenhamos os seguintes dados do paciente, que consistem em um único recurso (nível de glicose no sangue) e um rótulo de classe 0 para não diabético e 1 para diabético.

Glicose no sangue Diabético
82 0
92 0
112 1
102 0
115 1
107 1
87 0
120 1
83 0
119 1
104 1
105 0
86 0
109 1

Utilizamos as primeiras oito observações para treinar um modelo de classificação e começamos plotando o recurso de glicemia (x) e o rótulo de diabético previsto (y).

Gráfico da glicose sanguínea em relação ao diabético (0 ou 1) sem linha de tendência.

Precisamos de uma função que calcula um valor de probabilidade para y com base no x (em outras palavras, precisamos da função f(x) = y). Você pode ver no gráfico que os pacientes com um nível baixo de glicose no sangue são todos não diabéticos, enquanto os pacientes com um nível de glicose no sangue mais alto são diabéticos. Parece que quanto mais alto o nível de glicose no sangue, maior a probabilidade de o paciente ser diabético, com o ponto de inflexão em algum lugar entre 100 e 110. Precisamos ajustar uma função que calcula um valor entre 0 e 1 para y a esses valores.

Uma dessas funções é a função logística, que forma uma curva sigmoidal (em forma de S).

Gráfico de glicose no sangue em relação ao diabético (0 ou 1) com linha de tendência sigmoidal.

Agora podemos usar a função para calcular um valor de probabilidade de que y seja positivo, o que significa que o paciente é diabético, a partir de qualquer valor de x encontrando o ponto na linha de função para x. Podemos definir um valor de limite de 0,5 como o ponto de corte para a previsão de rótulo de classe.

Vamos testá-lo com os dois valores de dados que mantivemos com suporte.

Gráfico da glicose sanguínea em relação ao diabético (0 ou 1) com linha de tendência sigmoidal e valor limite definido em 0,5.

Os pontos plotados abaixo da linha do limite produzem uma classe prevista de 0 (não diabético) e os pontos acima da linha são previstos como 1 (diabético).

Agora podemos comparar as previsões de rótulo (ŷ, ou "y-hat"), com base na função logística encapsulada no modelo, com os rótulos de classe reais (y).

x a
83 0 0
119 1 1
104 1 0
105 0 1
86 0 0
109 1 1