Tipos de machine learning
Existem vários tipos de aprendizado de máquina, e você deve aplicar o tipo apropriado dependendo do que você está tentando prever. Um detalhamento dos tipos comuns de aprendizado de máquina é mostrado no diagrama a seguir.
Aprendizagem automática supervisionada
Aprendizado de máquina supervisionado é um termo geral para algoritmos de aprendizado de máquina no qual os dados de treinamento incluem valores de recurso e valores de rótulo conhecidos. O aprendizado de máquina supervisionado é usado para treinar modelos, determinando uma relação entre os recursos e rótulos em observações passadas, para que rótulos desconhecidos possam ser previstos para recursos em casos futuros.
Regressão
A regressão é uma forma de aprendizado de máquina supervisionado em que o rótulo previsto pelo modelo é um valor numérico. Por exemplo:
- O número de sorvetes vendidos em um determinado dia, com base na temperatura, precipitação e velocidade do vento.
- O preço de venda de um imóvel com base no seu tamanho em metros quadrados, no número de quartos que contém e nas métricas socioeconómicas para a sua localização.
- A eficiência de combustível (em milhas por galão) de um carro com base no tamanho do motor, peso, largura, altura e comprimento.
Classificação
A classificação é uma forma de aprendizado de máquina supervisionado em que o rótulo representa uma categorização, ou classe. Existem dois cenários de classificação comuns.
Classificação binária
Na classificação binária, o rótulo determina se o item observado é (ou não) uma instância de uma classe específica. Ou, dito de outra forma, os modelos de classificação binária predizem um de dois resultados mutuamente exclusivos. Por exemplo:
- Se um paciente está em risco de diabetes com base em métricas clínicas como peso, idade, nível de glicose no sangue, e assim por diante.
- Se um cliente bancário vai ficar inadimplente com base na renda, histórico de crédito, idade e outros fatores.
- Se um cliente da lista de e-mails responderá positivamente a uma oferta de marketing com base em atributos demográficos e compras anteriores.
Em todos esses exemplos, o modelo prevê uma previsão binária verdadeira/falsa ou positiva/negativa para uma única classe possível.
Classificação multiclasse
A classificação multiclasse estende a classificação binária para prever um rótulo que representa uma das várias classes possíveis. Por exemplo,
- A espécie de um pinguim (Adelie, Gentoo, ou Chinstrap) com base em suas medidas físicas.
- O gênero de um filme (comédia, terror, romance, aventura ou ficção científica) com base em seu elenco, diretor e orçamento.
Na maioria dos cenários que envolvem um conjunto conhecido de várias classes, a classificação de várias classes é usada para prever rótulos mutuamente exclusivos. Por exemplo, um pinguim não pode ser ao mesmo tempo um Gentoo e um Adelie. No entanto, também existem alguns algoritmos que você pode usar para treinar modelos de classificação multirótulo , nos quais pode haver mais de um rótulo válido para uma única observação. Por exemplo, um filme pode ser potencialmente classificado como ficção científica e comédia.
Aprendizagem automática não supervisionada
O aprendizado de máquina não supervisionado envolve modelos de treinamento usando dados que consistem apenas em valores de recursos sem rótulos conhecidos. Algoritmos de aprendizado de máquina não supervisionados determinam relações entre os recursos das observações nos dados de treinamento.
Clustering
A forma mais comum de aprendizado de máquina não supervisionado é o clustering. Um algoritmo de agrupamento identifica semelhanças entre observações com base em suas características e as agrupa em clusters discretos. Por exemplo:
- Agrupe flores semelhantes com base em seu tamanho, número de folhas e número de pétalas.
- Identifique grupos de clientes semelhantes com base em atributos demográficos e comportamento de compra.
De certa forma, o agrupamento é semelhante à classificação multiclasse; na medida em que categoriza as observações em grupos discretos. A diferença é que, ao usar a classificação, você já conhece as classes às quais pertencem as observações nos dados de treinamento; Assim, o algoritmo funciona determinando a relação entre os recursos e o rótulo de classificação conhecido. No clustering, não há um rótulo de cluster previamente conhecido e o algoritmo agrupa as observações de dados com base puramente na semelhança de recursos.
Em alguns casos, o agrupamento é usado para determinar o conjunto de classes que existem antes de treinar um modelo de classificação. Por exemplo, você pode usar o clustering para segmentar seus clientes em grupos e, em seguida, analisar esses grupos para identificar e categorizar diferentes classes de clientes (alto valor - baixo volume, pequeno comprador frequente e assim por diante). Em seguida, você pode usar suas categorizações para rotular as observações nos resultados do clustering e usar os dados rotulados para treinar um modelo de classificação que prevê a qual categoria de cliente um novo cliente pode pertencer.