Entender os princípios de aprendizado de máquina
O aprendizado de máquina é uma técnica de programação usada para criar modelos preditivos. Ao contrário da programação típica, na qual o código é usado para descrever etapas específicas a fim de produzir um resultado; O aprendizado de máquina depende do uso de um algoritmo para explorar iterativamente a relação entre os recursos de uma entidade de dados e o rótulo que o modelo resultante deve prever. Os algoritmos de aprendizado de máquina são baseados na teoria e nas estatísticas de probabilidade e dependem de grandes volumes de dados com os quais treinar o modelo.
Em um nível simplista, um modelo de aprendizado de máquina é uma função que usa os recursos de uma entidade observada (as características dela) e executa um cálculo sobre eles para retornar um rótulo previsto. É comum fazer referência geral aos recursos como x e o rótulo previsto como y; portanto, na verdade, um modelo de aprendizado de máquina é a função f da expressão y = f(x)
.
A operação específica que a função executa nos recursos para calcular um valor para o rótulo é determinada pelo algoritmo usado para treinar o modelo.
Tipos de aprendizado de máquina
Em termos gerais, há dois tipos comuns de aprendizado de máquina:
- Aprendizado de máquina Supervisionado, no qual o modelo é treinado usando dados que incluem valores de rótulo conhecidos (portanto, um algoritmo usa os dados existentes para estabelecer uma relação entre x e y, resultando em uma função que pode ser aplicada a x para calcular y).
- Aprendizado de máquina não supervisionado, no qual o modelo é treinado usando apenas valores de recurso (x) e observações de grupos (ou clusters) com recursos semelhantes.
Aprendizado de máquina supervisionado
Este módulo se concentra no aprendizado de máquina supervisionado, pois é o cenário mais comum. Dentro da definição ampla de aprendizado de máquina supervisionado, há dois tipos comuns de algoritmo de aprendizado de máquina:
Algoritmos de regressão, nos quais o rótulo é um valor numérico (como preço, temperatura, valor ou outro valor que possa ser medido). Os algoritmos de regressão produzem modelos nos quais a função (f) opera nos recursos (x) para calcular o valor numérico do rótulo (y).
Por exemplo, um algoritmo de regressão pode ser usado para treinar um modelo que prevê o número esperado de sorvetes vendidos por um quiosque em um determinado dia com base em recursos como o mês do ano, o dia da semana, a temperatura, a umidade e assim por diante.
Algoritmos de classificação nos quais o rótulo é uma categoria (ou classe) discreta. Os algoritmos de classificação produzem modelos nos quais a função (f) opera nos recursos (x) para calcular um valor de probabilidade para cada classe possível e retorna o rótulo (y) para a classe com a maior probabilidade.
Por exemplo, um algoritmo de classificação pode ser usado para treinar um modelo que prevê se um paciente tem diabetes com base em características como nível de insulina no sangue, peso, altura, idade e assim por diante. Um modelo de classificação que identifica uma das duas classes possíveis (como true ou false) é um exemplo de classificação binária. Algoritmos que preveem probabilidade para mais de duas classes (por exemplo, diferenciação entre pacientes sem diabetes, diabetes tipo 1 ou diabetes tipo 2) são usados para classificação multiclasse.
Aprendizado de máquina não supervisionado
A maneira mais comum de aprendizado não supervisionado é o clustering, no qual os recursos de casos de dados são considerados como um vetor de pontos no espaço multidimensional. O objetivo de um algoritmo de clustering é definir clusters que agrupam os pontos para que os casos com recursos semelhantes sejam próximos, mas os clusters estejam claramente separados um do outro.
O clustering é útil quando você precisa definir diferentes categorias de dados, mas não tem categorias predefinidas às quais as observações de dados existentes já estão atribuídas. Por exemplo, talvez você queira segmentar clientes com base nas semelhanças dos perfis deles. O clustering também pode ser usado como uma etapa inicial na criação de uma solução de classificação – essencialmente, você usa o clustering para determinar as classes apropriadas para seus dados.