Partilhar via


Glossário de aprendizagem automática de termos importantes

A lista a seguir é uma compilação de termos importantes de aprendizado de máquina que são úteis à medida que você cria seus modelos personalizados no ML.NET.

Exatidão

Em classificação, precisão é o número de itens corretamente classificados dividido pelo número total de itens no conjunto de testes. Varia de 0 (menos preciso) a 1 (mais preciso). A precisão é uma das métricas de avaliação do desempenho do modelo. Considere-o em conjunto com de precisão, recalle F-score.

Área sob a curva (AUC)

Em classificação binária, uma métrica de avaliação que é o valor da área sob a curva que plota a taxa de positivos verdadeiros (no eixo y) contra a taxa de falsos positivos (no eixo x). Varia de 0,5 (pior) a 1 (melhor). Também conhecida como a área sob a curva ROC, ou seja, curva característica de operação do recetor. Para obter mais informações, consulte o artigo Receiver operating characteristic na Wikipedia.

Classificação binária

Uma classificação caso em que o rótulo é apenas uma de duas classes. Para obter mais informações, consulte a seção de classificação binária do tópicotarefas de aprendizado de máquina.

Calibração

Calibração é o processo de mapeamento de uma pontuação bruta em uma associação de classe, para classificação binária e multiclasse. Alguns ML.NET treinadores têm um sufixo NonCalibrated. Esses algoritmos produzem uma pontuação bruta que, em seguida, deve ser mapeada para uma probabilidade de classe.

Catálogo

Em ML.NET, um catálogo é uma coleção de funções de extensão, agrupadas por uma finalidade comum.

Por exemplo, cada tarefa de aprendizado de máquina (classificação binária, regressão, classificação, etc) tem um catálogo de algoritmos de aprendizado de máquina disponíveis (treinadores). O catálogo para os treinadores de classificação binária é: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificação

Quando os dados são usados para prever uma categoria, tarefa de supervisionada de aprendizado de máquina é chamada de classificação. A classificação binária refere-se à previsão de apenas duas categorias (por exemplo, classificar uma imagem como uma imagem de um "gato" ou de um "cão"). de classificação multiclasse refere-se à previsão de várias categorias (por exemplo, ao classificar uma imagem como uma imagem de uma raça específica de cão).

Coeficiente de determinação

Em regressão, uma métrica de avaliação que indica quão bem os dados se ajustam a um modelo. Varia de 0 a 1. Um valor 0 significa que os dados são aleatórios ou não podem ser ajustados ao modelo. Um valor de 1 significa que o modelo corresponde exatamente aos dados. Isto é muitas vezes referido como r2, R2, ou r-quadrado.

Dados

Os dados são fundamentais para qualquer aplicação de aprendizagem automática. No ML.NET os dados são representados por objetos IDataView. Objetos de exibição de dados:

  • são constituídos por colunas e linhas
  • são avaliados preguiçosamente, ou seja, só carregam dados quando uma operação o exige
  • contêm um esquema que define o tipo, o formato e o comprimento de cada coluna

Orçamentista

Uma classe em ML.NET que implementa a interface IEstimator<TTransformer>.

Um estimador é uma especificação de uma transformação (transformação de preparação de dados e transformação de treinamento de modelo de aprendizado de máquina). Os estimadores podem ser encadeados em um pipeline de transformações. Os parâmetros de um estimador ou pipeline de estimadores são aprendidos quando Fit é chamado. O resultado da Fit é um Transformer.

Método de extensão

Um método .NET que faz parte de uma classe, mas é definido fora da classe. O primeiro parâmetro de um método de extensão é uma referência estática this à classe à qual o método de extensão pertence.

Os métodos de extensão são usados extensivamente em ML.NET para construir instâncias de estimadores.

Funcionalidade

Uma propriedade mensurável do fenômeno que está sendo medido, tipicamente um valor numérico (duplo). Vários recursos são chamados de vetoriais de recurso e normalmente armazenados como . As características definem as características importantes do fenómeno que está a ser medido. Para mais informações, consulte o artigo Feature na Wikipédia.

Engenharia de recursos

A engenharia de recursos é o processo que envolve a definição de um conjunto de recursos e o desenvolvimento de software que produz vetores de recursos a partir de dados de fenômenos disponíveis, ou seja, extração de recursos. Para obter mais informações, consulte o artigo Feature engineering na Wikipédia.

Pontuação-F

Na classificação , uma métrica de avaliação que equilibra precisão e recordação.

Hiperparâmetro

Um parâmetro de um algoritmo de aprendizado de máquina. Exemplos incluem o número de árvores para aprender em uma floresta de decisão ou o tamanho da etapa em um algoritmo de descida de gradiente. Os valores de Hiperparâmetros são definidos antes de treinar o modelo e governam o processo de encontrar os parâmetros da função de previsão, por exemplo, os pontos de comparação em uma árvore de decisão ou os pesos em um modelo de regressão linear. Para obter mais informações, consulte o artigo Hyperparameter na Wikipédia.

Rótulo

O elemento a ser previsto com o modelo de aprendizado de máquina. Por exemplo, a raça do cão ou um preço futuro das ações.

Perda de log

Em classificação, uma métrica de avaliação que caracteriza a precisão de um classificador. Quanto menor for a perda de log, mais preciso é um classificador.

Função de perda

Uma função de perda é a diferença entre os valores do rótulo de treinamento e a previsão feita pelo modelo. Os parâmetros do modelo são estimados minimizando a função de perda.

Diferentes treinadores podem ser configurados com diferentes funções de perda.

Erro absoluto médio (MAE)

Em regressão, uma métrica de avaliação que é a média de todos os erros do modelo, onde erro de modelo é a distância entre o valor de de rótulo previsto e o valor correto do rótulo.

Modelo

Tradicionalmente, os parâmetros para a função de previsão. Por exemplo, os pesos em um modelo de regressão linear ou os pontos de divisão em uma árvore de decisão. Além ML.NET, um modelo contém todas as informações necessárias para prever o rótulo de um objeto de domínio (por exemplo, imagem ou texto). Isso significa que ML.NET modelos incluem as etapas de featurização necessárias, bem como os parâmetros para a função de previsão.

Classificação multiclasse

Uma classificação caso em que o rótulo é uma em cada três ou mais classes. Para obter mais informações, consulte a seção de classificação multiclasse do tópico tarefas de aprendizado de máquina.

N-grama

Um esquema de extração de recursos para dados de texto: qualquer sequência de N palavras se transforma em um recurso valor.

Normalização

Normalização é o processo de dimensionamento de dados de ponto flutuante para valores entre 0 e 1. Muitos dos algoritmos de treinamento usados em ML.NET exigem que os dados do recurso de entrada sejam normalizados. ML.NET fornece uma série de transformações para normalização

Vetor de característica numérica

Uma característica vetor que consiste apenas em valores numéricos. Isto é semelhante ao double[].

Gasoduto

Todas as operações necessárias para ajustar um modelo a um conjunto de dados. Um pipeline consiste em etapas de importação, transformação, featurização e aprendizagem de dados. Uma vez que um gasoduto é treinado, ele se transforma em um modelo.

Precisão

Na classificação , a precisão para uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens previstos como pertencentes à classe.

Relembre

Em classificação, o recall para uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens que realmente pertencem à classe.

Regularização

A regularização penaliza um modelo linear por ser demasiado complicado. Existem dois tipos de regularização:

  • $L_1$ regularização zeros pesos para características insignificantes. O tamanho do modelo salvo pode ficar menor após esse tipo de regularização.
  • $L_2$ regularização minimiza a faixa de peso para características insignificantes. Trata-se de um processo mais geral e menos sensível a valores anómalos.

Regressão

Um supervisionado de aprendizado de máquina tarefa em que a saída é um valor real, por exemplo, o dobro. Os exemplos incluem a previsão dos preços das ações. Para obter mais informações, consulte a seção de regressão do tópico tarefas de aprendizado de máquina .

Erro absoluto relativo

Em regressão, uma métrica de avaliação que é a soma de todos os erros absolutos dividida pela soma das distâncias entre os valores de de rótulo corretos e a média de todos os valores corretos de rótulo.

Erro quadrado relativo

Em regressão, uma métrica de avaliação que é a soma de todos os erros absolutos quadrados dividida pela soma das distâncias ao quadrado entre os valores corretos rótulo e a média de todos os valores corretos do rótulo.

Raiz do erro quadrático médio (RMSE)

Em regressão, uma métrica de avaliação que é a raiz quadrada da média dos quadrados dos erros.

Pontuação

A pontuação é o processo de aplicar novos dados a um modelo de aprendizado de máquina treinado e gerar previsões. A pontuação também é conhecida como inferência. Dependendo do tipo de modelo, a pontuação pode ser um valor bruto, uma probabilidade ou uma categoria.

Aprendizagem automática supervisionada

Uma subclasse de aprendizado de máquina na qual um modelo desejado prevê o rótulo para dados ainda não vistos. Os exemplos incluem classificação, regressão e previsão estruturada. Para mais informações, consulte o artigo Aprendizagem supervisionada na Wikipédia.

Formação

O processo de identificação de um modelo de para um determinado conjunto de dados de treinamento. Para um modelo linear, isso significa encontrar os pesos. Para uma árvore, envolve a identificação dos pontos de divisão.

Transformador

Uma classe ML.NET que implementa a interface ITransformer.

Um transformador transforma uma IDataView noutra. Um transformador é criado treinando umestimador de ou um pipeline de estimador.

Aprendizagem automática não supervisionada

Uma subclasse de aprendizado de máquina na qual um modelo desejado encontra estrutura oculta (ou latente) nos dados. Os exemplos incluem clustering, modelagem de tópicos e redução de dimensionalidade. Para mais informações, consulte o artigo Aprendizagem não supervisionada na Wikipédia.