Glossário de aprendizagem automática de termos importantes
A lista a seguir é uma compilação de termos importantes de aprendizado de máquina que são úteis à medida que você cria seus modelos personalizados no ML.NET.
Exatidão
Em classificação, precisão é o número de itens corretamente classificados dividido pelo número total de itens no conjunto de testes. Varia de 0 (menos preciso) a 1 (mais preciso). A precisão é uma das métricas de avaliação do desempenho do modelo. Considere-o em conjunto com de precisão, recalle F-score.
Área sob a curva (AUC)
Em classificação binária, uma métrica de avaliação que é o valor da área sob a curva que plota a taxa de positivos verdadeiros (no eixo y) contra a taxa de falsos positivos (no eixo x). Varia de 0,5 (pior) a 1 (melhor). Também conhecida como a área sob a curva ROC, ou seja, curva característica de operação do recetor. Para obter mais informações, consulte o artigo
Classificação binária
Uma classificação caso em que o rótulo é apenas uma de duas classes. Para obter mais informações, consulte a seção
Calibração
Calibração é o processo de mapeamento de uma pontuação bruta em uma associação de classe, para classificação binária e multiclasse. Alguns ML.NET treinadores têm um sufixo NonCalibrated
. Esses algoritmos produzem uma pontuação bruta que, em seguida, deve ser mapeada para uma probabilidade de classe.
Catálogo
Em ML.NET, um catálogo é uma coleção de funções de extensão, agrupadas por uma finalidade comum.
Por exemplo, cada tarefa de aprendizado de máquina (classificação binária, regressão, classificação, etc) tem um catálogo de algoritmos de aprendizado de máquina disponíveis (treinadores). O catálogo para os treinadores de classificação binária é: BinaryClassificationCatalog.BinaryClassificationTrainers.
Classificação
Quando os dados são usados para prever uma categoria, tarefa de supervisionada de aprendizado de máquina é chamada de classificação. A classificação binária refere-se à previsão de apenas duas categorias (por exemplo, classificar uma imagem como uma imagem de um "gato" ou de um "cão"). de classificação multiclasse refere-se à previsão de várias categorias (por exemplo, ao classificar uma imagem como uma imagem de uma raça específica de cão).
Coeficiente de determinação
Em regressão, uma métrica de avaliação que indica quão bem os dados se ajustam a um modelo. Varia de 0 a 1. Um valor 0 significa que os dados são aleatórios ou não podem ser ajustados ao modelo. Um valor de 1 significa que o modelo corresponde exatamente aos dados. Isto é muitas vezes referido como r2, R2, ou r-quadrado.
Dados
Os dados são fundamentais para qualquer aplicação de aprendizagem automática. No ML.NET os dados são representados por objetos IDataView. Objetos de exibição de dados:
- são constituídos por colunas e linhas
- são avaliados preguiçosamente, ou seja, só carregam dados quando uma operação o exige
- contêm um esquema que define o tipo, o formato e o comprimento de cada coluna
Orçamentista
Uma classe em ML.NET que implementa a interface IEstimator<TTransformer>.
Um estimador é uma especificação de uma transformação (transformação de preparação de dados e transformação de treinamento de modelo de aprendizado de máquina). Os estimadores podem ser encadeados em um pipeline de transformações. Os parâmetros de um estimador ou pipeline de estimadores são aprendidos quando Fit é chamado. O resultado da Fit é um Transformer.
Método de extensão
Um método .NET que faz parte de uma classe, mas é definido fora da classe. O primeiro parâmetro de um método de extensão é uma referência estática this
à classe à qual o método de extensão pertence.
Os métodos de extensão são usados extensivamente em ML.NET para construir instâncias de estimadores.
Funcionalidade
Uma propriedade mensurável do fenômeno que está sendo medido, tipicamente um valor numérico (duplo). Vários recursos são chamados de vetoriais de recurso
Engenharia de recursos
A engenharia de recursos é o processo que envolve a definição de um conjunto de recursos e o desenvolvimento de software que produz vetores de recursos a partir de dados de fenômenos disponíveis, ou seja, extração de recursos. Para obter mais informações, consulte o artigo Feature engineering na Wikipédia.
Pontuação-F
Na classificação , uma métrica de avaliação que equilibra precisão e recordação.
Hiperparâmetro
Um parâmetro de um algoritmo de aprendizado de máquina. Exemplos incluem o número de árvores para aprender em uma floresta de decisão ou o tamanho da etapa em um algoritmo de descida de gradiente. Os valores de Hiperparâmetros são definidos antes de treinar o modelo e governam o processo de encontrar os parâmetros da função de previsão, por exemplo, os pontos de comparação em uma árvore de decisão ou os pesos em um modelo de regressão linear. Para obter mais informações, consulte o artigo Hyperparameter na Wikipédia.
Rótulo
O elemento a ser previsto com o modelo de aprendizado de máquina. Por exemplo, a raça do cão ou um preço futuro das ações.
Perda de log
Em classificação, uma métrica de avaliação que caracteriza a precisão de um classificador. Quanto menor for a perda de log, mais preciso é um classificador.
Função de perda
Uma função de perda é a diferença entre os valores do rótulo de treinamento e a previsão feita pelo modelo. Os parâmetros do modelo são estimados minimizando a função de perda.
Diferentes treinadores podem ser configurados com diferentes funções de perda.
Erro absoluto médio (MAE)
Em
Modelo
Tradicionalmente, os parâmetros para a função de previsão. Por exemplo, os pesos em um modelo de regressão linear ou os pontos de divisão em uma árvore de decisão. Além ML.NET, um modelo contém todas as informações necessárias para prever o rótulo de um objeto de domínio (por exemplo, imagem ou texto). Isso significa que ML.NET modelos incluem as etapas de featurização necessárias, bem como os parâmetros para a função de previsão.
Classificação multiclasse
Uma classificação caso em que o rótulo é uma em cada três ou mais classes. Para obter mais informações, consulte a seção
N-grama
Um esquema de extração de recursos para dados de texto: qualquer sequência de N palavras se transforma em um recurso valor.
Normalização
Normalização é o processo de dimensionamento de dados de ponto flutuante para valores entre 0 e 1. Muitos dos algoritmos de treinamento usados em ML.NET exigem que os dados do recurso de entrada sejam normalizados. ML.NET fornece uma série de transformações para normalização
Vetor de característica numérica
Uma característica vetor que consiste apenas em valores numéricos. Isto é semelhante ao double[]
.
Gasoduto
Todas as operações necessárias para ajustar um modelo a um conjunto de dados. Um pipeline consiste em etapas de importação, transformação, featurização e aprendizagem de dados. Uma vez que um gasoduto é treinado, ele se transforma em um modelo.
Precisão
Na classificação , a precisão para uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens previstos como pertencentes à classe.
Relembre
Em classificação, o recall para uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens que realmente pertencem à classe.
Regularização
A regularização penaliza um modelo linear por ser demasiado complicado. Existem dois tipos de regularização:
- $L_1$ regularização zeros pesos para características insignificantes. O tamanho do modelo salvo pode ficar menor após esse tipo de regularização.
- $L_2$ regularização minimiza a faixa de peso para características insignificantes. Trata-se de um processo mais geral e menos sensível a valores anómalos.
Regressão
Um supervisionado de aprendizado de máquina tarefa em que a saída é um valor real, por exemplo, o dobro. Os exemplos incluem a previsão dos preços das ações. Para obter mais informações, consulte a seção
Erro absoluto relativo
Em
Erro quadrado relativo
Em regressão, uma métrica de avaliação que é a soma de todos os erros absolutos quadrados dividida pela soma das distâncias ao quadrado entre os valores corretos rótulo e a média de todos os valores corretos do rótulo.
Raiz do erro quadrático médio (RMSE)
Em regressão, uma métrica de avaliação que é a raiz quadrada da média dos quadrados dos erros.
Pontuação
A pontuação é o processo de aplicar novos dados a um modelo de aprendizado de máquina treinado e gerar previsões. A pontuação também é conhecida como inferência. Dependendo do tipo de modelo, a pontuação pode ser um valor bruto, uma probabilidade ou uma categoria.
Aprendizagem automática supervisionada
Uma subclasse de aprendizado de máquina na qual um modelo desejado prevê o rótulo para dados ainda não vistos. Os exemplos incluem classificação, regressão e previsão estruturada. Para mais informações, consulte o artigo Aprendizagem supervisionada na Wikipédia.
Formação
O processo de identificação de um modelo de para um determinado conjunto de dados de treinamento. Para um modelo linear, isso significa encontrar os pesos. Para uma árvore, envolve a identificação dos pontos de divisão.
Transformador
Uma classe ML.NET que implementa a interface ITransformer.
Um transformador transforma uma IDataView noutra. Um transformador é criado treinando umestimador de
Aprendizagem automática não supervisionada
Uma subclasse de aprendizado de máquina na qual um modelo desejado encontra estrutura oculta (ou latente) nos dados. Os exemplos incluem clustering, modelagem de tópicos e redução de dimensionalidade. Para mais informações, consulte o artigo Aprendizagem não supervisionada na Wikipédia.