Compartir a través de


Glosario de aprendizaje automático de términos importantes

La lista siguiente es una compilación de términos de aprendizaje automático importantes que son útiles a medida que se compilan los modelos personalizados en ML.NET.

Exactitud

En clasificación, la precisión es el número de elementos clasificados correctamente divididos por el número total de elementos del conjunto de pruebas. Oscila entre 0 (menos preciso) y 1 (más preciso). La precisión es una de las métricas de evaluación del rendimiento del modelo. Fíjelo junto conde precisión de , de recuperación y de puntuación F.

Área bajo la curva (AUC)

En clasificación binaria, una métrica de evaluación que es el valor del área bajo la curva que traza la tasa de verdaderos positivos (en el eje Y) con respecto a la tasa de falsos positivos (en el eje X). Oscila entre 0,5 (peor) y 1 (mejor). También conocido como el área bajo la curva ROC, es decir, curva característica de funcionamiento del receptor. Para obtener más información, consulte el artículo característica de funcionamiento del receptor de en Wikipedia.

Clasificación binaria

Una clasificación caso en el que el de etiqueta de es solo una de las dos clases. Para obtener más información, consulte la sección clasificación binaria del tema tareas de aprendizaje automático de .

Calibración

La calibración es el proceso de asignación de una puntuación sin procesar a una pertenencia a clases, para la clasificación binaria y multiclase. Algunos entrenadores ML.NET tienen un sufijo NonCalibrated. Estos algoritmos generan una puntuación sin procesar que, a continuación, se debe asignar a una probabilidad de clase.

Catálogo

En ML.NET, un catálogo es una colección de funciones de extensión, agrupadas por un propósito común.

Por ejemplo, cada tarea de aprendizaje automático (clasificación binaria, regresión, clasificación, etc.) tiene un catálogo de algoritmos de aprendizaje automático disponibles (instructores). El catálogo para los instructores de clasificación binaria es: BinaryClassificationCatalog.BinaryClassificationTrainers.

Clasificación

Cuando los datos se usan para predecir una categoría, aprendizaje automático supervisado tarea se denomina clasificación. clasificación binaria hace referencia a predecir solo dos categorías (por ejemplo, clasificar una imagen como una imagen de un "gato" o un "perro"). clasificación multiclase hace referencia a la predicción de varias categorías (por ejemplo, al clasificar una imagen como una imagen de una raza específica de perro).

Coeficiente de determinación

En regresión, una métrica de evaluación que indica cómo se ajustan los datos a un modelo. Oscila entre 0 y 1. Un valor de 0 significa que los datos son aleatorios o, de lo contrario, no se pueden ajustar al modelo. Un valor de 1 significa que el modelo coincide exactamente con los datos. Esto se conoce a menudo como r2, R2o r cuadrado.

Datos

Los datos son fundamentales para cualquier aplicación de aprendizaje automático. En ML.NET los datos se representan mediante IDataView objetos. Objetos de vista de datos:

  • se componen de columnas y filas
  • se evalúan diferidamente, es decir, solo cargan datos cuando una operación llama a ella.
  • contienen un esquema que define el tipo, el formato y la longitud de cada columna.

Estimador

Clase de ML.NET que implementa la interfaz IEstimator<TTransformer>.

Un estimador es una especificación de una transformación (transformación de preparación de datos y transformación de entrenamiento del modelo de aprendizaje automático). Los estimadores se pueden encadenar juntos en una canalización de transformaciones. Los parámetros de un estimador o una canalización de estimadores se aprenden cuando se llama a Fit. El resultado de Fit es un Transformer.

Método de extensión

Un método de .NET que forma parte de una clase, pero que se define fuera de la clase . El primer parámetro de un método de extensión es una referencia de this estática a la clase a la que pertenece el método de extensión.

Los métodos de extensión se usan ampliamente en ML.NET para construir instancias de estimadores.

Característica

Propiedad medible del fenómeno que se mide, normalmente un valor numérico (doble). Varias características se conocen como vector de características y normalmente se almacenan como double[]. Las características definen las características importantes del fenómeno que se mide. Para obtener más información, consulte el artículo feature en Wikipedia.

Ingeniería de características

La ingeniería de características es el proceso que implica definir un conjunto de características de y desarrollar software que genera vectores de características a partir de datos de fenómenos disponibles, es decir, extracción de características. Para obtener más información, consulte el artículo de ingeniería de características de en Wikipedia.

Puntuación F

En clasificación, una métrica de evaluación que equilibra de precisión y de recuperación .

Hiperparámetros

Parámetro de un algoritmo de aprendizaje automático. Algunos ejemplos incluyen el número de árboles que se van a aprender en un bosque de decisión o el tamaño del paso en un algoritmo de descenso de degradado. Los valores de hiperparámetros se establecen antes de entrenar el modelo y controlar el proceso de búsqueda de los parámetros de la función de predicción, por ejemplo, los puntos de comparación de un árbol de decisión o los pesos de un modelo de regresión lineal. Para obtener más información, consulte el artículo hiperparámetros en Wikipedia.

Etiqueta

Elemento que se va a predecir con el modelo de aprendizaje automático. Por ejemplo, la raza de perro o un precio de acción futuro.

Pérdida de registro

En clasificación, una métrica de evaluación que caracteriza la precisión de un clasificador. La pérdida de registro más pequeña es, más precisa es un clasificador.

Función Pérdida

Una función de pérdida es la diferencia entre los valores de la etiqueta de entrenamiento y la predicción realizada por el modelo. Los parámetros del modelo se calculan minimizando la función de pérdida.

Se pueden configurar diferentes instructores con diferentes funciones de pérdida.

Error absoluto medio (MAE)

En regresión, una métrica de evaluación que es el promedio de todos los errores del modelo, donde el error del modelo es la distancia entre la etiqueta de predicción valor y el valor de etiqueta correcto.

Modelo

Tradicionalmente, los parámetros de la función de predicción. Por ejemplo, los pesos de un modelo de regresión lineal o los puntos de división de un árbol de decisión. En ML.NET, un modelo contiene toda la información necesaria para predecir la etiqueta de un objeto de dominio (por ejemplo, imagen o texto). Esto significa que ML.NET modelos incluyen los pasos de caracterización necesarios, así como los parámetros de la función de predicción.

Clasificación multiclase

Un clasificación caso en el que la etiqueta de es una de las tres o más clases. Para obtener más información, consulte la sección clasificación multiclase del tema tareas de Aprendizaje automático.

N-gramas

Un esquema de extracción de características para los datos de texto: cualquier secuencia de N palabras se convierte en un característica valor.

Normalización

La normalización es el proceso de escalado de datos de punto flotante a valores comprendidos entre 0 y 1. Muchos de los algoritmos de entrenamiento usados en ML.NET requieren que se normalicen los datos de características de entrada. ML.NET proporciona una serie de transformaciones de para la normalización

Vector numérico de características

Una característica vector que consta solo de valores numéricos. Esto es similar a double[].

Tubería

Todas las operaciones necesarias para ajustar un modelo a un conjunto de datos. Una canalización consta de pasos de importación, transformación, caracterización y aprendizaje de datos. Una vez que se entrena una canalización, se convierte en un modelo.

Precisión

En clasificación, la precisión de una clase es el número de elementos que se predicen correctamente como pertenecientes a esa clase dividida por el número total de elementos previstos como pertenecientes a la clase.

Recordar

En clasificación, la recuperación de una clase es el número de elementos que se predicen correctamente como pertenecientes a esa clase dividida por el número total de elementos que pertenecen realmente a la clase.

Regularización

La regularización penaliza un modelo lineal por ser demasiado complicado. Hay dos tipos de regularización:

  • $L_1$ ponderaciones de regularización ceros para características insignificantes. El tamaño del modelo guardado podría ser menor después de este tipo de regularización.
  • $L_2$ regularización minimiza el intervalo de peso para características insignificantes. Se trata de un proceso más general y es menos sensible a los valores atípicos.

Regresión

Una tarea de aprendizaje automático supervisado donde la salida es un valor real, por ejemplo, double. Entre los ejemplos se incluyen la predicción de los precios de las acciones. Para obtener más información, consulte la sección regresión de del tema Tareas de aprendizaje automático.

Error absoluto relativo

En regresión, una métrica de evaluación que es la suma de todos los errores absolutos divididos por la suma de distancias entre los valores correctos etiqueta y el promedio de todos los valores de etiqueta correctos.

Error cuadrático relativo

En regresión, una métrica de evaluación que es la suma de todos los errores absolutos cuadrados divididos por la suma de distancias cuadradas entre los valores correctos etiqueta y el promedio de todos los valores de etiqueta correctos.

Raíz del error cuadrático medio (RMSE)

En regresión, una métrica de evaluación que es la raíz cuadrada del promedio de los cuadrados de los errores.

Puntuación

La puntuación es el proceso de aplicar nuevos datos a un modelo de aprendizaje automático entrenado y generar predicciones. La puntuación también se conoce como inferencia. Según el tipo de modelo, la puntuación puede ser un valor sin procesar, una probabilidad o una categoría.

Aprendizaje automático supervisado

Una subclase de aprendizaje automático en la que un modelo deseado predice la etiqueta para los datos aún no vistos. Entre los ejemplos se incluyen la clasificación, la regresión y la predicción estructurada. Para obtener más información, consulte el artículo aprendizaje supervisado en Wikipedia.

Adiestramiento

Proceso de identificación de un modelo de para un conjunto de datos de entrenamiento determinado. Para un modelo lineal, esto significa buscar los pesos. Para un árbol, implica identificar los puntos de división.

Transformador

Clase ML.NET que implementa la interfaz ITransformer.

Un transformador transforma una IDataView en otra. Un transformador se crea mediante el entrenamiento de un estimador de o una canalización de estimador.

Aprendizaje automático no supervisado

Una subclase de aprendizaje automático en la que un modelo deseado encuentra una estructura oculta (o latente) en los datos. Entre los ejemplos se incluyen la agrupación en clústeres, el modelado de temas y la reducción de dimensionalidad. Para obtener más información, consulte el artículo aprendizaje no supervisado en Wikipedia.