Glosario de aprendizaje automático de términos importantes
La lista siguiente es una compilación de términos de aprendizaje automático importantes que son útiles a medida que se compilan los modelos personalizados en ML.NET.
Exactitud
En clasificación, la precisión es el número de elementos clasificados correctamente divididos por el número total de elementos del conjunto de pruebas. Oscila entre 0 (menos preciso) y 1 (más preciso). La precisión es una de las métricas de evaluación del rendimiento del modelo. Fíjelo junto conde precisión de
Área bajo la curva (AUC)
En clasificación binaria, una métrica de evaluación que es el valor del área bajo la curva que traza la tasa de verdaderos positivos (en el eje Y) con respecto a la tasa de falsos positivos (en el eje X). Oscila entre 0,5 (peor) y 1 (mejor). También conocido como el área bajo la curva ROC, es decir, curva característica de funcionamiento del receptor. Para obtener más información, consulte el artículo característica de funcionamiento del receptor de
Clasificación binaria
Una clasificación
Calibración
La calibración es el proceso de asignación de una puntuación sin procesar a una pertenencia a clases, para la clasificación binaria y multiclase. Algunos entrenadores ML.NET tienen un sufijo NonCalibrated
. Estos algoritmos generan una puntuación sin procesar que, a continuación, se debe asignar a una probabilidad de clase.
Catálogo
En ML.NET, un catálogo es una colección de funciones de extensión, agrupadas por un propósito común.
Por ejemplo, cada tarea de aprendizaje automático (clasificación binaria, regresión, clasificación, etc.) tiene un catálogo de algoritmos de aprendizaje automático disponibles (instructores). El catálogo para los instructores de clasificación binaria es: BinaryClassificationCatalog.BinaryClassificationTrainers.
Clasificación
Cuando los datos se usan para predecir una categoría, aprendizaje automático supervisado tarea se denomina clasificación. clasificación binaria hace referencia a predecir solo dos categorías (por ejemplo, clasificar una imagen como una imagen de un "gato" o un "perro"). clasificación multiclase hace referencia a la predicción de varias categorías (por ejemplo, al clasificar una imagen como una imagen de una raza específica de perro).
Coeficiente de determinación
En regresión, una métrica de evaluación que indica cómo se ajustan los datos a un modelo. Oscila entre 0 y 1. Un valor de 0 significa que los datos son aleatorios o, de lo contrario, no se pueden ajustar al modelo. Un valor de 1 significa que el modelo coincide exactamente con los datos. Esto se conoce a menudo como r2, R2o r cuadrado.
Datos
Los datos son fundamentales para cualquier aplicación de aprendizaje automático. En ML.NET los datos se representan mediante IDataView objetos. Objetos de vista de datos:
- se componen de columnas y filas
- se evalúan diferidamente, es decir, solo cargan datos cuando una operación llama a ella.
- contienen un esquema que define el tipo, el formato y la longitud de cada columna.
Estimador
Clase de ML.NET que implementa la interfaz IEstimator<TTransformer>.
Un estimador es una especificación de una transformación (transformación de preparación de datos y transformación de entrenamiento del modelo de aprendizaje automático). Los estimadores se pueden encadenar juntos en una canalización de transformaciones. Los parámetros de un estimador o una canalización de estimadores se aprenden cuando se llama a Fit. El resultado de Fit es un Transformer.
Método de extensión
Un método de .NET que forma parte de una clase, pero que se define fuera de la clase . El primer parámetro de un método de extensión es una referencia de this
estática a la clase a la que pertenece el método de extensión.
Los métodos de extensión se usan ampliamente en ML.NET para construir instancias de estimadores.
Característica
Propiedad medible del fenómeno que se mide, normalmente un valor numérico (doble). Varias características se conocen como vector de características y normalmente se almacenan como double[]
. Las características definen las características importantes del fenómeno que se mide. Para obtener más información, consulte el artículo feature en Wikipedia.
Ingeniería de características
La ingeniería de características es el proceso que implica definir un conjunto de características de y desarrollar software que genera vectores de características a partir de datos de fenómenos disponibles, es decir, extracción de características. Para obtener más información, consulte el artículo de ingeniería de características de
Puntuación F
En clasificación, una métrica de evaluación que equilibra de precisión y de recuperación .
Hiperparámetros
Parámetro de un algoritmo de aprendizaje automático. Algunos ejemplos incluyen el número de árboles que se van a aprender en un bosque de decisión o el tamaño del paso en un algoritmo de descenso de degradado. Los valores de hiperparámetros se establecen antes de entrenar el modelo y controlar el proceso de búsqueda de los parámetros de la función de predicción, por ejemplo, los puntos de comparación de un árbol de decisión o los pesos de un modelo de regresión lineal. Para obtener más información, consulte el artículo hiperparámetros en Wikipedia.
Etiqueta
Elemento que se va a predecir con el modelo de aprendizaje automático. Por ejemplo, la raza de perro o un precio de acción futuro.
Pérdida de registro
En clasificación, una métrica de evaluación que caracteriza la precisión de un clasificador. La pérdida de registro más pequeña es, más precisa es un clasificador.
Función Pérdida
Una función de pérdida es la diferencia entre los valores de la etiqueta de entrenamiento y la predicción realizada por el modelo. Los parámetros del modelo se calculan minimizando la función de pérdida.
Se pueden configurar diferentes instructores con diferentes funciones de pérdida.
Error absoluto medio (MAE)
En regresión, una métrica de evaluación que es el promedio de todos los errores del modelo, donde el error del modelo es la distancia entre la etiqueta de predicción valor y el valor de etiqueta correcto.
Modelo
Tradicionalmente, los parámetros de la función de predicción. Por ejemplo, los pesos de un modelo de regresión lineal o los puntos de división de un árbol de decisión. En ML.NET, un modelo contiene toda la información necesaria para predecir la etiqueta de un objeto de dominio (por ejemplo, imagen o texto). Esto significa que ML.NET modelos incluyen los pasos de caracterización necesarios, así como los parámetros de la función de predicción.
Clasificación multiclase
Un clasificación caso en el que la etiqueta de es una de las tres o más clases. Para obtener más información, consulte la sección clasificación multiclase del tema tareas de Aprendizaje automático.
N-gramas
Un esquema de extracción de características para los datos de texto: cualquier secuencia de N palabras se convierte en un característica valor.
Normalización
La normalización es el proceso de escalado de datos de punto flotante a valores comprendidos entre 0 y 1. Muchos de los algoritmos de entrenamiento usados en ML.NET requieren que se normalicen los datos de características de entrada. ML.NET proporciona una serie de transformaciones de para la normalización
Vector numérico de características
Una característica vector que consta solo de valores numéricos. Esto es similar a double[]
.
Tubería
Todas las operaciones necesarias para ajustar un modelo a un conjunto de datos. Una canalización consta de pasos de importación, transformación, caracterización y aprendizaje de datos. Una vez que se entrena una canalización, se convierte en un modelo.
Precisión
En clasificación, la precisión de una clase es el número de elementos que se predicen correctamente como pertenecientes a esa clase dividida por el número total de elementos previstos como pertenecientes a la clase.
Recordar
En clasificación, la recuperación de una clase es el número de elementos que se predicen correctamente como pertenecientes a esa clase dividida por el número total de elementos que pertenecen realmente a la clase.
Regularización
La regularización penaliza un modelo lineal por ser demasiado complicado. Hay dos tipos de regularización:
- $L_1$ ponderaciones de regularización ceros para características insignificantes. El tamaño del modelo guardado podría ser menor después de este tipo de regularización.
- $L_2$ regularización minimiza el intervalo de peso para características insignificantes. Se trata de un proceso más general y es menos sensible a los valores atípicos.
Regresión
Una tarea de aprendizaje automático supervisado donde la salida es un valor real, por ejemplo, double. Entre los ejemplos se incluyen la predicción de los precios de las acciones. Para obtener más información, consulte la sección regresión de
Error absoluto relativo
En regresión, una métrica de evaluación que es la suma de todos los errores absolutos divididos por la suma de distancias entre los valores correctos etiqueta y el promedio de todos los valores de etiqueta correctos.
Error cuadrático relativo
En regresión, una métrica de evaluación que es la suma de todos los errores absolutos cuadrados divididos por la suma de distancias cuadradas entre los valores correctos etiqueta y el promedio de todos los valores de etiqueta correctos.
Raíz del error cuadrático medio (RMSE)
En regresión, una métrica de evaluación que es la raíz cuadrada del promedio de los cuadrados de los errores.
Puntuación
La puntuación es el proceso de aplicar nuevos datos a un modelo de aprendizaje automático entrenado y generar predicciones. La puntuación también se conoce como inferencia. Según el tipo de modelo, la puntuación puede ser un valor sin procesar, una probabilidad o una categoría.
Aprendizaje automático supervisado
Una subclase de aprendizaje automático en la que un modelo deseado predice la etiqueta para los datos aún no vistos. Entre los ejemplos se incluyen la clasificación, la regresión y la predicción estructurada. Para obtener más información, consulte el artículo aprendizaje supervisado en Wikipedia.
Adiestramiento
Proceso de identificación de un modelo de para un conjunto de datos de entrenamiento determinado. Para un modelo lineal, esto significa buscar los pesos. Para un árbol, implica identificar los puntos de división.
Transformador
Clase ML.NET que implementa la interfaz ITransformer.
Un transformador transforma una IDataView en otra. Un transformador se crea mediante el entrenamiento de un estimador de o una canalización de estimador.
Aprendizaje automático no supervisado
Una subclase de aprendizaje automático en la que un modelo deseado encuentra una estructura oculta (o latente) en los datos. Entre los ejemplos se incluyen la agrupación en clústeres, el modelado de temas y la reducción de dimensionalidad. Para obtener más información, consulte el artículo aprendizaje no supervisado en Wikipedia.