Compartir a través de


Mejora del modelo de ML.NET

Obtenga información sobre cómo mejorar el modelo de ML.NET.

Replantear el problema

A veces, mejorar un modelo puede no tener nada que ver con los datos o técnicas que se usan para entrenar el modelo. En su lugar, puede ser que se haga la pregunta equivocada. Considere la posibilidad de examinar el problema desde distintos ángulos y aprovechar los datos para extraer indicadores latentes y relaciones ocultas con el fin de refinar la pregunta.

Proporcionar más ejemplos de datos

Al igual que los seres humanos, cuantos más algoritmos de entrenamiento obtienen, aumenta la probabilidad de mejorar el rendimiento. Una manera de mejorar el rendimiento del modelo es proporcionar más ejemplos de datos de entrenamiento a los algoritmos. Cuanta más datos aprenda de, más casos podrá identificar correctamente.

Adición de contexto a los datos

El significado de un único punto de datos puede ser difícil de interpretar. Crear contexto en torno a los puntos de datos ayuda a los algoritmos, así como a los expertos en la materia a tomar mejores decisiones. Por ejemplo, el hecho de que una casa tiene tres dormitorios no por sí mismo da una buena indicación de su precio. Sin embargo, si agrega contexto y ahora sabe que se encuentra en un vecindario suburbano fuera de un área metropolitana importante donde la edad media es de 38 años, el ingreso medio familiar es de $80.000 y las escuelas están en el percentil 20 superior, el algoritmo tiene más información para basar sus decisiones. Todo este contexto se puede agregar como entrada al modelo de Machine Learning como características.

Uso de datos y características significativos

Aunque más ejemplos de datos y características pueden ayudar a mejorar la precisión del modelo, también pueden introducir ruido, ya que no todos los datos y características son significativos. Por lo tanto, es importante comprender qué características son las que afectan en mayor medida a las decisiones tomadas por el algoritmo. El uso de técnicas como Permutation Feature Importance (PFI) puede ayudar a identificar esas características destacadas y no solo a explicar el modelo, sino también a usar la salida como método de selección de características para reducir la cantidad de características ruidosas que van al proceso de entrenamiento.

Para obtener más información sobre el uso de PFI, consulte Explicación de las predicciones del modelo mediante la importancia de las características de permutación.

Validación cruzada

La validación cruzada es una técnica de entrenamiento y evaluación de modelos que divide los datos en varias particiones y entrena varios algoritmos en estas particiones. Esta técnica mejora la solidez del modelo manteniendo los datos del proceso de entrenamiento. Además de mejorar el rendimiento en observaciones no vistos, en entornos restringidos a datos puede ser una herramienta eficaz para entrenar modelos con un conjunto de datos más pequeño.

Para obtener más información, vea Uso de la validación cruzada en ML.NET.

Ajuste de hiperparámetros

Entrenar modelos de aprendizaje automático es un proceso iterativo y exploratorio. Por ejemplo, ¿cuál es el número óptimo de clústeres al entrenar un modelo mediante el algoritmo K-Means? La respuesta depende de muchos factores, como la estructura de los datos. Encontrar ese número requeriría experimentar con valores diferentes para k y, a continuación, evaluar el rendimiento para determinar qué valor es mejor. La práctica de ajustar los parámetros que guían el proceso de entrenamiento para encontrar un modelo óptimo se conoce como ajuste de hiperparámetros.

Elección de un algoritmo diferente

Las tareas de aprendizaje automático, como la regresión y la clasificación, contienen varias implementaciones de algoritmo. Puede ser el caso de que el problema que está intentando resolver y la forma en que los datos están estructurados no encajan bien en el algoritmo actual. En tal caso, considere la posibilidad de usar un algoritmo diferente para la tarea para ver si aprende mejor de los datos.

El siguiente vínculo proporciona más ayuda sobre qué algoritmo elegir.