Selección de un algoritmo para entrenar y probar el modelo

Completado

El paso 3 del ciclo de vida de la ciencia de datos consiste en elegir un algoritmo de aprendizaje automático y, luego, entrenar y probar el modelo. En este punto del ciclo de vida de la ciencia de datos, tiene los datos que mejor representan la verdad sobre lo que investiga. Por tanto, es el momento de modelar el aprendizaje automático para empezar a descubrir conocimientos.

El modelado es el proceso de elegir qué características de datos es más probable que indiquen un conocimiento fiable. Estas características de datos pueden variar. Por ejemplo, podrían ser las columnas de una tabla, información secundaria como la diferencia entre dos columnas, o bien algo más sutil como el color de una imagen.

Modelado

Para el huerto de lechugas, es probable que algunos aspectos del entorno sean más importantes que otros. Por ejemplo, la humedad del suelo es más importante que el nivel de ruido. Pero en el caso de otras características, puede ser difícil evaluar si una característica tiene una correlación más estrecha que otra con el resultado deseado. Por ejemplo, ¿la humedad del suelo es un mejor indicador del crecimiento en el tiempo que la temperatura? La ingeniería de características es una técnica que usa el modelo de aprendizaje automático para ayudarle a entender qué características se correlacionan más estrechamente con el resultado.

En el caso del lanzamiento de un cohete, no tiene acceso a algunos datos posiblemente muy correlacionados, como la forma, el tamaño y la clasificación de las nubes previstas en una fecha específica dentro de tres años. Pero tendrá tres fragmentos de datos principales que probablemente estén muy correlacionados: la temperatura, las precipitaciones y la humedad. En esta ruta de aprendizaje, el objetivo es usar datos de lanzamientos anteriores, datos meteorológicos anteriores y datos meteorológicos previstos para predecir si es probable que un lanzamiento se realice correctamente.

Hoja de referencia rápida de algoritmos de aprendizaje automático

Un recurso práctico para determinar qué tipo de algoritmo de aprendizaje automático será útil para un análisis es la hoja de referencia rápida de algoritmos de aprendizaje automático.

Diagrama de estilo del diagrama de flujo de la hoja de referencia rápida de algoritmos.

Elección del algoritmo de aprendizaje automático correcto

Una vez más, la pregunta central es ¿Permitirán las condiciones meteorológicas de un día concreto realizar con éxito el lanzamiento de un cohete?

La pregunta se responde con un o un no. Por lo tanto, es un problema en el que podría resultar útil un algoritmo de clasificación de dos clases. Si examina esa categoría en la hoja de referencia rápida de algoritmos, verá que puede elegir entre muchos. En este caso, un clasificador de árbol de decisión funcionaría bien. Este tipo de algoritmo toma observaciones sobre un evento, como las condiciones meteorológicas de un día concreto, y extrae conclusiones sobre el valor de destino. Su resultado es o no a la pregunta planteada.

Entrenamiento y prueba de modelos de Machine Learning

Después de elegir el algoritmo de aprendizaje automático que usará, tiene que proporcionarle datos basados en la verdad. Cuando escriba datos complejos, querrá que el modelo genere la opción correcta. En este paso, se usa un conjunto de datos existente para entrenar el modelo.

En la unidad siguiente, veremos un ejemplo de identificación de frutos del bosque para describir cómo se puede entrenar a personas para aprender información nueva. Los modelos de aprendizaje automático son similares al experimento de identificación de frutos del bosque. Para entrenar el modelo, debe proporcionarle una entrada y una salida. Pero no le proporciona todos los datos porque, de lo contrario, el modelo se sobreajusta. En este caso, solo sabría identificar un subconjunto de datos posibles. No sería capaz de generalizar a nuevos elementos que son similares, pero diferentes. Por ese motivo, debe guardar algunos datos para probar el modelo. Para ello, solo debe proporcionarle los datos de entrada. Los datos de salida reales se usan para "evaluar" o "puntuar" el modelo.

Afortunadamente, los algoritmos de aprendizaje automático que necesita ya están escritos. También están disponibles las herramientas necesarias para dividir los datos, entrenar el modelo y probarlo. Puede acceder a estas herramientas y usarlas como un servicio, por lo que no necesita instalarlas en el equipo.