Procedimiento de aprendizaje de las personas y los modelos de aprendizaje automático
Un modelo de aprendizaje automático se entrena de forma similar a como se entrenan las personas. Pero ¿cómo aprende un ser humano?
Imagine que pasea por una zona en la que hay cinco tipos diferentes de frutos del bosque que nunca había visto. Le piden que recoja 100 ejemplares aleatorios, incluido un fruto del bosque de cada una de las cinco especies nuevas. Le indican el nombre de los cinco tipos diferentes: frambuesa, arándano azul, mora, fresa y arándano rojo. Los otros 95 ejemplares que ha recogido pertenecen a uno de estos tipos.
Como puede asignar un nombre a los cinco tipos de frutos del bosque diferentes, está convencido de que podrá identificar los tipos de los 95 frutos del bosque restantes que ha recogido aleatoriamente. Es posible que algunas moras no estén maduras, por lo que serán más pequeñas y parecerán frambuesas, y que algunos arándanos azules no estén tan maduros y parezcan arándanos rojos. Aun así, cree que podría distinguir a qué tipo pertenece cada ejemplar y que sería capaz de clasificar los 100 frutos del bosque por tipo.
Después, le piden que recoja solo frambuesas en un campo nuevo adyacente. No duda del aspecto que tienen las frambuesas:
Completa esta tarea y consigue 10 frambuesas sin problema.
En resumen, los primeros 100 frutos del bosque se encontraban en su conjunto de datos inicial. Le proporcionaron una entrada (los 100 frutos del bosque) y una salida (los tipos de frutos del bosque incluidos) y le entrenaron para que pudiera identificar los ejemplares que recogió.
Después, le sometieron a una prueba. En un campo nuevo con frutos del bosque, dada cualquier entrada, debía identificar el tipo de fruto del bosque y seleccionar solo una salida: las frambuesas. Mientras caminaba entre las plantas, examinaba otros frutos del bosque (la entrada). Puso a prueba su modelo mental de frutos del bosque y solo eligió frambuesas. Llegado a este punto, está convencido de que su modelo mental de los frutos del bosque tiene una precisión del 100 %.
Pero en ese momento, detecta un fruto del bosque que tiene un aspecto similar a una frambuesa, pero ligeramente diferente. Lo que no sabía es que, en realidad, había seis tipos de frutos del bosque en el nuevo campo. Encuentra más frambuesas, pero también recoge algunos de los otros frutos del bosque, pensando que podrían ser frambuesas, aunque tienen un aspecto algo diferente:
Tanto el nuevo ejemplar como la frambuesa son diferentes a los otros cuatro tipos de frutos del bosque, pero tienen un aspecto similar entre sí. Pero no son el mismo tipo de baya. El nuevo tipo de fruto del bosque que ha recogido es una frambuesa salvaje.
En este caso, el conjunto de datos no es lo suficientemente amplio. Sería poco preciso situar una frambuesa salvaje con las frambuesas simplemente porque cree que debería encajar en uno de los tipos de frutos del bosque y no sabe que hay más de cinco tipos diferentes. Cree que identifica los frutos del bosque con más precisión de la que demuestra en la realidad porque no sabe todo lo que necesita saber para ser preciso.
La identificación de los frutos del bosque podría parecer trivial, pero sus implicaciones se aplican a las soluciones de aprendizaje automático. Cuando estos tipos de soluciones afectan a la vida de las personas, como en el lanzamiento de un cohete, es necesario evitar estos tipos de errores en el análisis de datos.