La ética en la ciencia de datos y el aprendizaje automático
Es importante comprender el papel que desempeña la ética en cada parte del ciclo de vida de la ciencia de los datos. Debe considerar la ética de las decisiones en cada paso. Comienza con una pregunta central y progresa a través de la disponibilidad del modelo.
En el ejemplo de los frutos del bosque, ha descubierto que en los conjuntos de datos de entrenamiento y prueba faltaba un fragmento de datos importante. No sabía nada de las frambuesas salvajes ni que había seis tipos de frutos del bosque, en lugar de solo cinco. Aunque la identificación de frutos del bosque puede parecer trivial, el fenómeno representa un problema mucho mayor. Además de la seguridad del lanzamiento de un cohete, la ausencia de estos datos puede sesgar los resultados e incluso poner vidas en riesgo. Por ejemplo, ¿sabía que hombres y mujeres presentan síntomas de ataques cardíacos totalmente distintos? En los estudios sanitarios recientes, se omitieron grandes poblaciones de personas de la recopilación de datos inicial, lo que afectó a los modelos de los síntomas de infarto que se usaban en la atención sanitaria.
La ética y la seguridad del lanzamiento de cohetes
Los conocimientos y la experiencia de los colaboradores y los científicos de la NASA ayudan a garantizar la máxima probabilidad de que el lanzamiento de un cohete sea seguro y exitoso. Es posible que no tenga acceso a los mismos recursos, pero puede intentar ser lo más ético posible con los datos limitados disponibles.
En los módulos restantes de esta ruta de aprendizaje, verá cómo pueden ayudarle los datos meteorológicos disponibles públicamente a entender qué día es el adecuado para un lanzamiento correcto. El conjunto de datos con el que trabajará contiene información sobre 64 lanzamientos de cohetes con y sin tripulación. Con estos datos, puede consultar el tiempo durante esos 64 días para intentar obtener una descripción exacta de cuáles serían las condiciones meteorológicas adecuadas para garantizar el éxito del lanzamiento.
El conjunto de datos que usará solo contiene un lanzamiento incorrecto que se canceló debido al tiempo. Piense en el ejemplo de las frambuesas salvajes. Si no tiene una representación completa de los datos, no sabrá cuándo buscar nuevas categorías. En el ejemplo de los frutos del bosque, no sabía que había seis tipos diferentes y no identificó las frambuesas salvajes. En los datos de la NASA, faltan fechas de lanzamientos cancelados.
Los problemas de ciencia de datos requieren rigor e iteraciones. Con cada nuevo nivel de conocimiento que se obtiene de los datos, se descubre cuáles podrían faltar, qué preguntas nuevas formular y cómo se podrían priorizar los datos para entender con más precisión el mundo.
Los análisis que solo tienen en cuenta un ejemplo de factores negativos no aportan el tipo de datos que la NASA usaría cuando hay vidas en riesgo. Se necesitarán más datos y experiencia en la materia antes de que se pueda usar para cualquier tipo de toma de decisiones real. El conjunto de información con el que trabajará en los siguientes módulos de la ruta de aprendizaje proporciona una introducción al tipo de análisis que podría usarse como punto de partida.