Introducción
Como es lógico, el rol de un científico de datos implica principalmente la exploración y el análisis de datos. Aunque el resultado final del análisis de datos puede ser un informe o un modelo de Machine Learning, los científicos de datos comienzan su trabajo con datos, y Python es el lenguaje de programación más conocido que usan para trabajar con ellos.
Tras décadas de desarrollo de código abierto, Python ofrece una amplia funcionalidad con eficaces bibliotecas estadísticas y numéricas:
- NumPy y Pandas simplifican el análisis y la manipulación de datos.
- Matplotlib proporciona visualizaciones de datos atractivas.
- Scikit-learn ofrece análisis de datos predictivo sencillo y eficaz.
- TensorFlow y PyTorch suministran funcionalidades de aprendizaje automático y aprendizaje profundo.
Escenario de ejemplo
Normalmente, un proyecto de análisis de datos está diseñado para obtener conclusiones sobre un escenario concreto o para probar una hipótesis.
Por ejemplo, supongamos que un profesor universitario recopila datos de sus alumnos, como el número de clases a las que han asistido, las horas de estudio y la nota final obtenida en el examen de fin de curso. El profesor podría analizar los datos para determinar si existe una relación entre la cantidad de estudio que realiza un alumno y la nota final que obtiene. El profesor podría utilizar los datos para comprobar una hipótesis de que solo los alumnos que estudian un número mínimo de horas pueden esperar obtener un aprobado.
¿Qué hará?
En este módulo de formación, exploraremos y analizaremos los datos de calificaciones de una clase universitaria ficticia desde el punto de vista de un profesor. Usaremos cuadernos de Jupyter Notebook y varias herramientas y bibliotecas de Python para limpiar el conjunto de datos, aplicar técnicas estadísticas para probar varias hipótesis sobre los datos y visualizar los datos para determinar las relaciones entre variables.