Análisis de datos exploratorios en Azure Databricks: herramientas y técnicas
En este artículo se describen las herramientas y técnicas para el análisis exploratorio de datos (EDA) en Azure Databricks.
¿Qué es EDA y por qué resulta útil?
El análisis exploratorio de datos (EDA) incluye métodos para explorar conjuntos de datos para resumir sus características principales e identificar cualquier problema con los datos. Con métodos estadísticos y visualizaciones, puede obtener información sobre un conjunto de datos para determinar su preparación para el análisis e informar sobre las técnicas que se deben aplicar para la preparación de datos. EDA también puede influir en los algoritmos que elija aplicar para entrenar modelos de ML.
¿Cuáles son las herramientas de EDA en Azure Databricks?
Azure Databricks tiene herramientas de análisis y visualización integradas en Databricks SQL y en Databricks Runtime. Para obtener una lista ilustrada de los tipos de visualizaciones disponibles en Azure Databricks, consulta Tipos de visualización.
EDA en Databricks SQL
Estos son algunos artículos útiles sobre las herramientas de visualización y exploración en Databricks SQL:
- Visualización de consultas y creación de un panel
- Creación de visualizaciones de datos en Databricks SQL
EDA en Databricks Runtime
Databricks Runtime proporciona un entorno precompilado que ya tiene instaladas bibliotecas de exploración de datos populares. Puedes ver la lista de las bibliotecas integradas en las notas de la versión.
Además, en los siguientes artículos se muestran ejemplos de herramientas de visualización en Databricks Runtime:
En un cuaderno de Python de Databricks, puedes combinar SQL y Python para explorar los datos. Cuando ejecuta código en una celda de lenguaje SQL de un un cuaderno de Python, los resultados se ponen automáticamente a disposición como DataFrame de Python. Para obtener más información, consulta Exploración de los resultados de las celdas SQL en cuadernos de Python.