Análisis de datos exploratorios en Azure Databricks: herramientas y técnicas
En este artículo se describen las herramientas y técnicas para el análisis exploratorio de datos (EDA) en Azure Databricks.
¿Qué es EDA y por qué resulta útil?
El análisis de datos exploratorios (EDA) incluye métodos para explorar conjuntos de datos para resumir sus principales características e identificar los problemas con los datos. Con métodos estadísticos y visualizaciones, puede obtener información sobre un conjunto de datos para determinar su preparación para el análisis e informar sobre las técnicas que se deben aplicar para la preparación de datos. EDA también puede influir en qué algoritmos elija aplicar para entrenar modelos de ML.
¿Cuáles son las herramientas de EDA en Azure Databricks?
Azure Databricks tiene herramientas integradas de análisis y visualización en Databricks SQL y en Databricks Runtime. Para obtener una lista ilustrada de los tipos de visualizaciones disponibles en Azure Databricks, consulte Tipos de visualización.
EDA en Databricks SQL
Estos son algunos artículos útiles sobre las herramientas de visualización y exploración de datos en Databricks SQL:
EDA en Databricks Runtime
Databricks Runtime proporciona un entorno precompilado que ya tiene instaladas bibliotecas populares de exploración de datos. Puede ver la lista de las bibliotecas integradas en las notas de la versión.
Además, en los siguientes artículos se muestran ejemplos de herramientas de visualización en Databricks Runtime:
En un cuaderno de Python de Databricks, puede combinar SQL y Python para explorar datos. Al ejecutar código en una celda de lenguaje SQL en un cuaderno de Python, los resultados de la tabla se colocan automáticamente disponibles como dataframe de Python. Para obtener más información, consulte Exploración de los resultados de las celdas SQL en cuadernos de Python.