Análise de dados exploratórios no Azure Databricks: ferramentas e técnicas
Este artigo descreve ferramentas e técnicas para análise exploratória de dados (EDA) no Azure Databricks.
O que é o EDA e por que ele é útil?
A análise exploratória de dados (EDA) inclui métodos para explorar conjuntos de dados para resumir suas principais características e identificar quaisquer problemas com os dados. Usando métodos estatísticos e visualizações, você pode aprender sobre um conjunto de dados para determinar sua preparação para análise e informar quais técnicas aplicar para preparação de dados. O EDA também pode influenciar quais algoritmos você escolhe aplicar para modelos de ML de treinamento.
Quais são as ferramentas do EDA no Azure Databricks?
O Azure Databricks tem ferramentas internas de análise e visualização no DATAbricks SQL e no Databricks Runtime. Para obter uma lista ilustrada dos tipos de visualizações disponíveis no Azure Databricks, consulte tipos de visualização.
EDA no Databricks SQL
Aqui estão alguns artigos úteis sobre as ferramentas de visualização e exploração de dados no Databricks SQL:
EDA no Databricks Runtime
O Databricks Runtime fornece um ambiente predefinido que tem bibliotecas de exploração de dados populares já instaladas. Você pode ver a lista das bibliotecas embutidas nas notas de versão .
Além disso, os artigos a seguir mostram exemplos de ferramentas de visualização no Databricks Runtime:
Em um notebook do Databricks Python, você pode combinar SQL e Python para explorar dados. Quando você executa o código em uma célula de linguagem SQL em um notebook Python, os resultados da tabela são disponibilizados automaticamente como um DataFrame do Python. Para obter detalhes, confira Explorar os resultados da célula SQL em notebooks do Python.