Koalas
Importante
Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não são mais suportados. Consulte a API do Pandas no Spark.
Nota
Koalas é preterido. Se você tentar usar o Koalas em clusters que executam o Databricks Runtime 10.0 (EoS) e superior, uma mensagem informativa será exibida, recomendando que você use a API Pandas no Spark .
Koalas fornece um substituto drop-in para pandas. Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não se expandem para big data. O Koalas preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. Koalas é útil não só para usuários de pandas, mas também usuários do PySpark, porque o Koalas suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.
Requisitos
- O Koalas está incluído em clusters que executam o Databricks Runtime 7.3 a 9.1. Para clusters que executam o Databricks Runtime 10.0 e superior, use a API Pandas no Spark .
- Para usar o Koalas em um cluster que executa o Databricks Runtime 7.0 ou inferior, instale o Koalas como uma biblioteca do Azure Databricks PyPI.
- Para usar o Koalas em um IDE, servidor de notebook ou outros aplicativos personalizados que se conectam a um cluster do Azure Databricks, instale o Databricks Connect e siga as instruções de instalação do Koalas.
Bloco de Notas
O caderno a seguir mostra como migrar de pandas para coalas.