Koalas
Importante
Esta documentação foi desativada e pode não estar atualizada. Não há mais suporte para os produtos, serviços ou tecnologias mencionados neste conteúdo. Confira API do Pandas no Spark.
Observação
Koalas foi preterido. Se você tentar usar o Koalas em clusters que executam o Databricks Runtime 10.0 (EoS) e posterior, uma mensagem informativa será exibida, recomendando que você use a API do pandas no Spark em vez disso.
O Koalas fornece uma substituição de entrada para o pandas. Geralmente usado por cientistas de dados, o pandas é um pacote do Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação do Python. No entanto, o Pandas não escala horizontalmente para Big Data. O Koalas preenche esse espaço fornecendo APIs equivalentes ao Pandas que funcionam no Apache Spark. O Koalas é útil não apenas para usuários do pandas, mas também para usuários do PySpark, pois ele oferece suporte a muitas tarefas que são difíceis de realizar com o PySpark, por exemplo, a plotagem de dados diretamente de um Dataframe PySpark.
Requisitos
- O Koalas está incluído em clusters que executam o Databricks Runtime 7.3 até 9.1. Em clusters que executam o Databricks Runtime 10.0 e posterior, use em vez disso a API do pandas no Spark.
- Para usar o Koalas em um cluster que executa o Databricks Runtime 7.0 ou anterior, instale o Koalas como uma biblioteca de PyPI do Azure Databricks.
- Para usar o Koalas em um IDE, servidor de notebook ou outros aplicativos personalizados que se conectam a um cluster do Azure Databricks, instale o Databricks Connect e siga as instruções de instalação do Koalas.
Notebook
O notebook a seguir mostra como migrar do pandas para o Koalas.