API do Pandas no Apache Spark
Nota
Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferior, use Koalas em vez disso.
Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não se expandem para big data. A API do Pandas no Spark preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários de pandas, mas também para usuários do PySpark, porque a API do Pandas no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte import
instrução:
import pyspark.pandas as ps
Bloco de Notas
O bloco de anotações a seguir mostra como migrar da API de pandas para pandas no Spark.