API do Pandas no Apache Spark

Artigo
12/20/2024

Nota

Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferior, use Koalas em vez disso.

Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não se expandem para big data. A API do Pandas no Spark preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários de pandas, mas também para usuários do PySpark, porque a API do Pandas no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.

Requisitos

A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte import instrução:

import pyspark.pandas as ps

Bloco de Notas

O bloco de anotações a seguir mostra como migrar da API de pandas para pandas no Spark.

API pandas to pandas no notebook Spark

Obter o bloco de notas

Partilhar via

API do Pandas no Apache Spark

Requisitos

Bloco de Notas

API pandas to pandas no notebook Spark

Recursos

Comentários

Recursos adicionais