pandas API in Spark

Artikel
03/22/2025

Notitie

Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters waarop Databricks Runtime 9.1 LTS en lager worden uitgevoerd, gebruik in plaats daarvan Koalas.

Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas is echter niet geschikt voor big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.

Vereisten

Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import instructie:

import pyspark.pandas as ps

Notitieboek

In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.

Pandas naar Pandas-API op een Spark-notebook

Notebook krijgen

Delen via

pandas API in Spark

Vereisten

Notitieboek

Pandas naar Pandas-API op een Spark-notebook

Hulpbronnen

Feedback

Aanvullende resources