Delen via


pandas API in Spark

Notitie

Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters waarop Databricks Runtime 9.1 LTS en lager worden uitgevoerd, gebruikt u in plaats daarvan Koalas.

Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas schaalt echter niet uit naar big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.

Vereisten

Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import instructie:

import pyspark.pandas as ps

Notebook

In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.

Pandas naar pandas-API in Spark-notebook

Notebook downloaden

Resources