pandas API in Spark
Notitie
Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters waarop Databricks Runtime 9.1 LTS en lager worden uitgevoerd, gebruikt u in plaats daarvan Koalas.
Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas schaalt echter niet uit naar big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.
Vereisten
Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import
instructie:
import pyspark.pandas as ps
Notebook
In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.