pandas API in Spark
Notitie
Deze functie is beschikbaar op clusters met Databricks Runtime 10.0 (EoS) en hoger. Voor clusters waarop Databricks Runtime 9.1 LTS en lager worden uitgevoerd, gebruik in plaats daarvan Koalas.
Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas is echter niet geschikt voor big data. De Pandas-API in Spark vult deze kloof door pandas-equivalente API's te bieden die op Apache Spark werken. Pandas-API in Spark is niet alleen nuttig voor pandas-gebruikers, maar ook Voor PySpark-gebruikers, omdat pandas-API in Spark veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks uitzetten van gegevens vanuit een PySpark-dataframe.
Vereisten
Pandas-API op Spark is beschikbaar vanaf Apache Spark 3.2 (die is opgenomen vanaf Databricks Runtime 10.0 (EoS)) met behulp van de volgende import
instructie:
import pyspark.pandas as ps
Notitieboek
In het volgende notebook ziet u hoe u migreert van pandas naar pandas-API in Spark.