Interfejs API biblioteki Pandas na platformie Apache Spark
Uwaga
Ta funkcja jest dostępna w klastrach z uruchomionym środowiskiem Databricks Runtime 10.0 (EoS) i nowszymi wersjami. W przypadku klastrów z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym należy zamiast tego użyć narzędzia Koalas .
Często używane przez analityków danych biblioteka pandas to pakiet języka Python, który zapewnia łatwe w użyciu struktury danych i narzędzia do analizy danych dla języka programowania Python. Jednak biblioteka pandas nie jest skalowana w poziomie do danych big data. Interfejs API biblioteki Pandas na platformie Spark wypełnia tę lukę, zapewniając równoważne interfejsy API biblioteki pandas działające na platformie Apache Spark. Interfejs API biblioteki Pandas na platformie Spark jest przydatny nie tylko dla użytkowników biblioteki pandas, ale także użytkowników PySpark, ponieważ interfejs API biblioteki pandas na platformie Spark obsługuje wiele zadań, które są trudne do wykonania w przypadku narzędzia PySpark, na przykład wykreślenia danych bezpośrednio z ramki danych PySpark.
Wymagania
Interfejs API biblioteki Pandas na platformie Spark jest dostępny począwszy od platformy Apache Spark 3.2 (który jest zawarty w środowisku Databricks Runtime 10.0 (EoS) przy użyciu następującej import
instrukcji:
import pyspark.pandas as ps
Notes
W poniższym notesie pokazano, jak przeprowadzić migrację z biblioteki pandas do interfejsu API biblioteki pandas na platformie Spark.