Rozhraní Pandas API ve Sparku
Poznámka:
Tato funkce je dostupná v clusterech, na kterých běží Databricks Runtime 10.0 (EoS) a vyšší. Pro clustery, na kterých běží Databricks Runtime 9.1 LTS a níže, použijte místo toho Koalas .
Knihovnu pandas běžně používají datoví vědci, pandas je balíček Pythonu, který poskytuje snadno použitelné datové struktury a nástroje pro analýzu dat pro programovací jazyk Python. Knihovna pandas se ale škáluje na velké objemy dat. Rozhraní Pandas API ve Sparku tuto mezeru vyplní tím, že poskytuje ekvivalentní rozhraní API pandas, která fungují na Apache Sparku. Rozhraní Pandas API ve Sparku je užitečné nejen pro uživatele pandas, ale také pro uživatele PySpark, protože rozhraní pandas API ve Sparku podporuje mnoho úloh, které se s PySparkem obtížně provádějí, například vykreslování dat přímo z datového rámce PySpark.
Požadavky
Rozhraní Pandas API ve Sparku je k dispozici od Apache Sparku 3.2 (která je součástí Databricks Runtime 10.0 (EoS) pomocí následujícího import
příkazu:
import pyspark.pandas as ps
Poznámkový blok
Následující poznámkový blok ukazuje, jak migrovat z pandas na rozhraní API pandas ve Sparku.