Rozhraní Pandas API ve Sparku

Článek
12/20/2024

Poznámka:

Tato funkce je dostupná v clusterech, na kterých běží Databricks Runtime 10.0 (EoS) a vyšší. Pro clustery, na kterých běží Databricks Runtime 9.1 LTS a níže, použijte místo toho Koalas .

Knihovnu pandas běžně používají datoví vědci, pandas je balíček Pythonu, který poskytuje snadno použitelné datové struktury a nástroje pro analýzu dat pro programovací jazyk Python. Knihovna pandas se ale škáluje na velké objemy dat. Rozhraní Pandas API ve Sparku tuto mezeru vyplní tím, že poskytuje ekvivalentní rozhraní API pandas, která fungují na Apache Sparku. Rozhraní Pandas API ve Sparku je užitečné nejen pro uživatele pandas, ale také pro uživatele PySpark, protože rozhraní pandas API ve Sparku podporuje mnoho úloh, které se s PySparkem obtížně provádějí, například vykreslování dat přímo z datového rámce PySpark.

Požadavky

Rozhraní Pandas API ve Sparku je k dispozici od Apache Sparku 3.2 (která je součástí Databricks Runtime 10.0 (EoS) pomocí následujícího import příkazu:

import pyspark.pandas as ps

Poznámkový blok

Následující poznámkový blok ukazuje, jak migrovat z pandas na rozhraní API pandas ve Sparku.

Pandas to pandas API v poznámkovém bloku Sparku

Získat poznámkový blok

Sdílet prostřednictvím

Rozhraní Pandas API ve Sparku

Požadavky

Poznámkový blok

Pandas to pandas API v poznámkovém bloku Sparku

Zdroje informací

Váš názor

Další materiály