Partager via


API Pandas sur Spark

Remarque

Cette fonctionnalité est disponible sur les clusters qui exécutent Databricks Runtime 10.0 (fin de support) et versions ultérieures. Pour les clusters qui exécutent Databricks Runtime 9.1 LTS et versions antérieures, utilisez Koalas à la place.

Couramment utilisé par les scientifiques des données, Pandas est un package Python qui fournit des structures de données faciles à utiliser et des outils d’analyse de données pour le langage de programmation Python. En revanche, pandas n’effectue pas de scale-out pour le Big Data. L’API Pandas sur Spark comble cette lacune en fournissant des API équivalentes à pandas qui fonctionnent sur Apache Spark. L'API Pandas sur Spark est utile non seulement pour les utilisateurs de pandas mais aussi pour les utilisateurs de PySpark, car l'API Pandas sur Spark prend en charge de nombreuses tâches qui sont difficiles à réaliser avec PySpark, par exemple le traçage de données directement à partir d'un DataFrame PySpark.

Spécifications

L’API pandas sur Spark est disponible à partir de Apache Spark 3.2 (inclus à partir de Databricks Runtime 10.0 (fin de support)) à l’aide de l’instruction suivante import :

import pyspark.pandas as ps

Notebook

Le bloc-notes suivant montre comment migrer de pandas à pandas API sur Spark.

pandas à pandas API sur un Notebook Spark

Obtenir le notebook

Ressources