Analyse de données à l’aide des API DataFrame

Effectué

L’utilisation des API DataFrame pour l’analyse de données est essentielle pour explorer, manipuler et analyser efficacement les données structurées dans différentes applications.

Un DataFrame est une structure de données étiquetée à deux dimensions avec des colonnes de types potentiellement différents. Vous pouvez considérer un DataFrame comme une feuille de calcul, une table SQL ou un dictionnaire d’objets de série. Les DataFrames Apache Spark offre un ensemble complet de fonctions (select columns, filter, join, aggregate, etc.) qui vous permettent de résoudre efficacement les problèmes courants d’analyse des données.

Les API DataFrame sont fournies par plusieurs bibliothèques de traitement de données, telles que Pandas en Python, Apache Spark et dplyr de R, chacun offrant des outils permettant de gérer facilement de grands jeux de données. L’utilisation de DataFrames semble similaire dans différents bibliothèques, mais chaque bibliothèque présente de légères variations dans ses fonctionnalités.

Voici un exemple d’utilisation des API DataFrame Spark en Python :

# Create a sample DataFrame
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

# Select columns
df.select("Name").show()

# Filter rows
df.filter(df["Age"] > 30).show()

# Group by and aggregate
df.groupBy("Age").count().show()

Et voici un exemple d’exécution des mêmes tâches à l’aide des API DataFrame Pandas en Python :

import pandas as pd

# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Cathy', 'David'],
        'Age': [34, 45, 29, 23]}
df = pd.DataFrame(data)

# Select columns
print(df[['Name']])

# Filter rows
print(df[df['Age'] > 30])

# Group by and aggregate
print(df.groupby('Age').size())

Les DataFrames Apache Spark sont une abstraction basée sur des jeux de données distribués résilients (RDD). Les DataFrames Spark et Spark SQL utilisent un moteur de planification et d’optimisation unifié, ce qui vous permet d’obtenir des performances presque identiques dans tous les langages pris en charge sur Azure Databricks (Python, SQL, Scala et R).

Conseil

En savoir plus sur la façon de charger et de transformer des données à l’aide de l’API DataFrame Apache Spark (PySpark), de l’API DataFrame Apache Scala ou de l’API SparkR SparkDataFrame