Análise de dados usando as APIs do DataFrame
O uso de APIs do DataFrame para análise de dados é essencial para explorar, manipular e analisar com eficiência dados estruturados em vários aplicativos.
Um DataFrame é uma estrutura de dados bidimensional rotulada com colunas de tipos potencialmente diferentes. Considere um DataFrame como uma planilha, uma tabela SQL ou um dicionário de objetos de série. O Apache Spark DataFrame contém um amplo conjunto de funções (selecionar colunas, filtrar, unir, agregar) para resolução de problemas comuns de análise de dados com eficiência.
As APIs do DataFrame são fornecidas por várias bibliotecas de processamento de dados, como Pandas em Python, Apache Spark e dplyr do R, cada uma oferecendo ferramentas para lidar com grandes conjuntos de dados com facilidade. O trabalho com DataFrames parece semelhante em todas as bibliotecas, mas cada uma delas tem algumas pequenas variações em suas funcionalidades.
Veja a seguir um exemplo de uso das APIs do DataFrame do Spark no Python:
# Create a sample DataFrame
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)
# Select columns
df.select("Name").show()
# Filter rows
df.filter(df["Age"] > 30).show()
# Group by and aggregate
df.groupBy("Age").count().show()
E aqui está um exemplo de como realizar as mesmas tarefas usando as APIs de DataFrame do Pandas no Python:
import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Cathy', 'David'],
'Age': [34, 45, 29, 23]}
df = pd.DataFrame(data)
# Select columns
print(df[['Name']])
# Filter rows
print(df[df['Age'] > 30])
# Group by and aggregate
print(df.groupby('Age').size())
Os DataFrames do Apache Spark são uma abstração criada sobre Datasets Distribuídos Resilientes (RDDs). O DataFrames do Spark e o SQL do Spark usam um mecanismo unificado de planejamento e otimização, permitindo que você obtenha um desempenho quase idêntico em todos os idiomas com suporte no Azure Databricks (Python, SQL, Scala e R).
Dica
Saiba mais sobre como carregar e transformar dados usando API do DataFrame do Apache Spark Python (PySpark), API do DataFrame do Apache Scala ou API SparkDataFrame do SparkR