Introdução
O Azure Databricks oferece uma plataforma altamente escalonável para análise e processamento de dados usando o Apache Spark.
O Spark é uma plataforma flexível que dá suporte a várias linguagens de programação e APIs diferentes. Ao configurar um espaço de trabalho Databricks e implantar clusters Spark, os usuários podem ingerir facilmente dados de várias fontes, como Azure Data Lake ou Cosmos DB, em Spark DataFrames. Nos notebooks interativos do Databricks, os usuários podem realizar transformações complexas de dados usando a API DataFrame do Spark, que inclui operações como filtragem, agrupamento e agregação. A maioria das tarefas de análise e processamento de dados pode ser realizada usando a API Dataframe, na qual nos concentraremos neste módulo.
Neste módulo, você aprenderá a:
- Descreva os principais elementos da arquitetura do Apache Spark.
- Crie e configure um cluster do Spark.
- Descreva casos de uso do Spark.
- Use o Spark para processar e analisar dados armazenados em arquivos.
- Use o Spark para visualizar dados.