Úvod

1 min.

Azure Databricks nabízí vysoce škálovatelnou platformu pro analýzu a zpracování dat pomocí Apache Sparku.

Spark je flexibilní platforma, která podporuje mnoho různých programovacích jazyků a rozhraní API. Když nastavíte pracovní prostor Databricks a nasadíte clustery Spark, můžou uživatelé snadno ingestovat data z různých zdrojů, jako je Azure Data Lake nebo Cosmos DB, do datových rámců Sparku. V rámci interaktivních poznámkových bloků Databricks můžou uživatelé provádět složité transformace dat pomocí rozhraní API datového rámce Sparku, které zahrnuje operace, jako je filtrování, seskupování a agregace. Většinu úloh zpracování a analýzy dat je možné provádět pomocí rozhraní API datového rámce , na které se v tomto modulu zaměříme.

V tomto modulu:

Popis klíčových prvků architektury Apache Spark
Vytvoření a konfigurace clusteru Spark
Popište případy použití Sparku.
Pomocí Sparku můžete zpracovávat a analyzovat data uložená v souborech.
Pomocí Sparku můžete vizualizovat data.

Úvod

Váš názor