Prozkoumání strukturovaného streamování Apache Sparku

Dokončeno

Apache Spark je architektura distribuovaného zpracování pro rozsáhlé analýzy dat. Spark v Microsoft Azure můžete použít v následujících službách:

  • Microsoft Fabric
  • Azure Databricks

Spark se dá použít ke spouštění kódu (obvykle napsaného v Pythonu, Scala nebo Javě) paralelně napříč několika uzly clusteru, což umožňuje efektivně zpracovávat velmi velké objemy dat. Spark je možné použít pro dávkové zpracování i zpracování datových proudů.

Strukturované streamování Sparku

Ke zpracování streamovaných dat ve Sparku můžete použít knihovnu strukturovaného streamování Sparku, která poskytuje aplikační programovací rozhraní (API) pro ingestování, zpracování a výstup výsledků z trvalých datových proudů.

Strukturované streamování Sparku je postavené na všudypřítomné struktuře Ve Sparku označované jako datový rámec, který zapouzdřuje tabulku dat. Rozhraní API strukturovaného streamování Sparku slouží ke čtení dat ze zdroje dat v reálném čase, jako je centrum Kafka, úložiště souborů nebo síťový port, do "neomezeného" datového rámce, který se průběžně naplňuje novými daty z datového proudu. Potom definujete dotaz na datový rámec, který vybere, projekty nebo agreguje data – často v časových oknech. Výsledky dotazu generují jiný datový rámec, který lze zachovat pro účely analýzy nebo dalšího zpracování.

Diagram streamovaných dat se zapisuje do datového rámce, který se dotazuje na vytvoření dalšího datového rámce pro analýzu.

Strukturované streamování Sparku je skvělou volbou pro analýzu v reálném čase, když potřebujete začlenit streamovaná data do datového jezera založeného na Sparku nebo analytického úložiště dat.

Poznámka:

Další informace o strukturovaném streamování Sparku najdete v průvodci programováním strukturovaného streamování Sparku.

Delta Lake

Delta Lake je opensourcová vrstva úložiště, která do služby Data Lake Storage přidává podporu pro konzistenci transakcí, vynucení schématu a další běžné funkce datových skladů. Také se sjednocuje úložiště pro streamovaná a dávková data a dá se použít ve Sparku k definování relačních tabulek pro dávkové zpracování i zpracování datových proudů. Při použití ke zpracování datových proudů je možné tabulku Delta Lake použít jako zdroj streamování pro dotazy na data v reálném čase nebo jako jímku, do které se stream dat zapisuje.

Moduly runtime Spark v Microsoft Fabric a Azure Databricks zahrnují podporu pro Delta Lake.

Delta Lake v kombinaci se strukturovaným streamováním Sparku je dobrým řešením, když potřebujete abstrahovat dávková a streamovaná data zpracovávaná v datovém jezeře za relačním schématem pro dotazování a analýzu založené na SQL.

Poznámka:

Další informace o Delta Lake naleznete v tématu Tabulky Lakehouse a Delta Lake.