Sdílet prostřednictvím


Koncepty strukturovaného streamování

Tento článek obsahuje úvod do strukturovaného streamování v Azure Databricks.

Co je strukturované streamování?

Strukturované streamování Apache Sparku je modul zpracování téměř v reálném čase, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí známých rozhraní Spark API. Strukturované streamování umožňuje vyjádřit výpočty streamovaných dat stejným způsobem jako dávkové výpočty se statickými daty. Modul strukturovaného streamování provádí výpočty postupně a průběžně aktualizuje výsledek při doručení streamovaných dat.

Čtení z datového streamu

Strukturované streamování můžete použít k přírůstkové ingestování dat z podporovaných zdrojů dat. Mezi běžné zdroje dat patří:

Každý zdroj dat nabízí řadu možností, jak určit, jak načíst dávky dat. Během konfigurace čtečky může být potřeba nakonfigurovat možnosti pro následující akce:

  • Zadejte zdroj nebo formát dat (například typ souboru, oddělovače a schéma).
  • Nakonfigurujte přístup ke zdrojovým systémům (například nastavení portu a přihlašovací údaje).
  • Určete, kde se má zahájit stream, (například posuny v Kafce nebo čtení všech existujících souborů).
  • Určuje, kolik dat se zpracovává v každé dávce (například maximální posuny, soubory nebo bajty na dávku). Viz Konfigurace velikosti dávky strukturovaného streamování v Azure Databricks.

Zápis do datové jímky

Datová jímka je cílem operace zápisu streamování. Mezi běžné jímky používané v úlohách streamování Azure Databricks patří:

  • Delta Lake
  • Autobusy a fronty zpráv
  • Databáze klíč-hodnota

Stejně jako u zdrojů dat nabízí většina jímek dat řadu možností, jak řídit způsob zápisu dat do cílového systému. Během konfigurace zapisovače zadáte následující možnosti:

  • Výstupní režim (ve výchozím nastavení připojte). Viz Výběr výstupního režimu prostrukturovaného streamování .
  • Umístění kontrolního bodu (vyžadované pro každý zapisovač) Viz kontrolní body strukturovaného streamování.
  • Intervaly aktivačních událostí Viz Konfigurace intervalů triggeru strukturovaného streamování.
  • Možnosti, které určují datové úložiště a formát (například typ souboru, oddělovače a schéma).
  • Možnosti, které konfiguruje přístup k cílovým systémům (například nastavení portu a přihlašovací údaje).