Koncepty strukturovaného streamování
Tento článek obsahuje úvod do strukturovaného streamování v Azure Databricks.
Co je strukturované streamování?
Strukturované streamování Apache Sparku je modul zpracování téměř v reálném čase, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí známých rozhraní Spark API. Strukturované streamování umožňuje vyjádřit výpočty streamovaných dat stejným způsobem jako dávkové výpočty se statickými daty. Modul strukturovaného streamování provádí výpočty postupně a průběžně aktualizuje výsledek při doručení streamovaných dat.
Čtení z datového streamu
Strukturované streamování můžete použít k přírůstkové ingestování dat z podporovaných zdrojů dat. Mezi běžné zdroje dat patří:
- Datové soubory v cloudovém úložišti objektů. Podívejte se, co je automatický zavaděč?
- Autobusy a fronty zpráv. Viz Konfigurace streamovaných zdrojů dat.
- Delta Lake. Viz čtení a zápisy streamovaných tabulek Delta.
Každý zdroj dat nabízí řadu možností, jak určit, jak načíst dávky dat. Během konfigurace čtečky může být potřeba nakonfigurovat možnosti pro následující akce:
- Zadejte zdroj nebo formát dat (například typ souboru, oddělovače a schéma).
- Nakonfigurujte přístup ke zdrojovým systémům (například nastavení portu a přihlašovací údaje).
- Určete, kde se má zahájit stream, (například posuny v Kafce nebo čtení všech existujících souborů).
- Určuje, kolik dat se zpracovává v každé dávce (například maximální posuny, soubory nebo bajty na dávku). Viz Konfigurace velikosti dávky strukturovaného streamování v Azure Databricks.
Zápis do datové jímky
Datová jímka je cílem operace zápisu streamování. Mezi běžné jímky používané v úlohách streamování Azure Databricks patří:
- Delta Lake
- Autobusy a fronty zpráv
- Databáze klíč-hodnota
Stejně jako u zdrojů dat nabízí většina jímek dat řadu možností, jak řídit způsob zápisu dat do cílového systému. Během konfigurace zapisovače zadáte následující možnosti:
- Výstupní režim (ve výchozím nastavení připojte). Viz Výběr výstupního režimu prostrukturovaného streamování .
- Umístění kontrolního bodu (vyžadované pro každý zapisovač) Viz kontrolní body strukturovaného streamování.
- Intervaly aktivačních událostí Viz Konfigurace intervalů triggeru strukturovaného streamování.
- Možnosti, které určují datové úložiště a formát (například typ souboru, oddělovače a schéma).
- Možnosti, které konfiguruje přístup k cílovým systémům (například nastavení portu a přihlašovací údaje).