Streamování v Azure Databricks
Azure Databricks můžete použít k příjmu dat téměř v reálném čase, ke zpracování, strojovému učení a umělé inteligenci pro streamování dat.
Azure Databricks nabízí řadu optimalizací pro streamování a přírůstkové zpracování, včetně následujících:
- Delta Live Tables poskytuje deklarativní syntaxi pro přírůstkové zpracování. Podívejte se na Co je Delta LiveTables?.
- Automatické zavaděč zjednodušuje přírůstkový příjem dat z cloudového úložiště objektů. Podívejte se, co je automatický zavaděč?
- Unity Catalog přidává zásady správného řízení dat do úloh streamování. Viz Použití Catalog Unity se strukturovaným streamováním.
Delta Lake poskytuje vrstvu úložiště pro tyto integrace. Viz Delta table streamování čtení a zápisů.
Informace o poskytování modelu v reálném čase najdete v tématu Model obsluhující službu Azure Databricks.
-
Seznamte se se základy téměř v reálném čase a přírůstkového zpracování pomocí strukturovaného streamování v Azure Databricks.
-
Seznamte se se základními koncepty konfigurace přírůstkových úloh a úloh téměř v reálném čase pomocí strukturovaného streamování.
-
Správa průběžných informací o stavových dotazech strukturovaného streamování může pomoct zabránit neočekávaným problémům s latencí a produkčním prostředím.
Důležité informace o produkčním prostředí
Tento článek obsahuje doporučení ke konfiguraci úloh přírůstkového zpracování v produkčním prostředí se strukturovaným streamováním v Azure Databricks, aby splňovaly požadavky na latenci a náklady pro aplikace v reálném čase nebo dávkové aplikace.
-
Naučte se monitorovat aplikace strukturovaného streamování v Azure Databricks.
-
Naučte se využívat Catalog Unity ve spojení se strukturovaným streamováním v Azure Databricks.
-
Zjistěte, jak používat Delta Lake tables jako zdroje streamování a jímky.
-
Podívejte se na příklady použití strukturovaného streamování Sparku s Využitím Cassandra, Azure Synapse Analytics, poznámkových bloků Pythonu a poznámkových bloků Scala v Azure Databricks.
Azure Databricks má specifické funkce pro práci s částečně strukturovanými datovými poli obsaženými v Avro, vyrovnávací paměti protokolu a datových částech JSON. Další informace najdete v následujících tématech:
- Čtení a zápis streamovaných dat Avro
- Vyrovnávací paměti protokolu pro čtení a zápis
- Dotazování řetězců JSON
Další materiály
Apache Spark poskytuje průvodce programováním strukturovaného streamování, který obsahuje další informace o strukturovaném streamování.
Referenční informace o strukturovaném streamování doporučuje Databricks následující odkazy na rozhraní Apache Spark API: