Co je automatický zavaděč?
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez jakéhokoli dalšího nastavení.
Jak automatický zavaděč funguje?
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště. Poskytuje zdroj strukturovaného streamování s názvem cloudFiles
. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles
souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři. Automatický zavaděč podporuje Python i SQL v dynamických tabulkách Delta.
Pomocí Auto Loader můžete zpracovat miliardy souborů k migraci nebo doplnění tabulky. Automatické zavaděče se škáluje tak, aby podporovalo příjem milionů souborů téměř v reálném čase za hodinu.
Podporované zdroje automatického zavaděče
Automatický zavaděč může načíst datové soubory z následujících zdrojů:
Amazon S3 (
s3://
)Azure Data Lake Storage Gen2 (ADLS Gen2,
abfss://
)Google Cloud Storage (GCS,
gs://
)Azure Blob Storage (
wasbs://
)Poznámka:
Starší verze ovladače objektů blob služby Windows Azure Storage (WASB) je zastaralá. ABFS má oproti WASB řadu výhod. Viz dokumentace k Azure v ABFS. Dokumentaci pro práci se starším ovladačem WASB najdete v tématu Připojení ke službě Azure Blob Storage pomocí WASB (starší verze).
ADLS Gen1 (
adl://
)Poznámka:
Platforma Azure oznámila nevyřízené vyřazení Azure Data Lake Storage Gen1. Databricks doporučuje migrovat všechna data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Pokud jste ještě nemigrovali, přečtěte si téma Přístup k Azure Data Lake Storage Gen1 z Azure Databricks.
Systém souborů Databricks (DBFS,
dbfs:/
).
Automatický zavaděč může ingestovat JSON
, CSV
, XML
, PARQUET
, AVRO
, ORC
, , TEXT
a BINARYFILE
formáty souborů.
Jak automatické zavaděče sleduje průběh příjmu dat?
Při zjištění souborů se metadata uchovávají ve škálovatelném úložišti klíč-hodnota (RocksDB) v umístění kontrolního bodu vašeho kanálu automatického zavaděče. Toto úložiště klíč-hodnota zajišťuje, aby se data zpracovávala přesně jednou.
V případě selhání může Automatický zavaděč pokračovat z místa, kde skončil, s využitím informací uložených v umístění kontrolního bodu a při zápisu dat do Delta Lake dál zajišťovat záruky přesně jednou. Abyste dosáhli odolnosti proti chybám nebo přesně jednou sémantiky, nemusíte udržovat ani spravovat žádný stav sami.
Přírůstkové zpracování dat pomocí Auto Loader s Delta Live Tables
Databricks doporučuje využít Auto Loader v Delta Live Tables pro přírůstkové nahrávání dat. Delta Live Tables rozšiřuje funkcionalitu strukturovaného streamování Apache Sparku a umožňuje napsat jen několik řádků deklarativního Pythonu nebo SQL pro vytvoření datového kanálu produkční kvality pomocí:
- Automatické škálování výpočetní infrastruktury pro úsporu nákladů
- Kontroly kvality dat s očekáváním
- Automatické zpracování vývoje schématu
- Monitorování prostřednictvím metrik v protokolu událostí
Nemusíte zadávat schéma ani umístění kontrolního bodu, protože Delta Live Tables tato nastavení pro vaše datové toky automaticky řídí. Vizte Načtení dat pomocí Delta Live Tables.
Databricks také doporučuje automatický zavaděč při každém použití strukturovaného streamování Apache Spark k ingestování dat z cloudového úložiště objektů. Rozhraní API jsou k dispozici v Pythonu a Scala.
Začínáme s Databricks Auto Loaderem
V následujících článcích se dozvíte, jak začít konfigurovat přírůstkový příjem dat pomocí Auto Loader a Delta Live Tables:
Příklady: Běžné vzory automatického zavaděče
Příklady běžných vzorů automatického zavaděče najdete v tématu Běžné vzory načítání dat.
Konfigurace možností automatického zavaděče
Automatický zavaděč můžete ladit na základě objemu dat, řady a rychlosti.
- Konfigurace odvození schématu a vývoje v Automatickém zavaděči
- Konfigurace automatického zavaděče pro produkční úlohy
Úplný seznam možností automatického zavaděče najdete tady:
Pokud narazíte na neočekávaný výkon, podívejte se na nejčastější dotazy.
Konfigurace režimů detekce souborů automatického zavaděče
Automatický zavaděč podporuje dva režimy detekce souborů. Přečtěte si:
- Co je režim výpisu adresáře automatického zavaděče?
- Co je režim oznámení souboru automatického zavaděče?
Výhody automatického zavaděče při použití strukturovaného streamování přímo u souborů
V Apache Sparku můžete soubory číst přírůstkově pomocí spark.readStream.format(fileFormat).load(directory)
. Automatický zavaděč poskytuje pro zdroj souborů následující výhody:
- Škálovatelnost: Automatický zavaděč dokáže efektivně zjišťovat miliardy souborů. Obnovení je možné provádět asynchronně, aby nedocházelo k plýtvání výpočetními prostředky.
- Výkon: Náklady na zjišťování souborů s automatickým zavaděčem se škálují s počtem souborů, které se ingestují, místo počtu adresářů, ve které mohou soubory přistát. Podívejte se, co je režim výpisu adresáře automatického zavaděče?
- Podpora odvozování a vývoje schématu: Auto Loader dokáže rozpoznat odchylky schématu, upozornit vás, když nastanou změny schématu, a zachránit data, která by jinak byla ignorována nebo ztracena. Viz Jak funguje odvození schématu funkce automatického načítání?.
- Náklady: Auto Loader používá nativní cloudová rozhraní API k získání seznamů souborů, které existují v úložišti. Kromě toho může režim oznámení souborů automatického zavaděče pomoct snížit náklady na cloud ještě více tím, že se úplně vyhne výpisu adresáře. Auto Loader může automaticky nastavit služby upozornění na soubory v úložišti, aby bylo zjišťování souborů mnohem levnější.