Příjem dat z cloudového úložiště objektů
Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.
Přidání uživatelského rozhraní pro data
Chcete-li se naučit používat uživatelské rozhraní pro přidávání dat k vytvoření spravovaného table z dat v cloudovém úložišti objektů, podívejte se na Načítání dat pomocí externího umístění Unity Catalog.
Poznámkový blok nebo editor SQL
Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.
Automatický zavaděč
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles
. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles
souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři.
COPY INTO
Se COPY INTOmohou uživatelé SQL idempotentně a přírůstkově vkládat data z cloudového úložiště objektů do Delta tables. Můžete použít COPY INTO
databricks SQL, poznámkové bloky a úlohy Databricks.
Kdy použít COPY INTO a kdy použít Automatický Zavaděč
Tady je několik věcí, které je potřeba vzít v úvahu při výběru mezi automatickým zavaděčem a COPY INTO
:
Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít
COPY INTO
. Pokud očekáváte soubory v pořadí milionů nebo více v průběhu času, použijte automatický zavaděč. Automatický zavaděč vyžaduje méně celkových operací ke zjišťování souborů v porovnáníCOPY INTO
se soubory a může rozdělit zpracování do několika dávek, což znamená, že automatické zavaděče je levnější a efektivnější ve velkém měřítku.Pokud se vaše data schema budou často vyvíjet, Auto Loader poskytuje lepší primitivní datové typy pro odvozování a vývoj schema. Další podrobnosti naleznete v části Konfigurace odvozování a vývoje v schema v Auto Loader.
Načítání podmnožina znovu nahraných souborů může být trochu jednodušší spravovat pomocí
COPY INTO
. S funkcí Auto Loader je obtížnější znovu zpracovat select podmnožinu souborů. Můžete ale použítCOPY INTO
k opětovnému načtení podmnožin souborů, zatímco stream automatického zavaděče běží současně.Pro ještě škálovatelnější a robustnější prostředí pro zpracování souborů, Auto Loader umožňuje uživatelům SQL využívat možnosti streamování tables. Viz Načtení dat pomocí streamování tables v Databricks SQL.
Stručný přehled a ukázku Auto Loaderu a COPY INTO
podívejte se na následující video YouTube (2 minuty).
Automatizace ETL pomocí Delta Live Tables a Auto Loaderu
Můžete zjednodušit nasazení škálovatelné infrastruktury pro přírůstkové zpracování dat pomocí Auto Loader a Delta Live Tables. Delta Live Tables nepoužívá standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.
Nástroje pro příjem dat třetích stran
Databricks ověřuje integrace technologických partnerů, které umožňují ingestovat z různých zdrojů, včetně cloudového úložiště objektů. Tyto integrace umožňují příjem dat z různých zdrojů do Azure Databricks s nízkými kódy a škálovatelnými daty. Viz Technologické partnery. Někteří technologickí partneři jsou doporučeni v části Co je Databricks Partner Connect?, což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim datům lakehouse.