Příjem dat z cloudového úložiště objektů
Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.
Přidání uživatelského rozhraní pro data
Informace o použití uživatelského rozhraní pro přidání dat k vytvoření spravované tabulky z dat v cloudovém úložišti objektů najdete v tématu Načtení dat pomocí externího umístění katalogu Unity.
Poznámkový blok nebo editor SQL
Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.
Automatický zavaděč
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles
. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles
souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři.
COPY INTO
Díky příkazu COPY INTO můžou uživatelé SQL idempotentní a přírůstkově ingestovat data z cloudového úložiště objektů do tabulek Delta. Můžete použít COPY INTO
databricks SQL, poznámkové bloky a úlohy Databricks.
Kdy použít FUNKCI COPY INTO a kdy použít automatický zavaděč
Tady je několik věcí, které je potřeba vzít v úvahu při výběru mezi automatickým zavaděčem a COPY INTO
:
Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít
COPY INTO
. Pokud očekáváte soubory v pořadí milionů nebo více v průběhu času, použijte automatický zavaděč. Automatický zavaděč vyžaduje méně celkových operací ke zjišťování souborů v porovnáníCOPY INTO
se soubory a může rozdělit zpracování do několika dávek, což znamená, že automatické zavaděče je levnější a efektivnější ve velkém měřítku.Pokud se vaše schéma dat bude často vyvíjet, auto loader poskytuje lepší primitivní datové typy kolem odvozování a vývoje schématu. Další podrobnosti najdete v tématu Konfigurace odvozování schématu a vývoj v auto loaderu .
Načítání podmnožina znovu nahraných souborů může být trochu jednodušší spravovat pomocí
COPY INTO
. S automatickým zavaděčem je obtížnější znovu zpracovat výběrovou podmnožinu souborů. Můžete ale použítCOPY INTO
k opětovnému načtení podmnožin souborů, zatímco stream automatického zavaděče běží současně.Pro ještě škálovatelnější a robustnější prostředí pro příjem souborů umožňuje auto loader uživatelům SQL využívat streamované tabulky. Viz Načtení dat pomocí streamovaných tabulek v Databricks SQL.
Stručný přehled a ukázku Auto Loaderu a COPY INTO
podívejte se na následující video YouTube (2 minuty).
Automatizace ETL s rozdílovými živými tabulkami a automatickým zavaděčem
Můžete zjednodušit nasazení škálovatelné infrastruktury přírůstkového příjmu dat pomocí automatického zavaděče a rozdílových živých tabulek. Delta Live Tables nepoužívá standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.
Nástroje pro příjem dat třetích stran
Databricks ověřuje integrace technologických partnerů, které umožňují ingestovat z různých zdrojů, včetně cloudového úložiště objektů. Tyto integrace umožňují příjem dat z různých zdrojů do Azure Databricks s nízkými kódy a škálovatelnými daty. Viz Technologické partnery. Někteří technologickí partneři jsou doporučeni v části Co je Databricks Partner Connect?, což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim datům lakehouse.