Sdílet prostřednictvím


Příjem dat z cloudového úložiště objektů

Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.

Přidání uživatelského rozhraní pro data

Informace o použití uživatelského rozhraní pro přidání dat k vytvoření spravované tabulky z dat v cloudovém úložišti objektů najdete v tématu Načtení dat pomocí externího umístění katalogu Unity.

Poznámkový blok nebo editor SQL

Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.

Automatický zavaděč

Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři.

COPY INTO

Díky příkazu COPY INTO můžou uživatelé SQL idempotentní a přírůstkově ingestovat data z cloudového úložiště objektů do tabulek Delta. Můžete použít COPY INTO databricks SQL, poznámkové bloky a úlohy Databricks.

Kdy použít FUNKCI COPY INTO a kdy použít automatický zavaděč

Tady je několik věcí, které je potřeba vzít v úvahu při výběru mezi automatickým zavaděčem a COPY INTO:

  • Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít COPY INTO. Pokud očekáváte soubory v pořadí milionů nebo více v průběhu času, použijte automatický zavaděč. Automatický zavaděč vyžaduje méně celkových operací ke zjišťování souborů v porovnání COPY INTO se soubory a může rozdělit zpracování do několika dávek, což znamená, že automatické zavaděče je levnější a efektivnější ve velkém měřítku.

  • Pokud se vaše schéma dat bude často vyvíjet, auto loader poskytuje lepší primitivní datové typy kolem odvozování a vývoje schématu. Další podrobnosti najdete v tématu Konfigurace odvozování schématu a vývoj v auto loaderu .

  • Načítání podmnožina znovu nahraných souborů může být trochu jednodušší spravovat pomocí COPY INTO. S automatickým zavaděčem je obtížnější znovu zpracovat výběrovou podmnožinu souborů. Můžete ale použít COPY INTO k opětovnému načtení podmnožin souborů, zatímco stream automatického zavaděče běží současně.

  • Pro ještě škálovatelnější a robustnější prostředí pro příjem souborů umožňuje auto loader uživatelům SQL využívat streamované tabulky. Viz Načtení dat pomocí streamovaných tabulek v Databricks SQL.

Stručný přehled a ukázku Auto Loaderu a COPY INTOpodívejte se na následující video YouTube (2 minuty).

Automatizace ETL s rozdílovými živými tabulkami a automatickým zavaděčem

Můžete zjednodušit nasazení škálovatelné infrastruktury přírůstkového příjmu dat pomocí automatického zavaděče a rozdílových živých tabulek. Delta Live Tables nepoužívá standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.

Nástroje pro příjem dat třetích stran

Databricks ověřuje integrace technologických partnerů, které umožňují ingestovat z různých zdrojů, včetně cloudového úložiště objektů. Tyto integrace umožňují příjem dat z různých zdrojů do Azure Databricks s nízkými kódy a škálovatelnými daty. Viz Technologické partnery. Někteří technologickí partneři jsou doporučeni v části Co je Databricks Partner Connect?, což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim datům lakehouse.