Příjem dat z cloudového úložiště objektů

Článek
01/23/2025

Tento článek uvádí způsoby konfigurace přírůstkového příjmu dat z cloudového úložiště objektů.

Přidání uživatelského rozhraní pro data

Chcete-li se naučit používat uživatelské rozhraní pro přidávání dat k vytvoření spravovaného table z dat v cloudovém úložišti objektů, podívejte se na Načítání dat pomocí externího umístění Unity Catalog.

Poznámkový blok nebo editor SQL

Tato část popisuje možnosti konfigurace přírůstkového příjmu dat z cloudového úložiště objektů pomocí poznámkového bloku nebo editoru SQL Databricks.

Automatický zavaděč

Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez dalšího nastavení. Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři.

COPY INTO

Se COPY INTOmohou uživatelé SQL idempotentně a přírůstkově vkládat data z cloudového úložiště objektů do Delta tables. Můžete použít COPY INTO databricks SQL, poznámkové bloky a úlohy Databricks.

Kdy použít COPY INTO a kdy použít Automatický Zavaděč

Tady je několik věcí, které je potřeba vzít v úvahu při výběru mezi automatickým zavaděčem a COPY INTO:

Pokud budete soubory ingestovat v pořadí tisíc v průběhu času, můžete použít COPY INTO. Pokud očekáváte soubory v pořadí milionů nebo více v průběhu času, použijte automatický zavaděč. Automatický zavaděč vyžaduje méně celkových operací ke zjišťování souborů v porovnání COPY INTO se soubory a může rozdělit zpracování do několika dávek, což znamená, že automatické zavaděče je levnější a efektivnější ve velkém měřítku.
Pokud se vaše data schema budou často vyvíjet, Auto Loader poskytuje lepší primitivní datové typy pro odvozování a vývoj schema. Další podrobnosti naleznete v části Konfigurace odvozování a vývoje v schema v Auto Loader.
Načítání podmnožina znovu nahraných souborů může být trochu jednodušší spravovat pomocí COPY INTO. S funkcí Auto Loader je obtížnější znovu zpracovat select podmnožinu souborů. Můžete ale použít COPY INTO k opětovnému načtení podmnožin souborů, zatímco stream automatického zavaděče běží současně.
Pro ještě škálovatelnější a robustnější prostředí pro zpracování souborů, Auto Loader umožňuje uživatelům SQL využívat možnosti streamování tables. Viz Načtení dat pomocí streamování tables v Databricks SQL.

Stručný přehled a ukázku Auto Loaderu a COPY INTOpodívejte se na následující video YouTube (2 minuty).

Automatizace ETL pomocí Delta Live Tables a Auto Loaderu

Můžete zjednodušit nasazení škálovatelné infrastruktury pro přírůstkové zpracování dat pomocí Auto Loader a Delta Live Tables. Delta Live Tables nepoužívá standardní interaktivní spouštění nalezené v poznámkových blocích, místo toho zdůrazňuje nasazení infrastruktury připravené pro produkční prostředí.

Nástroje pro příjem dat třetích stran

Databricks ověřuje integrace technologických partnerů, které umožňují ingestovat z různých zdrojů, včetně cloudového úložiště objektů. Tyto integrace umožňují příjem dat z různých zdrojů do Azure Databricks s nízkými kódy a škálovatelnými daty. Viz Technologické partnery. Někteří technologickí partneři jsou doporučeni v části Co je Databricks Partner Connect?, což poskytuje uživatelské rozhraní, které zjednodušuje připojení nástrojů třetích stran k vašim datům lakehouse.

Sdílet prostřednictvím