Udostępnij za pośrednictwem


Pozyskiwanie danych z magazynu obiektów w chmurze

W tym artykule wymieniono sposoby konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze.

Dodawanie interfejsu użytkownika danych

Aby dowiedzieć się, jak za pomocą interfejsu użytkownika dodawania danych utworzyć zarządzaną na podstawie danych w magazynie obiektów w chmurze, zobacz Load data using a Unity external location(Ładowanie danych przy użyciu lokalizacji zewnętrznej aparatu Unity).

Notes lub edytor SQL

W tej sekcji opisano opcje konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze przy użyciu notesu lub edytora SQL usługi Databricks.

Moduł ładujący automatycznie

Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.

COPY INTO

Dzięki COPY INTOużytkownicy SQL mogą idempotentnie i przyrostowo pozyskiwać dane z magazynu obiektów w chmurze do usługi Delta tables. Możesz użyć COPY INTO w usłudze Databricks SQL, notesach i zadaniach usługi Databricks.

Kiedy należy używać COPY INTO i kiedy używać automatycznego modułu ładującego

Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO:

  • Jeśli zamierzasz pozyskiwać pliki w kolejności tysięcy w czasie, możesz użyć polecenia COPY INTO. Jeśli spodziewasz się plików w kolejności od milionów lub więcej czasu, użyj modułu automatycznego ładowania. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu z COPY INTO i może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę.

  • Jeśli dane schema będą często zmieniać się, Auto Loader zapewnia bardziej odpowiednie typy danych w kontekście wnioskowania i ewolucji schema. Aby dowiedzieć się więcej, zobacz Konfiguracja schema wnioskowania i ewolucji w Auto Loader.

  • Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia COPY INTO. W przypadku Auto Loader trudniej jest ponownie przetworzyć podzestaw plików select. Można jednak użyć COPY INTO polecenia , aby ponownie załadować podzbiór plików, gdy strumień automatycznego modułu ładującego jest uruchomiony jednocześnie.

  • Dla jeszcze bardziej skalowalnego i niezawodnego doświadczenia w pozyskiwaniu plików, Auto Loader umożliwia użytkownikom SQL wykorzystanie przesyłania strumieniowego tables. Zobacz Wczytywanie danych przy użyciu przesyłania strumieniowego tables w Databricks SQL.

Aby uzyskać krótkie omówienie i pokaz funkcji automatycznego ładowania i COPY INTO, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).

Automatyzowanie ETL za pomocą funkcji Delta Live Tables i Auto Loader

Wdrożenie skalowalnej, przyrostowej infrastruktury pozyskiwania można uprościć za pomocą Auto Loader i Delta Live Tables. Usługa Delta Live Tables nie korzysta ze standardowego interaktywnego wykonywania, które jest dostępne w notesach. Zamiast tego, koncentruje się na wdrażaniu infrastruktury gotowej do produkcji.

Narzędzia do pozyskiwania danych innych firm

Usługa Databricks weryfikuje integracje partnerów technologicznych, które umożliwiają pozyskiwanie z różnych źródeł, w tym magazynu obiektów w chmurze. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w artykule Co to jest program Databricks Partner Connect?, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.