Pozyskiwanie danych z magazynu obiektów w chmurze
W tym artykule wymieniono sposoby konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze.
Dodawanie interfejsu użytkownika danych
Aby dowiedzieć się, jak za pomocą interfejsu użytkownika dodawania danych utworzyć zarządzaną
Notes lub edytor SQL
W tej sekcji opisano opcje konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze przy użyciu notesu lub edytora SQL usługi Databricks.
Moduł ładujący automatycznie
Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles
. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles
źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.
COPY INTO
Dzięki COPY INTOużytkownicy SQL mogą idempotentnie i przyrostowo pozyskiwać dane z magazynu obiektów w chmurze do usługi Delta tables. Możesz użyć COPY INTO
w usłudze Databricks SQL, notesach i zadaniach usługi Databricks.
Kiedy należy używać COPY INTO i kiedy używać automatycznego modułu ładującego
Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO
:
Jeśli zamierzasz pozyskiwać pliki w kolejności tysięcy w czasie, możesz użyć polecenia
COPY INTO
. Jeśli spodziewasz się plików w kolejności od milionów lub więcej czasu, użyj modułu automatycznego ładowania. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu zCOPY INTO
i może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę.Jeśli dane schema będą często zmieniać się, Auto Loader zapewnia bardziej odpowiednie typy danych w kontekście wnioskowania i ewolucji schema. Aby dowiedzieć się więcej, zobacz Konfiguracja schema wnioskowania i ewolucji w Auto Loader.
Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia
COPY INTO
. W przypadku Auto Loader trudniej jest ponownie przetworzyć podzestaw plików select. Można jednak użyćCOPY INTO
polecenia , aby ponownie załadować podzbiór plików, gdy strumień automatycznego modułu ładującego jest uruchomiony jednocześnie.Dla jeszcze bardziej skalowalnego i niezawodnego doświadczenia w pozyskiwaniu plików, Auto Loader umożliwia użytkownikom SQL wykorzystanie przesyłania strumieniowego tables. Zobacz Wczytywanie danych przy użyciu przesyłania strumieniowego tables w Databricks SQL.
Aby uzyskać krótkie omówienie i pokaz funkcji automatycznego ładowania i COPY INTO
, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).
Automatyzowanie ETL za pomocą funkcji Delta Live Tables i Auto Loader
Wdrożenie skalowalnej, przyrostowej infrastruktury pozyskiwania można uprościć za pomocą Auto Loader i Delta Live Tables. Usługa Delta Live Tables nie korzysta ze standardowego interaktywnego wykonywania, które jest dostępne w notesach. Zamiast tego, koncentruje się na wdrażaniu infrastruktury gotowej do produkcji.
Samouczek: uruchamianie pierwszego obciążenia ETL w usłudze Databricks
wczytywanie danych przy użyciu przesyłania strumieniowego tables (notatnik Python/SQL)
ładowanie danych przy użyciu tables przesyłania strumieniowego w usłudze Databricks SQL
Narzędzia do pozyskiwania danych innych firm
Usługa Databricks weryfikuje integracje partnerów technologicznych, które umożliwiają pozyskiwanie z różnych źródeł, w tym magazynu obiektów w chmurze. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w artykule Co to jest program Databricks Partner Connect?, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.