Wyzwalanie zadań po nadejściu nowych plików
Wyzwalacze przybycia plików umożliwiają wyzwolenie uruchomienia zadania usługi Azure Databricks po nadejściu nowych plików w lokalizacji zewnętrznej, takiej jak Amazon S3, Azure Storage lub Google Cloud Storage. Z tej funkcji można skorzystać, gdy zaplanowane zadanie może być nieefektywne, ponieważ nowe dane są dostarczane zgodnie z nieregularnym harmonogramem.
Wyzwalacze przybycia plików najlepiej sprawdzają dostępność nowych plików co minutę, chociaż może to mieć wpływ na wydajność bazowego magazynu w chmurze. Wyzwalacze przybycia plików nie generują dodatkowych kosztów innych niż koszty dostawcy usług w chmurze związane z wyświetlaniem plików w lokalizacji magazynu.
Wyzwalacz przybycia pliku można skonfigurować do monitorowania katalogu głównego lokalizacji zewnętrznej lub woluminu wykazu aparatu Unity albo ścieżki podrzędnej lokalizacji zewnętrznej lub woluminu. Na przykład w przypadku woluminu /Volumes/mycatalog/myschema/myvolume/
głównego wykazu aparatu Unity następujące ścieżki są prawidłowymi ścieżkami wyzwalacza przybycia pliku:
/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/
Wyzwalacz przybycia pliku cyklicznie sprawdza, czy nowe pliki znajdują się we wszystkich podkatalogach skonfigurowanej lokalizacji. Jeśli na przykład utworzysz wyzwalacz przybycia pliku dla lokalizacji /Volumes/mycatalog/myschema/myvolume/mydirectory/
, a ta lokalizacja ma następujące podkatalogi:
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirA
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirB
/Volumes/mycatalog/myschema/myvolume/mydirectory/subdirC/subdirD
Wyzwalacz sprawdza nowe pliki w systemach mydirectory
, , subdirA
subdirB
, subdirC
i subdirC/subdirD
.
Wymagania
Do korzystania z wyzwalaczy przybycia plików wymagane są następujące elementy:
- Obszar roboczy musi mieć włączony wykaz aparatu Unity.
- Musisz użyć lokalizacji magazynu, która jest woluminem wykazu aparatu Unity lub lokalizacją zewnętrzną dodaną do magazynu metadanych wykazu aparatu Unity. Zobacz Tworzenie lokalizacji zewnętrznej w celu połączenia magazynu w chmurze z usługą Azure Databricks.
- Musisz mieć
READ
uprawnienia do lokalizacji magazynu i UPRAWNIENIA CAN MANAGE w zadaniu. Aby uzyskać więcej informacji na temat uprawnień zadania, zobacz Listy ACL zadań.
Ograniczenia
- Uruchamiane są tylko nowe pliki. Zastępowanie istniejącego pliku z plikiem o tej samej nazwie nie powoduje uruchomienia.
- Maksymalnie pięćdziesiąt zadań można skonfigurować za pomocą wyzwalacza nadejścia pliku w obszarze roboczym usługi Azure Databricks.
- Lokalizacja magazynu skonfigurowana dla wyzwalacza przybycia pliku może zawierać maksymalnie 10 000 plików. Nie można monitorować lokalizacji z większą ilością plików pod kątem nowych przybyszów plików. Jeśli skonfigurowana lokalizacja magazynu jest ścieżką podrzędną lokalizacji zewnętrznej lub woluminu wykazu aparatu Unity, limit 10 000 plików ma zastosowanie do ścieżki podrzędnej, a nie katalogu głównego lokalizacji magazynu. Na przykład katalog główny lokalizacji magazynu może zawierać ponad 10 000 plików w swoich podkatalogach, ale skonfigurowany podkatalog nie może przekraczać limitu 10 000 plików.
- Ścieżka używana dla wyzwalacza przychodzącego pliku nie może zawierać żadnych zewnętrznych tabel ani zarządzanych lokalizacji katalogów i schematów.
- Ścieżka używana dla wyzwalacza nadejścia pliku nie może zawierać symboli wieloznacznych, na przykład
*
lub?
.
Dodawanie wyzwalacza przybycia pliku
Aby dodać wyzwalacz przybycia pliku do zadania:
- Na pasku bocznym kliknij pozycję Przepływy pracy.
- W kolumnie Nazwa na karcie Zadania kliknij nazwę zadania.
- W panelu Szczegóły zadania po prawej stronie kliknij pozycję Dodaj wyzwalacz.
- W obszarze Typ wyzwalacza wybierz pozycję Przyjazd pliku.
- W polu Lokalizacja magazynu wprowadź adres URL katalogu głównego lub ścieżki podrzędnej lokalizacji zewnętrznej wykazu aparatu Unity, katalogu głównego lub ścieżki podrzędnej woluminu wykazu aparatu Unity do monitorowania.
- (Opcjonalnie) Konfigurowanie opcji zaawansowanych:
- Minimalny czas między wyzwalaczami w sekundach: minimalny czas oczekiwania na wyzwolenie przebiegu po zakończeniu poprzedniego przebiegu. Pliki, które docierają w tym okresie, wyzwalają przebieg dopiero po wygaśnięciu czasu oczekiwania. Użyj tego ustawienia, aby kontrolować częstotliwość tworzenia przebiegu.
- Poczekaj po ostatniej zmianie w sekundach: czas oczekiwania na wyzwolenie przebiegu po nadejściu pliku. Inny przybysz pliku w tym okresie resetuje czasomierz. To ustawienie może być używane, gdy pliki docierają do partii, a cała partia musi zostać przetworzona po nadejściu wszystkich plików.
- Aby zweryfikować konfigurację, kliknij pozycję Testuj połączenie.
- Kliknij przycisk Zapisz.
Otrzymuj powiadomienia o nieudanych wyzwalaczach nadejścia plików
Aby otrzymywać powiadomienia, jeśli wyzwalacz przybycia pliku nie zostanie oceniony, skonfiguruj powiadomienia e-mail lub systemowe miejsca docelowego o niepowodzeniu zadania. Zobacz Dodawanie wiadomości e-mail i powiadomień systemowych dotyczących zdarzeń zadań.