Porównanie trybów wykrywania plików automatycznego modułu ładującego
Moduł automatycznego ładowania obsługuje dwa tryby wykrywania nowych plików: lista katalogów i powiadomienie o plikach. Tryby odnajdywania plików można przełączać między ponownymi uruchomieniami strumienia i nadal uzyskiwać dokładnie jednokrotne gwarancje przetwarzania danych.
Tryb listy katalogów
W trybie listy katalogów funkcja automatycznego ładowania identyfikuje nowe pliki, wyświetlając katalog wejściowy. Tryb listy katalogów umożliwia szybkie uruchamianie strumieni automatycznego modułu ładującego bez żadnych konfiguracji uprawnień innych niż dostęp do danych w magazynie w chmurze.
W środowisku Databricks Runtime 9.1 lub nowszym narzędzie do automatycznego ładowania może automatycznie wykrywać, czy pliki docierają z kolejnością leksykalną do magazynu w chmurze i znacznie zmniejszają ilość wywołań interfejsu API potrzebnych do wykrywania nowych plików. Aby uzyskać więcej informacji, zobacz Co to jest tryb listy katalogów automatycznego ładowania?
Tryb powiadamiania o pliku
Tryb powiadomień plików korzysta z usług powiadomień dotyczących plików i kolejek na koncie infrastruktury chmury. Automatyczne ładowanie może automatycznie skonfigurować usługę powiadomień i usługę kolejki, która subskrybuje zdarzenia plików z katalogu wejściowego.
Tryb powiadomień plików jest bardziej wydajny i skalowalny w przypadku dużych katalogów wejściowych lub dużej liczby plików, ale wymaga dodatkowych uprawnień do chmury do skonfigurowania. Aby uzyskać więcej informacji, zobacz Co to jest tryb powiadomień pliku automatycznego ładowania?.
Magazyn w chmurze obsługiwany przez tryby
Dostępność tych trybów znajduje się poniżej.
W przypadku migracji z lokalizacji zewnętrznej lub instalacji systemu plików DBFS do woluminu wykazu aparatu Unity funkcja automatycznego ładowania nadal zapewnia dokładnie jednokrotne gwarancje.
Magazyn w chmurze | Lista katalogów | Powiadomienia dotyczące plików |
---|---|---|
AWS S3 | Wszystkie wersje | Wszystkie wersje |
ADLS Gen2 | Wszystkie wersje | Wszystkie wersje |
GCS | Wszystkie wersje | Databricks Runtime 9.1 i nowsze |
Azure Blob Storage | Wszystkie wersje | Wszystkie wersje |
ADLS Gen1 | Wszystkie wersje | Nieobsługiwane |
DBFS | Wszystkie wersje | Tylko w przypadku punktów instalacji |
Wolumin wykazu aparatu Unity | Databricks Runtime 13.3 LTS i nowsze | Nieobsługiwane |