Freigeben über


Vergleichen der Dateierkennungsmodi von Autoloader

Der Autoloader unterstützt zwei Modi zum Erkennen neuer Dateien: Verzeichnisauflistung und Dateibenachrichtigung. Sie können Dateiermittlungsmodi über Streamneustarts hinweg wechseln und dennoch Garantien für die Datenverarbeitung genau einmal erhalten.

Verzeichnisauflistungsmodus

Im Verzeichnisauflistungsmodus identifiziert Auto Loader neue Dateien, indem es das Eingabeverzeichnis auflistet. Der Verzeichnisauflistungsmodus ermöglicht ihnen das schnelle Starten von Autoloader-Streams ohne berechtigungsbasierte Konfigurationen außer dem Zugriff auf Ihre Daten im Cloudspeicher.

In Databricks Runtime 9.1 und höher kann der Autoloader automatisch erkennen, ob Dateien mit lexikalischer Reihenfolge in Ihrem Cloudspeicher eintreffen, und die Anzahl der API-Aufrufe, die zum Erkennen neuer Dateien erforderlich sind, erheblich reduzieren. Ausführlichere Informationen finden Sie unter Was ist der Verzeichnisauflistungsmodus von Autoloader?.

Dateibenachrichtigungsmodus

Der Dateibenachrichtigungsmodus nutzt Dateibenachrichtigungs- und Warteschlangendienste in Ihrem Cloudinfrastrukturkonto. Auto Loader kann automatisch einen Benachrichtigungsdienst und einen Warteschlangendienst einrichten, die Dateiereignisse aus dem Eingabeverzeichnis abonnieren.

Der Dateibenachrichtigungsmodus ist leistungsfähiger und skalierbarer für große Eingabeverzeichnisse oder eine große Anzahl von Dateien, erfordert jedoch zusätzliche Cloudberechtigungen für die Einrichtung. Weitere Informationen finden Sie unter Was ist der Dateibenachrichtigungsmodus von Autoloader?.

Cloud-Speicher wird von Modi unterstützt

Die Verfügbarkeit für diese Modi ist unten aufgeführt.

Wenn Sie von einem externen Speicherort oder einem DBFS-Mount auf ein Unity Catalog-Volume migrieren, bietet der Auto Loader weiterhin eine Exact-once-Garantie.

Cloudspeicher Verzeichnisauflistung Dateibenachrichtigungen
AWS S3 Alle Versionen Alle Versionen
ADLS Gen2 Alle Versionen Alle Versionen
GCS Alle Versionen Databricks Runtime 9.1 und höher
Azure Blob Storage Alle Versionen Alle Versionen
ADLS Gen1 Alle Versionen Nicht unterstützt
DBFS Alle Versionen Nur für Bereitstellungspunkte
Unity Catalog-Volume Databricks Runtime 13.3 LTS und höher Nicht unterstützt