Vergleichen der Dateierkennungsmodi von Autoloader
Der Autoloader unterstützt zwei Modi zum Erkennen neuer Dateien: Verzeichnisauflistung und Dateibenachrichtigung. Sie können Dateiermittlungsmodi über Streamneustarts hinweg wechseln und dennoch Garantien für die Datenverarbeitung genau einmal erhalten.
Verzeichnisauflistungsmodus
Im Verzeichnisauflistungsmodus identifiziert Auto Loader neue Dateien, indem es das Eingabeverzeichnis auflistet. Der Verzeichnisauflistungsmodus ermöglicht ihnen das schnelle Starten von Autoloader-Streams ohne berechtigungsbasierte Konfigurationen außer dem Zugriff auf Ihre Daten im Cloudspeicher.
In Databricks Runtime 9.1 und höher kann der Autoloader automatisch erkennen, ob Dateien mit lexikalischer Reihenfolge in Ihrem Cloudspeicher eintreffen, und die Anzahl der API-Aufrufe, die zum Erkennen neuer Dateien erforderlich sind, erheblich reduzieren. Ausführlichere Informationen finden Sie unter Was ist der Verzeichnisauflistungsmodus von Autoloader?.
Dateibenachrichtigungsmodus
Der Dateibenachrichtigungsmodus nutzt Dateibenachrichtigungs- und Warteschlangendienste in Ihrem Cloudinfrastrukturkonto. Auto Loader kann automatisch einen Benachrichtigungsdienst und einen Warteschlangendienst einrichten, die Dateiereignisse aus dem Eingabeverzeichnis abonnieren.
Der Dateibenachrichtigungsmodus ist leistungsfähiger und skalierbarer für große Eingabeverzeichnisse oder eine große Anzahl von Dateien, erfordert jedoch zusätzliche Cloudberechtigungen für die Einrichtung. Weitere Informationen finden Sie unter Was ist der Dateibenachrichtigungsmodus von Autoloader?.
Cloud-Speicher wird von Modi unterstützt
Die Verfügbarkeit für diese Modi ist unten aufgeführt.
Wenn Sie von einem externen Speicherort oder einem DBFS-Mount auf ein Unity Catalog-Volume migrieren, bietet der Auto Loader weiterhin eine Exact-once-Garantie.
Cloudspeicher | Verzeichnisauflistung | Dateibenachrichtigungen |
---|---|---|
AWS S3 | Alle Versionen | Alle Versionen |
ADLS Gen2 | Alle Versionen | Alle Versionen |
GCS | Alle Versionen | Databricks Runtime 9.1 und höher |
Azure Blob Storage | Alle Versionen | Alle Versionen |
ADLS Gen1 | Alle Versionen | Nicht unterstützt |
DBFS | Alle Versionen | Nur für Bereitstellungspunkte |
Unity Catalog-Volume | Databricks Runtime 13.3 LTS und höher | Nicht unterstützt |