オートローダーとは何ですか？

[アーティクル]
03/28/2025

自動ローダーでは、追加の設定を行わなくても、クラウドストレージに到着した新しいデータファイルが段階的かつ効率的に処理されます。

自動ローダーのしくみはどのようなものですか?

自動ローダーは、新しいデータファイルがクラウドストレージに到着すると、それらを段階的かつ効率的に処理します。 cloudFiles と呼ばれる構造化ストリーミングソースを提供します。クラウドファイルストレージ上に入力ディレクトリパスを指定すると、cloudFiles ソースでは、新しいファイルが到着したときにそれらが自動的に処理されます。また、そのディレクトリ内の既存のファイルも処理できます。自動ローダーでは、DLT での Python と SQL の両方がサポートされています。

自動ローダーを使用して、移行する数十億個のファイルを処理したり、テーブルをバックフィルしたりできます。自動ローダーは、1 時間あたり数百万個のファイルの、ほぼリアルタイムのインジェストをサポートするようにスケーリングされます。

サポートされている自動ローダーソース

自動ローダーは、次のソースからデータファイルを読み込むことができます。

Amazon S3 (s3://)
Azure Data Lake Storage (ADLS、abfss://)
Google Cloud Storage (GCS、gs://)
Azure Blob Storage (wasbs://)

注意

従来の Windows Azure Storage Blob (WASB) ドライバーは非推奨となっています。 ABFS には WASB よりも多くの利点があります。 ABFS に関する Azure ドキュメントを参照してください。従来の WASB ドライバーの使用に関するドキュメントについては、「WASB で Azure Blob Storage に接続する (レガシ)」をご覧ください。
Databricks ファイルシステム (DBFS、dbfs:/)

自動ローダーは、JSON、CSV、XML、PARQUET、AVRO、ORC、TEXT、および BINARYFILE のファイル形式を取り込めます。

自動ローダーでは、インジェストの進行状況はどのように追跡されますか?

ファイルが検出されると、そのメタデータは、自動ローダーパイプラインのチェックポイントの場所にあるスケーラブルなキー/値ストア (RocksDB) に保持されます。このキー/値ストアにより、データは厳密に 1 回だけ処理されます。

エラーが発生した場合、自動ローダーではチェックポイントの場所に格納されている情報に基づいて中断された場所から再開でき、Delta Lake にデータを書き込むときに厳密に 1 回だけという保証を提供し続けられます。フォールトトレランスや厳密に 1 回だけというセマンティクスを実現するために、状態を自分で維持したり管理したりする必要はありません。

DLT での自動ローダーを使用した増分インジェスト

Databricks では、増分データインジェストのために DLT の自動ローダーをお勧めします。 DLT は Apache Spark Structured Streaming の機能を拡張し、数行の宣言型 Python または SQL を記述するだけで、運用品質のデータパイプラインを次のようにデプロイできます。

コスト削減のためのコンピューティングインフラストラクチャの自動スケーリング
期待値を使用したデータ品質チェック
自動的なスキーマ展開処理
イベントログのメトリック経由での監視

DLT はパイプラインのこれらの設定を自動的に管理するため、スキーマまたはチェックポイントの場所を指定する必要はありません。 DLT を使用したデータの読み込みのを参照してください。

また、Databricks では、Apache Spark Structured Streaming を使用してクラウドオブジェクトストレージからデータを取り込むときはいつでも自動ローダーが推奨されます。 API は Python と Scala で使用可能です。

Databricks 自動ローダーを使ってみる

DLT で自動ローダーを使用した増分データインジェストの構成を開始するには、次の記事を参照してください。

自動ローダー (Databricks SQL Editor) を使用して、クラウドオブジェクトストレージからストリーミングテーブルにデータを読み込む

例: 一般的な自動ローダーのパターン

一般的な自動ローダーパターンの例については、「一般的なデータ読み込みパターン」を参照してください。

自動ローダーのオプションを構成する

データの量、種類、速度に基づいて自動ローダーを調整できます。

自動ローダーオプションの完全な一覧については、次を参照してください。

自動ローダーのオプション

予期しないパフォーマンスが発生した場合は、FAQ を参照してください。

自動ローダーファイル検出モードを構成する

自動ローダーでは、2 つのファイル検出モードがサポートされています。参照:

ファイルでの構造化ストリーミングの直接使用より、自動ローダーが優位な点

Apache Spark では、spark.readStream.format(fileFormat).load(directory) を使用してファイルを増分方式で読み取りできます。自動ローダーには、ファイルソースに対して次のベネフィットがあります。

スケーラビリティ: 自動ローダーでは、数十億のファイルを効率的に検出できます。コンピューティングリソースの無駄を回避するために、バックフィルを非同期的に実行できます。
パフォーマンス: 自動ローダーを使用してファイルを検出するコストは、ファイルが格納されている可能性のあるディレクトリの数ではなく、取り込まれているファイルの数に応じて増減します。自動ローダーディレクトリリスト表示モードとはを参照してください。
スキーマの推論と展開のサポート: 自動ローダーでは、スキーマドリフトを検出し、スキーマの変更が発生した場合に通知して、通知されなかった場合は無視または失われていたはずのデータを保護できます。自動ローダースキーマ推論のしくみを参照してください。
コスト: 自動ローダーでは、ネイティブクラウド API を使用して、ストレージに存在するファイルの一覧を取得します。さらに、自動ローダーのファイル通知モードは、ディレクトリの一覧を完全に回避することで、クラウドコストをさらに削減するのに役立ちます。自動ローダーを使用すると、ストレージにファイル通知サービスを自動的に設定して、ファイル検出のコストを大幅に削減できます。

次の方法で共有

オートローダーとは何ですか？

自動ローダーのしくみはどのようなものですか?

サポートされている自動ローダーソース

自動ローダーでは、インジェストの進行状況はどのように追跡されますか?

DLT での自動ローダーを使用した増分インジェスト

Databricks 自動ローダーを使ってみる

例: 一般的な自動ローダーのパターン

自動ローダーのオプションを構成する

自動ローダーファイル検出モードを構成する

ファイルでの構造化ストリーミングの直接使用より、自動ローダーが優位な点

フィードバック

その他のリソース

次の方法で共有

オートローダーとは何ですか？

自動ローダーのしくみはどのようなものですか?

サポートされている自動ローダー ソース

自動ローダーでは、インジェストの進行状況はどのように追跡されますか?

DLT での自動ローダーを使用した増分インジェスト

Databricks 自動ローダーを使ってみる

例: 一般的な自動ローダーのパターン

自動ローダーのオプションを構成する

自動ローダー ファイル検出モードを構成する

ファイルでの構造化ストリーミングの直接使用より、自動ローダーが優位な点

フィードバック

その他のリソース

サポートされている自動ローダーソース

自動ローダーファイル検出モードを構成する