クラウドオブジェクトストレージからデータを取り込む

[アーティクル]
11/07/2024

この記事では、クラウドオブジェクトストレージからの増分インジェストを構成する方法の一覧を示します。

データの追加 UI

追加のデータ UI を使用して、クラウドオブジェクトストレージのデータからマネージドテーブルを作成する方法については、「Unity Catalog の外部の場所を使用したデータの読み取り」を参照してください。

ノートブックまたは SQL エディター

このセクションでは、ノートブックまたは Databricks SQL エディターを使用してクラウドオブジェクトストレージからの増分インジェストを構成するためのオプションについて説明します。

自動ローダー

自動ローダーでは、追加の設定を行わなくても、クラウドストレージに到着した新しいデータファイルが段階的かつ効率的に処理されます。自動ローダーは、cloudFiles と呼ばれる構造化ストリーミングソースを提供します。クラウドファイルストレージ上に入力ディレクトリパスを指定すると、cloudFiles ソースでは、新しいファイルが到着したときにそれらが自動的に処理されます。また、そのディレクトリ内の既存のファイルも処理できます。

COPY INTO

COPY INTOを使用すると、SQL ユーザーは、クラウドオブジェクトストレージから Delta テーブルにデータをべき等かつ増分的に取り込むことができます。 Databricks SQL、ノートブック、Databricks ジョブで COPY INTO を使用できます。

COPY INTO を使用するタイミングと自動ローダーを使用するタイミング

自動ローダーか COPY INTO かを選択するときに考慮すべきいくつかの点を次に示します。

時間をかけて数千の順序でファイルを取り込む場合は、COPY INTO を使用できます。時間の経過とともに数百万以上の順序のファイルが予想される場合は、自動ローダーを使用します。自動ローダーでは、COPY INTO と比較してファイルを検出する操作の合計が少なくて済み、処理を複数のバッチに分割できます。つまり、自動ローダーの方がコストが低く、大規模で効率が高くなります。
データスキーマが頻繁に展開する予定の場合は、自動ローダーにより、スキーマの推論と展開に関してより適切なプリミティブなデータ型が得られます。詳細については、「自動ローダーでのスキーマの推論と展開の構成」を参照してください。
再アップロードされたファイルのサブセットの読み込みは、COPY INTO のほうが少し簡単に管理できます。自動ローダーでは、選択したファイルのサブセットの再処理が難しくなります。ただし、自動ローダーストリームを同時に実行しながら、COPY INTO を使用して、ファイルのサブセットを再度読み込むことは可能です。
ファイル取り込みの拡張性と堅牢度を上げるため、自動ローダーでは、SQL ユーザーはストリーミングテーブルを活用できます。「Databricks SQL でストリーミングテーブルを使用してデータを読み込む」を参照してください。

自動ローダーと COPY INTO の概要とデモについては、次の YouTube 動画 (2 分) をご覧ください。

Delta Live Tables と自動ローダーを使用して ETL を自動化する

自動ローダーと Delta Live Tables を使用すると、スケーラブルな増分インジェストインフラストラクチャのデプロイを簡略化できます。 Delta Live Tables では、ノートブックに含まれる標準の対話型実行は使用されず、代わりに運用環境に対応したインフラストラクチャのデプロイが重視されます。

サードパーティのインジェストツール

Databricks は、クラウドオブジェクトストレージを含むさまざまなソースから取り込むためのテクノロジパートナー統合を検証します。これらの統合により、さまざまなソースから Azure Databricks へ、少量のコードでスケーラブルなデータインジェストが可能になります。「テクノロジパートナー」を参照してください。一部のテクノロジパートナーは「Databricks Partner Connect とは」で紹介されており、サードパーティ製ツールをレイクハウスデータに簡単に接続できる UI が提供されます。

次の方法で共有

クラウドオブジェクトストレージからデータを取り込む

データの追加 UI

ノートブックまたは SQL エディター

自動ローダー

COPY INTO

COPY INTO を使用するタイミングと自動ローダーを使用するタイミング

Delta Live Tables と自動ローダーを使用して ETL を自動化する

サードパーティのインジェストツール

フィードバック

その他のリソース

次の方法で共有

クラウド オブジェクト ストレージからデータを取り込む

データの追加 UI

ノートブックまたは SQL エディター

自動ローダー

COPY INTO

COPY INTO を使用するタイミングと自動ローダーを使用するタイミング

Delta Live Tables と自動ローダーを使用して ETL を自動化する

サード パーティのインジェスト ツール

フィードバック

その他のリソース

クラウドオブジェクトストレージからデータを取り込む

サードパーティのインジェストツール