LakeFlow Connect
重要
LakeFlow Connect は限定的なパブリック プレビュー段階です。 プレビューに参加するには、Databricks アカウント チームにお問い合わせください。
この記事では、エンタープライズ アプリケーションやデータベースからデータを取り込むための組み込みのコネクタが用意されている Databricks LakeFlow Connect の概要について説明します。
LakeFlow Connect とは
Databricks LakeFlow Connect には、エンタープライズ アプリケーションやデータベースから取り込むための組み込みのコネクタが用意されています。 最終的なインジェスト パイプラインは Unity Catalog によって管理され、サーバーレス コンピューティングと Delta Live Tables を利用します。
LakeFlow Connect は、効率的な増分読み取りと書き込みを利用して、データ インジェストを高速化し、スケーラブルにし、コスト効率を高めながら、データをダウンストリームで使用できるように最新の状態に保ちます。
SaaS コネクタ コンポーネント
データベース コネクタは、以下のコンポーネントによってモデル化されます:
- 接続: データベースの認証詳細を保存する Unity Catalog のセキュリティ設定が可能なオブジェクト。
- インジェスト パイプライン: ステージング データを Delta テーブルにインジェストします。 このコンポーネントは、サーバーレス DLT パイプラインとしてモデル化されます。
データベース コネクタ コンポーネント
データベース コネクタは、以下のコンポーネントによってモデル化されます。
- 接続: データベースの認証詳細を保存する Unity Catalog のセキュリティ設定が可能なオブジェクト。
- ゲートウェイ: ソース データベースからデータを抽出して、転送中のトランザクションの整合性を維持します。 クラウドベース データベースの場合、インジェスト ゲートウェイはクラシック コンピューティングを使用する DLT パイプラインとして構成されます。
- ステージング ストレージ: ゲートウェイからのデータが Delta テーブルに適用される前にステージングされる Unity カタログ ボリューム。 ステージング ストレージ アカウントは、ゲートウェイをデプロイするときに作成され、指定したカタログとスキーマ内に存在します。
- インジェスト パイプライン: ステージング データを Delta テーブルにインジェストします。 このコンポーネントは、サーバーレス DLT パイプラインとしてモデル化されます。
LakeFlow Connect とLakehouse Federation とDelta Sharing
Lakehouse Federation を使用すると、データを移動せずに外部データ ソースのクエリを実行できます。 Delta Sharing を使用すると、プラットフォーム、クラウド、リージョン間でライブ データをセキュリティで保護された方法で共有できます。 LakeFlow Connect は、大量のデータ、低待機時間のクエリ、サード パーティの API 制限に対応するようにスケーリングできるため、Databricks でこの機能の使用をお勧めしています。 ただし、データを移動せずにクエリを実行する必要があります。
LakeFlow Connect、Lakehouse Federation、Delta Sharing のいずれかを選択する場合、次のシナリオでは Delta Sharing を選択します。
- データの重複の制限。
- 可能な限り最新のデータのクエリの実行。
次のシナリオでは、Lakehouse Federation を選択します。
- ETL パイプラインでのアドホック レポートまたは概念実証作業。
LakeFlow Connect と自動ローダー
LakeFlow Connect には、エンタープライズ アプリケーションとデータベースからデータを徐々に取り込むための組み込みコネクタが用意されています。 自動ローダーは、クラウド オブジェクト ストレージ用のコネクタであり、S3、ADLS、GCS に到着したファイルを徐々に取り込みます。 構造化ストリーミングと Delta Live Tables と互換性がありますが、LakeFlow Connect とは統合されません。
LakeFlow Connect はサード パーティのアプリやデータベースに書き戻すことができますか?
いいえ。 この機能に興味がある場合は、アカウント チームにお問い合わせください。
LakeFlow Connect のコストはいくらですか?
現時点で、お客様には、ソース (Salesforce などのエンタープライズ アプリケーションに接続する場合) またはステージング ボリューム (SQL Server などのデータベースに接続する場合) からデータを読み込むために必要なサーバーレス Delta Live Tables の使用量に対してのみ課金されます。 Lakeflow Connect の最終的な価格モデルには追加料金が含まれる可能性があり、今後発表がある予定です。
サーバーレス Delta Live Tables の価格は、価格のページで確認できます。