Amazon Redshift でフェデレーション クエリを実行する
この記事では、Azure Databricks で管理されていない Amazon Redshift データに対するクエリの実行でフェデレーション クエリを実行するように、レイクハウス フェデレーションを設定する方法について説明します。 Lakehouse フェデレーションの詳細については、「Lakehouse フェデレーションとは?」を参照してください。
レイクハウス フェデレーションを使って Amazon Redshift データベースに対する自分のクエリの実行に接続するには、Azure Databricks の Unity Catalog メタストアで以下を作成する必要があります。
- Amazon Redshift データベースに対するクエリの実行への "接続"。
- Unity Catalog で Amazon Redshift データベースに対するクエリの実行をミラーリングする "外部カタログ"。これにより、Unity Catalog のクエリ構文とデータ ガバナンス ツールを使って、Azure Databricks ユーザーのデータベースへのアクセスを管理できるようになります。
準備
ワークスペースの要件:
- Unity Catalog を使用できるワークスペース。
コンピューティングの要件:
- コンピューティング リソースからターゲット データベース システムへのネットワーク接続。 「レイクハウス フェデレーションのためのネットワークに関する推奨事項」を参照してください。
- Azure Databricks のコンピュートには、Databricks Runtime 13.3 LTS 以上を使用し、共有 または シングルユーザー アクセスモードを使用する必要があります。
- SQL ウェアハウスはプロまたはサーバーレスである必要があり、2023.40 以降を使用する必要があります。
必要なアクセス許可:
- 接続を作成するには、メタストア管理者であるか、ワークスペースにアタッチされている Unity Catalog メタストアに対する
CREATE CONNECTION
特権を持つユーザーである必要があります。 - 外部カタログを作成するには、メタストアに対する
CREATE CATALOG
権限を持ち、接続の所有者であるか、接続に対するCREATE FOREIGN CATALOG
特権を持っている必要があります。
追加の権限要件は、以下の各タスク ベースのセクションで規定されています。
接続を作成する
接続では、外部データベース システムにアクセスするためのパスと資格情報を指定します。 接続を作成するには、Catalog Explorer を使用するか、Azure Databricks ノートブックまたは Databricks SQL クエリ エディターで CREATE CONNECTION
SQL コマンドを使用します。
Note
Databricks REST API または Databricks CLI を使用して接続を作成することもできます。 POST /api/2.1/unity-catalog/connections および Unity Catalog コマンドを参照してください。
必要な権限: メタストア管理者、または CREATE CONNECTION
特権を持つユーザー。
カタログ エクスプローラー
Azure Databricks ワークスペースで、
[カタログ] をクリックします。
[カタログ] ペインの上部にある
[追加] アイコンをクリックし、メニューから [接続の追加] を選択します。
または、[クイック アクセス] ページで、[外部データ >] ボタンをクリックし、[接続] タブに移動し、[接続の作成] をクリックします。
接続 の設定ウィザードの 接続の詳細 ページで、わかりやすい 接続名入力します。
Redshift の [接続の種類] を選択します。
(省略可能) コメントを追加します。
次をクリックします。
[認証] ページで、Redshift インスタンスの次の接続プロパティを入力します。
- ホスト: たとえば、
redshift-demo.us-west-2.redshift.amazonaws.com
- ポート: たとえば、
5439
- ユーザー: たとえば、
redshift_user
- パスワード: たとえば、
password123
- ホスト: たとえば、
(省略可能) SSL ホスト名検証を無効にします。
[接続の作成] をクリックします。
[カタログの基本] ページで、外部カタログの名前を入力します。 外部カタログは、外部データ システム内のデータベースをミラーリングし、Azure Databricks と Unity Catalog を使ってそのデータベース内のデータに対するクエリの実行とアクセス管理ができるようにします。
(省略可能) [接続のテスト] をクリックして、動作することを確認します。
[カタログ作成] をクリックします。
[Access] ページで、作成したカタログにユーザーがアクセスできるワークスペースを選択します。 [すべてのワークスペースがアクセスできる] を選択することも、[ワークスペースに割り当てる] をクリックし、ワークスペースを選択して [割り当て] をクリックすることもできます。
カタログ内のすべてのオブジェクトへのアクセスを管理できる 所有者 を変更します。 テキスト ボックスに対象者の入力を開始し、返された結果の中から該当する対象者をクリックします。
カタログに対する特権を付与します。 [許可] をクリックします。
- カタログ内のオブジェクトにアクセスできる プリンシパル を指定します。 テキスト ボックスに主対象の入力を開始し、戻ってきた結果の中から主対象をクリックします。
- 各プリンシパルに付与する 特権プリセット を選択します。 既定では、すべてのアカウント ユーザーに
BROWSE
が付与されます。- ドロップダウン メニューから [データ 閲覧者 を選択して、カタログ内のオブジェクトに対する
read
権限を付与します。 - ドロップダウン メニュー データ エディター を選択して、カタログ内のオブジェクトに対する
read
権限とmodify
権限を付与します。 - 付与する特権を手動で選択します。
- ドロップダウン メニューから [データ 閲覧者 を選択して、カタログ内のオブジェクトに対する
- [許可] をクリックします。
[次へ] をクリックします。
[メタデータ] ページで、タグのキーと値のペアを指定します。 詳細については、「Unity カタログのセキュリティ保護可能なオブジェクトにタグを適用する」を参照してください。
(省略可能) コメントを追加します。
[保存] をクリックします。
SQL
ノートブックまたは Databricks SQL クエリ エディターで次のコマンドを実行します。
CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
資格情報などの機密性の高い値には、プレーンテキストの文字列ではなく Azure Databricks のシークレットを使用することをお勧めします。 次に例を示します。
CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
シークレットの設定については、「シークレットの管理」を参照してください。
外部カタログを作成する
Note
UI を使用してデータ ソースへの接続を作成する場合は、外部カタログの作成が含まれるので、この手順は省略できます。
外部カタログは、外部データ システム内のデータベースをミラーリングし、Azure Databricks と Unity Catalog を使ってそのデータベース内のデータに対するクエリの実行とアクセス管理ができるようにします。 外部カタログを作成するには、定義済みのデータ ソースへの接続を使用します。
外部カタログを作成するには、Catalog Explorer を使用するか、Azure Databricks ノートブックまたは SQL クエリ エディターで CREATE FOREIGN CATALOG
SQL コマンドを使用します。
Databricks REST API または Databricks CLI を使用してカタログを作成することもできます。 POST /api/2.1/unity-catalog/catalogs および Unity Catalog コマンドを参照してください。
必要なアクセス許可: メタストアに対する CREATE CATALOG
アクセス許可と、接続の所有権または接続に対する CREATE FOREIGN CATALOG
特権。
カタログ エクスプローラー
Azure Databricks ワークスペースで、
[カタログ] をクリックしてカタログ エクスプローラーを開きます。
[カタログ] ペインの上部にある
[追加] アイコンをクリックし、メニューから [カタログの追加] を選択します。
または、[クイック アクセス] ページで、[カタログ] ボタンをクリックし、[カタログの作成] ボタンをクリックします。
「カタログを作成する」で外部カタログを作成する手順に従います。
SQL
ノートブックまたは SQL クエリ エディターで次のコマンドを実行します。 角かっこ内の項目は省略可能です。 プレースホルダー値を次のように置き換えます。
<catalog-name>
: Azure Databricks 内のカタログの名前。<connection-name>
: データ ソース、パス、アクセス資格情報を指定する接続オブジェクト。<database-name>
: Azure Databricks でカタログとしてミラーリングするデータベースの名前。
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');
サポートされているプッシュダウン
以下のプッシュダウンがサポートされています。
- フィルター
- プロジェクション
- 制限
- 結合
- 集計 (Average、Count、Max、Min、StddevPop、StddevSamp、Sum、VarianceSamp)
- 関数 (文字列関数と、Alias、Cast、SortOrder などのその他の関数)
- 並べ替え
以下のプッシュダウンはサポートされていません。
- Windows 関数
データ型マッピング
Redshift から Spark に読み取ると、データ型は次のようにマップされます。
Redshift 型 | Spark の型 |
---|---|
numeric | DecimalType |
int2、int4 | IntegerType |
int8、oid、xid | LongType |
float4 | FloatType |
double precision、float8、money | DoubleType |
bpchar、char、character varying、name、super、text、tid、varchar | StringType |
bytea、geometry、varbyte | BinaryType |
bit、bool | BooleanType |
date | DateType |
tabstime、time、time with time zone、timetz、time without time zone、timestamp with time zone、timestamp、timestamptz、timestamp without time zone* | TimestampType/TimestampNTZType |
*Redshift から読み取ると、Timestamp
(既定値) の場合、Redshift の TimestampType
は Spark の infer_timestamp_ntz_type = false
にマップされます。 Redshift の Timestamp
は、TimestampNTZType
の場合、infer_timestamp_ntz_type = true
にマップされます。