Köra federerade frågor på Amazon Redshift

Artikel
01/22/2025

Den här artikeln beskriver hur du konfigurerar Lakehouse Federation för att köra federerade frågor på Kör frågor på Amazon Redshift-data som inte hanteras av Azure Databricks. Mer information om Lakehouse Federation finns i Vad är Lakehouse Federation?.

Om du vill ansluta till dina Run-frågor i Amazon Redshift-databasen med Lakehouse Federation måste du skapa följande i azure Databricks Unity Catalog-metaarkivet:

En anslutning till dina Run-frågor i Amazon Redshift-databasen.
En utländsk katalog som speglar dina Run-frågor på Amazon Redshift-databasen i Unity Catalog så att du kan använda Unity Catalog-frågesyntax och datastyrningsverktyg för att hantera Azure Databricks-användaråtkomst till databasen.

Innan du börjar

Krav för arbetsyta:

Arbetsytan är aktiverad för Unity Catalog.

Beräkningskrav:

Nätverksanslutning från beräkningsresursen till måldatabassystemen. Se Nätverksrekommendationer för Lakehouse Federation.
Azure Databricks-beräkning måste använda Databricks Runtime 13.3 LTS eller senare och Delad eller Enskild användare åtkomstläge.
SQL-lager måste vara pro eller serverlösa och måste använda 2023.40 eller senare.

Behörigheter som krävs:

Om du vill skapa en anslutning måste du vara metaarkivadministratör eller användare med CREATE CONNECTION behörighet i Unity Catalog-metaarkivet som är kopplat till arbetsytan.
Om du vill skapa en extern katalog måste du ha behörigheten CREATE CATALOG i metaarkivet och antingen vara ägare till anslutningen eller ha CREATE FOREIGN CATALOG behörighet för anslutningen.

Ytterligare behörighetskrav anges i varje aktivitetsbaserat avsnitt som följer.

Skapa en anslutning

En anslutning anger en sökväg och autentiseringsuppgifter för åtkomst till ett externt databassystem. Om du vill skapa en anslutning kan du använda Catalog Explorer eller kommandot CREATE CONNECTION SQL i en Azure Databricks-notebook-fil eller Databricks SQL-frågeredigeraren.

Kommentar

Du kan också använda Databricks REST API eller Databricks CLI för att skapa en anslutning. Se kommandona POST /api/2.1/unity-catalog/connections och Unity Catalog.

Behörigheter som krävs: Metaarkivadministratör eller användare med behörighet.CREATE CONNECTION

Katalogutforskaren

På din Azure Databricks-arbetsyta klickar du på ikonen Katalog.
Längst upp i fönstret Catalog klickar du på ikonen Ikonen Lägg till och väljer Lägg till en anslutning på menyn.

Från sidan Snabbåtkomst klickar du på knappen Externa data >, går till fliken Anslutningar och klickar på Skapa anslutning.
På sidan Anslutningsinformation i guiden Konfigurera anslutning anger du ett användarvänligt Anslutningsnamn.
Välj en Anslutningstyp för Redshift.
(Valfritt) Lägg till en kommentar.
Klicka på Nästa.
På sidan Authentication anger du följande anslutningsegenskaper för redshift-instansen.
- Värd: Till exempel redshift-demo.us-west-2.redshift.amazonaws.com
- Port: Till exempel 5439
- Användare: Till exempel redshift_user
- Lösenord: Till exempel password123
(Valfritt) Inaktivera verifiering av SSL-värdnamn.
Klicka på Skapa anslutning.
På catalog basics-sidan anger du ett namn för den externa katalogen. En extern katalog speglar en databas i ett externt datasystem så att du kan köra frågor mot och hantera åtkomst till data i databasen med hjälp av Azure Databricks och Unity Catalog.
(Valfritt) Klicka på Testa anslutning för att bekräfta att den fungerar.
Klicka på Skapa katalog.
På sidan Access väljer du de arbetsytor där användarna kan komma åt katalogen som du skapade. Du kan välja Alla arbetsytor har åtkomsteller klicka på Tilldela till arbetsytor, välj arbetsytor och klicka sedan på Tilldela.
Ändra ägaren för till, som ska kunna hantera åtkomsten till alla objekt i katalogen. Börja skriva en huvudman i textrutan och klicka sedan på huvudmannen i de returnerade resultaten.
Bevilja privilegier i katalogen. Klicka på Tillåt:
1. Ange principals vem som ska ha åtkomst till objekt i katalogen. Börja skriva en huvudman i textrutan och klicka sedan på huvudmannen i de returnerade resultaten.
2. Välj förinställningar för privilegier att bevilja varje användare. Alla kontoanvändare beviljas BROWSE som standard.
  - Välj dataläsare från den nedrullningsbara menyn för att bevilja read behörigheter för objekt i katalogen.
  - Välj dataredigeraren från den nedrullningsbara menyn för att bevilja read och modify behörigheter för objekt i katalogen.
  - Välj de behörigheter som ska beviljas manuellt.
3. Klicka på Bevilja.
Klicka på Nästa.
På sidan metadata anger du taggar för nyckel/värde-par. Mer information finns i Tillämpa taggar på skyddsbara objekt i Unity Catalog.
(Valfritt) Lägg till en kommentar.
Klicka på Spara.

SQL

Kör följande kommando i en notebook-fil eller Databricks SQL-frågeredigeraren.

CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

Vi rekommenderar att du använder Azure Databricks sekretess i stället för textsträngar för känsliga uppgifter som inloggningsuppgifter. Till exempel:

CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

Information om hur du konfigurerar hemligheter finns i Hemlighetshantering.

Skapa en utländsk katalog

Kommentar

Om du använder användargränssnittet för att skapa en anslutning till datakällan inkluderas skapande av utländsk katalog och du kan hoppa över det här steget.

En extern katalog speglar en databas i ett externt datasystem så att du kan köra frågor mot och hantera åtkomst till data i databasen med hjälp av Azure Databricks och Unity Catalog. För att skapa en främmande katalog använder du en anslutning till en datakälla som redan har definierats.

Om du vill skapa en extern katalog kan du använda Catalog Explorer eller kommandot CREATE FOREIGN CATALOG SQL i en Azure Databricks notebook eller SQL-frågeredigeraren.

Du kan också använda Databricks REST API eller Databricks CLI för att skapa en katalog. Se kommandona POST /api/2.1/unity-catalog/catalogs och Unity Catalog.

Behörigheter som krävs:CREATE CATALOG behörighet för metaarkivet och antingen ägarskap för anslutningen eller behörigheten CREATE FOREIGN CATALOG för anslutningen.

Katalogutforskaren

På din Azure Databricks-arbetsyta klickar du på ikonen Catalog för att öppna Katalogutforskaren.
Längst upp i fönstret Catalog klickar du på ikonen ikonen Lägg till och väljer Lägg till en katalog på menyn.

Från sidan Snabbåtkomst klickar du på knappen Kataloger och klickar sedan på knappen Skapa katalog.
Följ anvisningarna för att skapa externa kataloger i Skapa kataloger.

SQL

Kör följande SQL-kommando i en notebook- eller SQL-frågeredigerare. Objekt inom hakparenteser är valfria. Ersätt platshållarvärdena:

<catalog-name>: Namn på katalogen i Azure Databricks.
<connection-name>: Det anslutningsobjektet som anger autentiseringsuppgifterna för datakälla, sökväg och åtkomst.
<database-name>: Namnet på databasen som du vill spegla som en katalog i Azure Databricks.

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

Pushdowns som stöds

Följande pushdowns stöds:

Filter
Projektioner
Gräns
Kopplingar
Aggregat (Genomsnitt, Antal, Max, Min, StddevPop, StddevSamp, Sum, VarianceSamp)
Funktioner (Strängfunktioner och andra diverse funktioner, till exempel Alias, Cast, SortOrder)
Sortering

Följande pushdowns stöds inte:

Windows-funktioner

Datatypsmappningar

När du läser från Redshift till Spark mappar datatyper på följande sätt:

Redshift-typ	Spark-typ
numeric	Decimaltyp
int2, int4	IntegerType
int8, oid, xid	LongType
float4	FloatType
dubbel precision, float8, money	DoubleType
bpchar, char, tecken varierande, namn, super, text, tid, varchar	StringType
bytea, geometri, varbyte	BinaryType
bit, bool	BooleanType
datum	DateType
tabstime, tid, tid med tidszon, timetz, tid utan tidszon, tidsstämpel med tidszon, tidsstämpel, tidsstämpel, tidsstämpel, tidsstämpel utan tidszon*	TidsstämpelTyp/tidsstämpelNTZType

*När du läser från Redshift mappas Redshift Timestamp till Spark TimestampType om infer_timestamp_ntz_type = false (standard). Redshift Timestamp mappas till TimestampNTZType om infer_timestamp_ntz_type = true.

Dela via

Köra federerade frågor på Amazon Redshift

Innan du börjar

Skapa en anslutning

Katalogutforskaren

SQL

Skapa en utländsk katalog

Katalogutforskaren

SQL

Pushdowns som stöds

Datatypsmappningar

Feedback

Ytterligare resurser