Federatieve query's uitvoeren op Amazon Redshift

Artikel
01/21/2025

In dit artikel wordt beschreven hoe u Lakehouse Federation instelt voor het uitvoeren van federatieve query's op Run-query's op Amazon Redshift-gegevens die niet worden beheerd door Azure Databricks. Zie Wat is Lakehouse Federation? voor meer informatie over Lakehouse Federation.

Als u verbinding wilt maken met uw Run-query's op Amazon Redshift-database met behulp van Lakehouse Federation, moet u het volgende maken in uw Azure Databricks Unity Catalog-metastore:

Een verbinding met uw Run-query's op Amazon Redshift-database.
Een buitenlandse catalogus die uw Run-query's op de Amazon Redshift-database in Unity Catalog spiegelt, zodat u de syntaxis en hulpprogramma's voor gegevensbeheer van Unity Catalog kunt gebruiken om Azure Databricks-gebruikerstoegang tot de database te beheren.

Voordat u begint

Vereisten voor werkruimte:

Werkruimte ingesteld voor Unity Catalog.

Rekenvereisten:

Netwerkconnectiviteit van uw rekenresource naar de doeldatabasesystemen. Zie De aanbevelingen voor netwerken voor Lakehouse Federation.
Azure Databricks Compute moet Databricks Runtime 13.3 LTS of hoger gebruiken en gedeelde of één gebruiker toegangsmodus.
SQL-warehouses moeten pro of serverloos zijn en moeten 2023.40 of hoger gebruiken.

Vereiste machtigingen:

Als u een verbinding wilt maken, moet u een metastore-beheerder of een gebruiker zijn met de CREATE CONNECTION bevoegdheid voor de Unity Catalog-metastore die is gekoppeld aan de werkruimte.
Als u een buitenlandse catalogus wilt maken, moet u de machtiging CREATE CATALOG hebben voor de metastore en de eigenaar van de verbinding zijn of de CREATE FOREIGN CATALOG bevoegdheid voor de verbinding hebben.

Aanvullende machtigingsvereisten worden opgegeven in elke sectie op basis van taken die volgt.

Een verbinding maken

Een verbinding geeft een pad en referenties op voor toegang tot een extern databasesysteem. Als u een verbinding wilt maken, kunt u Catalog Explorer of de CREATE CONNECTION SQL-opdracht gebruiken in een Azure Databricks-notebook of de Databricks SQL-queryeditor.

Notitie

U kunt ook de Databricks REST API of de Databricks CLI gebruiken om een verbinding te maken. Zie POST /api/2.1/unity-catalog/connections en Unity Catalog-opdrachten.

Vereiste machtigingen: Metastore-beheerder of gebruiker met de CREATE CONNECTION bevoegdheid.

Catalogusverkenner

Klik in uw Azure Databricks-werkruimte op het cataloguspictogram Catalogus.
Klik boven in het deelvenster Catalogus op het pictogram pictogram toevoegen en selecteer Een verbinding toevoegen in het menu.

U kunt ook op de pagina Snelle toegang op de knop Externe gegevens > klikken, naar het tabblad Verbindingen gaan en op Verbinding makenklikken.
Voer op de pagina Verbindingsgegevens van de wizard Verbinding instellen een gebruiksvriendelijke verbindingsnaam in.
Kies een verbindingstype van Redshift.
(Optioneel) Voeg een opmerking toe.
Klik op Volgende.
Voer op de pagina Authentication de volgende verbindingseigenschappen in voor uw Redshift-exemplaar.
- Host: bijvoorbeeld redshift-demo.us-west-2.redshift.amazonaws.com
- Poort: bijvoorbeeld 5439
- Gebruiker: bijvoorbeeld redshift_user
- Wachtwoord: bijvoorbeeld password123
(Optioneel) SSL-hostnaamverificatie uitschakelen.
Klik op Verbinding maken.
Voer op de pagina basisprincipes van de catalogus een naam in voor de buitenlandse catalogus. Een refererende catalogus spiegelt een database in een extern gegevenssysteem, zodat u de toegang tot gegevens in die database kunt opvragen en beheren met behulp van Azure Databricks en Unity Catalog.
(Optioneel) Klik op Verbinding testen om te bevestigen dat deze werkt.
Klik op Catalogus maken.
Selecteer op de pagina Access de werkruimten waarin gebruikers toegang hebben tot de catalogus die u hebt gemaakt. U kunt Alle werkruimten toegang hebbenof klikken op Toewijzen aan werkruimten, de werkruimten selecteren en vervolgens op Toewijzenklikken.
Wijzig de Eigenaar die in staat zal zijn om de toegang tot alle objecten in de catalogus te beheren. Begin een principal in het tekstvak te typen en klik vervolgens op de principal in de geretourneerde resultaten.
Ververleent bevoegdheden aan de catalogus. Klik op Toewijzen aan:
1. Specificeer de Principals die toegang hebben tot objecten in de catalogus. Begin een principal in het tekstvak te typen en klik vervolgens op de principal in de geretourneerde resultaten.
2. Selecteer de vooraf ingestelde Bevoegdheden om aan elke principal toe te kennen. Alle accountgebruikers ontvangen standaard BROWSE.
  - Selecteer Gegevenslezer in de vervolgkeuzelijst om read bevoegdheden te verlenen voor objecten in de catalogus.
  - Selecteer Gegevenseditor in de vervolgkeuzelijst om read en modify bevoegdheden voor objecten in de catalogus toe te kennen.
  - Selecteer handmatig de bevoegdheden die u wilt verlenen.
3. Klik op Toepassen.
Klik op Volgende.
Geef op de pagina Metagegevens tags sleutel-waardeparen op. Zie Tags toepassen op beveiligbare objecten van Unity Catalogvoor meer informatie.
(Optioneel) Voeg een opmerking toe.
Klik op Opslaan.

SQL

Voer de volgende opdracht uit in een notebook of de Sql-query-editor van Databricks.

CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

Wij raden aan om Azure Databricks geheimen te gebruiken in plaats van platte tekstreeksen voor gevoelige waarden zoals referenties. Voorbeeld:

CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

Zie Geheimbeheer voor informatie over het instellen van geheimen.

Een buitenlandse catalogus maken

Notitie

Als u de UI gebruikt om een verbinding met de gegevensbron te maken, wordt het genereren van een vreemde catalogus opgenomen, en kunt u deze stap overslaan.

Een refererende catalogus spiegelt een database in een extern gegevenssysteem, zodat u de toegang tot gegevens in die database kunt opvragen en beheren met behulp van Azure Databricks en Unity Catalog. Om een externe catalogus te maken, gebruikt u een verbinding met de gegevensbron die al is gedefinieerd.

Om een buitenlandse catalogus te maken, kunt u Catalog Explorer of de CREATE FOREIGN CATALOG SQL-opdracht gebruiken in een Azure Databricks-notebook of in de SQL-queryeditor.

U kunt ook de Databricks REST API of de Databricks CLI gebruiken om een catalogus te maken. Zie POST /api/2.1/unity-catalog/catalogs en Unity Catalog-opdrachten.

Vereiste machtigingen:CREATE CATALOG machtiging voor de metastore en eigendom van de verbinding of de CREATE FOREIGN CATALOG bevoegdheid voor de verbinding.

Catalogusverkenner

Klik in uw Azure Databricks-werkruimte op Catalogus om Catalog Explorer te openen.
Klik bovenaan het deelvenster Catalogus op het pictogram pictogram Toevoegen en selecteer een catalogus toevoegen in het menu.

U kunt ook op de pagina Snelle toegang op de knop Catalogi klikken en vervolgens op de knop Catalogus maken klikken.
Volg de instructies voor het maken van buitenlandse catalogi in Catalogi maken.

SQL

Voer de volgende SQL-opdracht uit in een notebook of SQL-queryeditor. Items tussen haakjes zijn optioneel. Vervang de waarden van de tijdelijke aanduidingen:

<catalog-name>: naam voor de catalogus in Azure Databricks.
<connection-name>: het verbindingsobject waarmee de gegevensbron, het pad en de toegangsreferenties worden opgegeven.
<database-name>: de naam van de database die u wilt spiegelen als catalogus in Azure Databricks.

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

Ondersteunde pushdowns

De volgende pushdowns worden ondersteund:

Filters
Projecties
Grens
Samenvoegingen
Aggregaties (gemiddelde, aantal, max, min, stddevPop, StddevSamp, som, variantiesamp)
Functies (tekenreeksfuncties en andere diverse functies, zoals Alias, Cast, SortOrder)
Sorteervolgorde

De volgende pushdowns worden niet ondersteund:

Windows-functies

Toewijzingen van gegevenstypen

Wanneer u van Redshift naar Spark leest, worden gegevenstypen als volgt toegewezen:

Redshift-type	Spark-type
numeriek	DecimalType
int2, int4	IntegerType
int8, oid, xid	LongType
float4	FloatType
dubbele precisie, float8, geld	DoubleType
bpchar, char, character varying, name, super, text, tid, varchar	StringType
bytea, geometrie, varbyte	BinaryType
bit, bool	BooleanType
datum	DateType
tabstime, time, time with time zone, timetz, time without time zone, timestamp with time zone, timestamp, timestamptz, timestamptz, timestamp without time zone*	TimestampType/TimestampNTZType

*Wanneer u vanuit Redshift leest, wordt Redshift Timestamp toegewezen aan Spark TimestampType als infer_timestamp_ntz_type = false (standaard). Redshift Timestamp wordt toegewezen aan TimestampNTZType if infer_timestamp_ntz_type = true.

Delen via

Federatieve query's uitvoeren op Amazon Redshift

Voordat u begint

Een verbinding maken

Catalogusverkenner

SQL

Een buitenlandse catalogus maken

Catalogusverkenner

SQL

Ondersteunde pushdowns

Toewijzingen van gegevenstypen

Feedback

Aanvullende resources