Freigeben über


Verwenden eines externen Hive-Metastores für Azure Synapse Spark-Pool

Hinweis

Externe Hive-Metastores werden in Versionen nach Azure Synapse Runtime für Apache Spark 3.4 in Synapse nicht mehr unterstützt.

Azure Synapse Analytics ermöglicht es Apache Spark-Pools im selben Arbeitsbereich, einen verwalteten HMS-kompatiblen Metastore (Hive Metastore) als ihren Katalog freizugeben. Wenn Kunden die Metadaten des Hive-Katalogs außerhalb des Arbeitsbereichs beibehalten und Katalogobjekte für andere Compute-Engines außerhalb des Arbeitsbereichs freigeben möchten, z. B. HDInsight und Azure Databricks, können sie eine Verbindung mit einem externen Hive-Metastore herstellen. In diesem Artikel erfahren Sie, wie man Synapse Spark mit einem externen Apache Hive Metastore verbindet.

Unterstützte Hive-Metastore-Versionen

Das Feature funktioniert mit Spark 3.3. Die folgende Tabelle zeigt die unterstützten Hive-Metastore-Versionen für jede Spark-Version.

Spark-Version HMS 2.3.x HMS 3.1.X
3.3 Ja Ja
3.4 Ja Ja

Einrichten eines verknüpften Diensts für den Hive-Metastore

Hinweis

Nur Azure SQL-Datenbank und Azure Database for MySQL werden als externe Hive-Metastores unterstützt. Die Authentifizierung mit SQL-Benutzername/Kennwort wird für beide Arten von Datenbanken unterstützt. Darüber hinaus wird die Authentifizierung mit verwalteter Identität (einschließlich der systemseitig und der benutzerseitig zugewiesenen Identität) nur für Azure SQL-Datenbank und Spark 3.4 unterstützt. Wenn die bereitgestellte Datenbank leer ist, können Sie sie über das Hive-Schematool bereitstellen, um ein Datenbankschema zu erstellen.

Führen Sie die folgenden Schritte aus, um einen verknüpften Dienst zum externen Hive-Metastore im Synapse-Arbeitsbereich einzurichten.

  1. Öffnen Sie Synapse Studio, navigieren Sie links zu „Verwalten“ > „Verknüpfte Dienste“, und klicken Sie dann auf Neu, um einen neuen verknüpften Dienst zu erstellen.

    Screenshot: Einrichten eines verknüpften Diensts für den Hive-Metastore

  2. Wählen Sie Azure SQL-Datenbank aus, und klicken Sie auf Weiter.

  3. Geben Sie den Namen des verknüpften Dienstes an. Notiere Sie sich den Namen des verknüpften Dienstes. Diese Informationen werden in Kürze zum Konfigurieren von Spark verwendet.

  4. Wählen Sie Legacyversion und dann Verbindungszeichenfolge aus.

  5. Wählen Sie entweder Azure SQL-Datenbank für den externen Hive-Metastore aus der Azure-Abonnementliste aus, oder geben Sie die Informationen manuell ein.

  6. Legen Sie Authentifizierungstyp auf SQL Authentication, System-assigned managed identity oder User-assigned managed identity fest. Geben Sie für SQL Authentication Benutzernamen und Kennwort an, um die Verbindung einzurichten. Für System-assigned managed identity füllt die Seite automatisch die dem aktuellen Arbeitsbereich zugeordnete Verwaltungsidentität auf. Wählen Sie für User-assigned managed identity Anmeldeinformationen aus, die an die benutzerseitig zugewiesene verwaltete Identität gebunden sind, oder erstellen Sie entsprechende Anmeldeinformationen.

  7. Wählen Sie Verbindung testen aus, um die Authentifizierung zu überprüfen.

  8. Klicken Sie auf Erstellen, um den verknüpften Dienst zu erstellen.