Udostępnij za pośrednictwem


Konfigurowanie wykazu usługi Delta Lake

Uwaga

Wycofamy usługę Azure HDInsight w usłudze AKS 31 stycznia 2025 r. Przed 31 stycznia 2025 r. należy przeprowadzić migrację obciążeń do usługi Microsoft Fabric lub równoważnego produktu platformy Azure, aby uniknąć nagłego zakończenia obciążeń. Pozostałe klastry w ramach subskrypcji zostaną zatrzymane i usunięte z hosta.

Tylko podstawowa pomoc techniczna będzie dostępna do daty wycofania.

Ważne

Ta funkcja jest aktualnie dostępna jako funkcja podglądu. Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure obejmują więcej warunków prawnych, które dotyczą funkcji platformy Azure, które znajdują się w wersji beta, w wersji zapoznawczej lub w inny sposób nie zostały jeszcze wydane w wersji ogólnodostępnej. Aby uzyskać informacje o tej konkretnej wersji zapoznawczej, zobacz Informacje o wersji zapoznawczej usługi Azure HDInsight w usłudze AKS. W przypadku pytań lub sugestii dotyczących funkcji prześlij żądanie w usłudze AskHDInsight , aby uzyskać szczegółowe informacje i postępuj zgodnie z nami, aby uzyskać więcej aktualizacji w społeczności usługi Azure HDInsight.

Ten artykuł zawiera omówienie sposobu konfigurowania wykazu usługi Delta Lake w klastrze Trino za pomocą usługi HDInsight w usłudze AKS. Nowy wykaz można dodać, aktualizując szablon usługi ARM klastra z wyjątkiem katalogu hive, który można dodać podczas tworzenia klastra Trino w witrynie Azure Portal.

Wymagania wstępne

Kroki konfigurowania wykazu usługi Delta Lake

  1. Skonfiguruj magazyn metadanych Hive dla definicji tabel i lokalizacji, jeśli nie masz już skonfigurowanego magazynu metadanych.

    Konfigurowanie zewnętrznej bazy danych magazynu metadanych Hive i domyślnego katalogu magazynu w config.properties pliku (więcej informacji na temat konfiguracji Trino):

    "serviceConfigsProfiles": [
        {
            "serviceName": "trino",
            "configs": [
                {
                    "component": "common",
                    "files": [
                        {
                            "fileName": "config.properties",
                            "values": {
                                "hive.metastore.hdi.metastoreDbConnectionURL": "jdbc:sqlserver://{{DATABASE_SERVER}}.database.windows.net;database={{DATABASE_NAME}};encrypt=true;trustServerCertificate=true;create=false;loginTimeout=30",
                                "hive.metastore.hdi.metastoreDbConnectionUserName": "{{DATABASE_USER_NAME}}",
                                "hive.metastore.hdi.metastoreDbConnectionPasswordSecret": "{{SECRET_REFERENCE_NAME}}",
                                "hive.metastore.hdi.metastoreWarehouseDir": "abfs://{{AZURE_STORAGE_CONTAINER}}@{{AZURE_STORAGE_ACCOUNT_NAME}}.dfs.core.windows.net/hive/warehouse"
                            }
                        }
                    ]
                }
            ]
        }
    ]
    "secretsProfile": {
            "keyVaultResourceId": "/subscriptions/{USER_SUBSCRIPTION_ID}/resourceGroups/{USER_RESOURCE_GROUP}/providers/Microsoft.KeyVault/vaults/{USER_KEYVAULT_NAME}",
            "secrets": [
                {
                    "referenceName": "{{SECRET_REFERENCE_NAME}}",
                    "type": "Secret",
                    "keyVaultObjectName": "myCredSecret"
                }                        ]
        },
    

    Uwaga

    referenceName powinna być zgodna z wartością podaną w hive.metastore.hdi.metastoreDbConnectionPasswordSecret

  2. Zaktualizuj szablon usługi ARM klastra, aby dodać nowy plik konfiguracji katalogu usługi Delta Lake. Ta konfiguracja musi być zdefiniowana we serviceConfigsProfiles clusterProfile właściwości szablonu usługi ARM.

    Właściwości Wartość Opis
    fileName delta.properties Nazwa pliku wykazu. Jeśli plik nosi nazwę delta.properties, delta staje się nazwą katalogu.
    connector.name delta_lake Typ wykazu. W przypadku usługi Delta Lake typ wykazu musi być delta_lake
    hive.metastore hdi Typ magazynu metadanych hive do użycia w tym wykazie. Wpisz hdi, instruuje klaster, aby używał usługi magazynu metadanych Hive w klastrze, skonfigurowanej powyżej.
    delta.register-table-procedure.enabled prawda Wymagane do umożliwienia rejestrowania tabel zewnętrznych.

    Zobacz dokumentację trino, aby zapoznać się z innymi opcjami konfiguracji usługi delta lake.

    "serviceConfigsProfiles": [
    {
        "serviceName": "trino",
        "configs": [
            {
                "component": "catalogs",
                "files": [
                            {
                                "fileName": "delta.properties",
                                "values": {
                                    "connector.name": "delta_lake",
                                    "hive.metastore": "hdi",
                                    "delta.register-table-procedure.enabled": "true"
                                }
                            }
       ]
    
    ...
    
  3. Przypisz rolę do przypisanej przez użytkownika tożsamości usługi zarządzanej klastra Storage Blob Data Owner na koncie magazynu zawierającym tabele różnicowe. Dowiedz się, jak przypisać rolę.

    • Nazwa tożsamości usługi zarządzanej msiResourceId przypisana przez użytkownika znajduje się we właściwości w formacie JSON zasobu klastra.

Wdróż zaktualizowany szablon usługi ARM, aby odzwierciedlić zmiany w klastrze. Dowiedz się, jak wdrożyć szablon usługi ARM.
Po pomyślnym wdrożeniu katalog "delta" będzie widoczny w klastrze Trino.

Następne kroki

Odczytywanie tabel usługi Delta Lake (Synapse lub Lokalizacja zewnętrzna)