Partilhar via


Configurar catálogo Delta Lake

Importante

O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais através deste anúncio.

Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam a características do Azure que estão em versão beta, em pré-visualização ou ainda não lançadas ao público em geral. Para obter informações sobre essa visualização específica, consulte Azure HDInsight no AKS informações de visualização. Para perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para obter mais atualizações sobre da Comunidade do Azure HDInsight.

Este artigo fornece uma visão geral de como configurar o catálogo Delta Lake em seu cluster Trino com o HDInsight no AKS. Você pode adicionar um novo catálogo atualizando seu modelo ARM de cluster, exceto o catálogo hive, que pode ser adicionado durante de criação de cluster Trino no portal do Azure.

Pré-requisitos

Etapas para configurar o catálogo Delta Lake

  1. Configure o de metastore do Hive para definições de tabela e locais se você não tiver um metastore já configurado.

    Configure a base de dados externa do metastore do Hive e o diretório de armazenamento padrão no arquivo config.properties (mais informações sobre a configuração do Trino em).

    "serviceConfigsProfiles": [
        {
            "serviceName": "trino",
            "configs": [
                {
                    "component": "common",
                    "files": [
                        {
                            "fileName": "config.properties",
                            "values": {
                                "hive.metastore.hdi.metastoreDbConnectionURL": "jdbc:sqlserver://{{DATABASE_SERVER}}.database.windows.net;database={{DATABASE_NAME}};encrypt=true;trustServerCertificate=true;create=false;loginTimeout=30",
                                "hive.metastore.hdi.metastoreDbConnectionUserName": "{{DATABASE_USER_NAME}}",
                                "hive.metastore.hdi.metastoreDbConnectionPasswordSecret": "{{SECRET_REFERENCE_NAME}}",
                                "hive.metastore.hdi.metastoreWarehouseDir": "abfs://{{AZURE_STORAGE_CONTAINER}}@{{AZURE_STORAGE_ACCOUNT_NAME}}.dfs.core.windows.net/hive/warehouse"
                            }
                        }
                    ]
                }
            ]
        }
    ]
    "secretsProfile": {
            "keyVaultResourceId": "/subscriptions/{USER_SUBSCRIPTION_ID}/resourceGroups/{USER_RESOURCE_GROUP}/providers/Microsoft.KeyVault/vaults/{USER_KEYVAULT_NAME}",
            "secrets": [
                {
                    "referenceName": "{{SECRET_REFERENCE_NAME}}",
                    "type": "Secret",
                    "keyVaultObjectName": "myCredSecret"
                }                        ]
        },
    

    Observação

    referenceName deve corresponder ao valor fornecido em hive.metastore.hdi.metastoreDbConnectionPasswordSecret

  2. Atualize seu modelo ARM de cluster para adicionar um novo arquivo de configuração do catálogo Delta Lake. Esta configuração precisa ser definida em serviceConfigsProfiles sob a propriedade clusterProfile do modelo ARM.

    Propriedade Valor Descrição
    nome_do_arquivo delta.propriedades Nome do arquivo de catálogo. Se o arquivo for chamado delta.properties, delta se tornará o nome do catálogo.
    conector.nome delta_lake O tipo do catálogo. Para Delta Lake, o tipo de catálogo deve ser delta_lake
    hive.metastore IDH Tipo de metastore hive a ser usado para este catálogo. Digite hdi, para instruir o cluster a usar o serviço Hive Metastore integrado, conforme configurado acima.
    delta.register-table-procedure.enabled verdadeiro Necessário para permitir que tabelas externas sejam registradas.

    Consulte a documentação do Trino para outras opções de configuração do lago Delta.

    "serviceConfigsProfiles": [
    {
        "serviceName": "trino",
        "configs": [
            {
                "component": "catalogs",
                "files": [
                            {
                                "fileName": "delta.properties",
                                "values": {
                                    "connector.name": "delta_lake",
                                    "hive.metastore": "hdi",
                                    "delta.register-table-procedure.enabled": "true"
                                }
                            }
       ]
    
    ...
    
  3. Atribua a função Storage Blob Data Owner ao MSI atribuído pelo usuário do cluster na conta de armazenamento que contém as tabelas delta. Saiba como atribuir uma função.

    • O nome MSI atribuído pelo utilizador é listado na propriedade msiResourceId no JSON de recursos do cluster.

Implante o modelo ARM atualizado para refletir as alterações no cluster. Saiba como implantar um modelo ARM.
Concluída a implementação com sucesso, pode-se ver o catálogo "delta" no seu cluster Trino.

Próximos passos

Ler tabelas Delta Lakes (Sinapse ou Localização Externa)