Configuración del catálogo de Delta Lake
Nota:
Retiraremos Azure HDInsight en AKS el 31 de enero de 2025. Antes del 31 de enero de 2025, deberá migrar las cargas de trabajo a Microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo. Los clústeres restantes de la suscripción se detendrán y quitarán del host.
Solo el soporte técnico básico estará disponible hasta la fecha de retirada.
Importante
Esta funcionalidad actualmente está en su versión preliminar. En Términos de uso complementarios para las versiones preliminares de Microsoft Azure encontrará más términos legales que se aplican a las características de Azure que están en versión beta, en versión preliminar, o que todavía no se han lanzado con disponibilidad general. Para más información sobre esta versión preliminar específica, consulte la Información de Azure HDInsight sobre la versión preliminar de AKS. Para plantear preguntas o sugerencias sobre la característica, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.
En este artículo se proporciona información general sobre cómo configurar el catálogo de Delta Lake en el clúster de Trino con HDInsight en AKS. Puede agregar un nuevo catálogo actualizando la plantilla de ARM del clúster, excepto el catálogo de Hive, que puede agregar durante la creación de clústeres de Trino en Azure Portal.
Requisitos previos
Pasos para configurar el catálogo de Delta Lake
Configure la metastore de Hive para las definiciones de tabla y las ubicaciones si no tiene ya configurado una metastore.
Configure la base de datos de la metastore externa de Hive y el directorio de almacenamiento predeterminado en
config.properties
archivo (más información sobre configuración de Trino):"serviceConfigsProfiles": [ { "serviceName": "trino", "configs": [ { "component": "common", "files": [ { "fileName": "config.properties", "values": { "hive.metastore.hdi.metastoreDbConnectionURL": "jdbc:sqlserver://{{DATABASE_SERVER}}.database.windows.net;database={{DATABASE_NAME}};encrypt=true;trustServerCertificate=true;create=false;loginTimeout=30", "hive.metastore.hdi.metastoreDbConnectionUserName": "{{DATABASE_USER_NAME}}", "hive.metastore.hdi.metastoreDbConnectionPasswordSecret": "{{SECRET_REFERENCE_NAME}}", "hive.metastore.hdi.metastoreWarehouseDir": "abfs://{{AZURE_STORAGE_CONTAINER}}@{{AZURE_STORAGE_ACCOUNT_NAME}}.dfs.core.windows.net/hive/warehouse" } } ] } ] } ] "secretsProfile": { "keyVaultResourceId": "/subscriptions/{USER_SUBSCRIPTION_ID}/resourceGroups/{USER_RESOURCE_GROUP}/providers/Microsoft.KeyVault/vaults/{USER_KEYVAULT_NAME}", "secrets": [ { "referenceName": "{{SECRET_REFERENCE_NAME}}", "type": "Secret", "keyVaultObjectName": "myCredSecret" } ] },
Nota:
referenceName
debe coincidir con el valor proporcionado enhive.metastore.hdi.metastoreDbConnectionPasswordSecret
Actualice la plantilla de ARM del clúster para agregar un nuevo archivo de configuración de catálogo de Delta Lake. Esta configuración debe definirse en
serviceConfigsProfiles
enclusterProfile
propiedad de la plantilla de ARM.Propiedad Valor Descripción fileName delta.properties Nombre del archivo de catálogo. Si el archivo se denomina delta.properties, delta
se convierte en el nombre del catálogo.connector.name delta_lake El tipo de catálogo. Para Delta Lake, el tipo de catálogo debe ser delta_lake
hive.metastore hdi Tipo de metastore de hive que se va a usar para este catálogo. Escriba hdi
, indica al clúster que use el servicio metastore de Hive en clúster, configurado anteriormente.delta.register-table-procedure.enabled true Necesario para permitir que se registren tablas externas. Consulte documentación de Trino para ver otras opciones de configuración de Delta Lake.
"serviceConfigsProfiles": [ { "serviceName": "trino", "configs": [ { "component": "catalogs", "files": [ { "fileName": "delta.properties", "values": { "connector.name": "delta_lake", "hive.metastore": "hdi", "delta.register-table-procedure.enabled": "true" } } ] ...
Asigne el rol
Storage Blob Data Owner
a la MSI asignada por el usuario del clúster en la cuenta de almacenamiento que contiene las tablas de Delta. Aprenda a asignar un rol.- El nombre de MSI asignado por el usuario aparece en la propiedad
msiResourceId
en el JSON del recurso del clúster.
- El nombre de MSI asignado por el usuario aparece en la propiedad
Implemente la plantilla de ARM actualizada para reflejar los cambios en el clúster. Obtenga información sobre cómo implementar una plantilla de ARM.
Una vez implementado correctamente, puede ver el catálogo "delta" en el clúster de Trino.
Pasos siguientes
Lectura de tablas de Delta Lakes (Synapse o ubicación externa)