Actualice un origen de datos Common Data Model para usar tablas delta
Actualice una conexión de datos existente con tablas del modelo de datos común y pase a tablas con formato Delta sin eliminar ni volver a crear una configuración existente que dependa de la conexión de datos.
Razones clave para conectarse a datos almacenados en formato Delta:
- Importe directamente datos formateados en Delta para ahorrar tiempo y esfuerzo.
- Elimine los costos de computación y almacenamiento asociados con la transformación y el almacenamiento de una copia de los datos de su lago.
- Mejora automáticamente la fiabilidad de la ingesta de datos a Customer Insights - Data proporcionada por el control de versiones Delta.
Delta es un término introducido con Delta Lake, la base para almacenar datos y tablas en Databricks Lakehouse Platform. Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones ACID (atomicidad, coherencia, aislamiento y durabilidad) a cargas de trabajo de big data. Para obtener más información, consulte la página de la documentación de Delta Lake.
Requisitos previos
Azure Data Lake Storage debe estar en el mismo inquilino y región de Azure que Customer Insights - Data.
Para conectar con un almacenamiento protegido por cortafuegos, Configurar vínculos privados de Azure Private.
La entidad de seguridad de Customer Insights - Data debe tener permisos de Colaborador de datos de Storage Blob para acceder a la cuenta de almacenamiento. Para más información, consulte Otorgar permisos a la entidad de servicio para acceder a la cuenta de almacenamiento.
El usuario que configura o actualiza el origen de datos necesita al menos permisos de Storage Blob Data Lector en la cuenta Azure Data Lake Storage.
Los datos almacenados en servicios en línea pueden almacenarse en una ubicación diferente a la que se procesan o almacenan. Al importar datos almacenados en servicios en línea, o conectarse a ellos, acepta que los datos pueden transferirse y almacenarse. Obtenga más información en el Centro de confianza de Microsoft.
Customer Insights - Data admite Databricks Lector versión 2. No se admiten las tablas delta que usan características que requieren Databricks Lector versión 3 o superior. Más información: Características de Databricks compatibles.
Las tablas Delta deben estar en una carpeta en el contenedor de almacenamiento y no pueden estar en el directorio raíz del contenedor. Por ejemplo:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
Las tablas Delta y su esquema deben coincidir con en el origen de datos de Common Data Model existente y estar en el mismo contenedor de almacenamiento. Las tablas de la nueva carpeta de datos deben coincidir exactamente con las tablas seleccionadas en el origen de datos del Common Data Model. Los nombres de las tablas y sus esquemas deben coincidir exactamente. En Delta, los nombres de las tablas son los mismos que el nombre de la carpeta donde se almacenan los datos. Por lo tanto, los nombres de las carpetas deben coincidir exactamente con las tablas seleccionadas en el origen de datos del Common Data Model. De lo contrario, podría producirse un error de actualización.
Por ejemplo, si las tablas de origen de datos de Common Data Model seleccionadas son Table1 y Table2, la carpeta que elija para la actualización debe mostrar Table1 y Table2 en la jerarquía.
storageaccountroot/ DeltaDataRoot/ Table1/ Table2/
Actualizar tablas de datos de Common Data Model para usar tablas Delta
Vaya a Datos>Orígenes de datos.
Seleccione el origen de datos de Azure Data Lake Common Data Model y luego seleccione Actualizar a tablas Delta. O seleccione Comenzar actualización en la página Agregar tablas si está editando el origen de datos de Common Data Model.
Seleccione Navegar y vaya hasta la carpeta que contiene los datos en formato Delta y que coinciden exactamente con la tabla de origen de datos de Azure Data Lake seleccionada. Selecciónelo y luego elija Actualizar origen de datos.
La página Orígenes de datos se abre y muestra el nuevo origen de datos en estado Actualizando.
Importante
No detenga el proceso de actualización, ya que podría afectar negativamente la actualización del origen de datos.
Propina
Existen estados para tareas y procesos. La mayoría de los procesos dependen de otros procesos ascendentes, como las fuentes de datos y actualizaciones de perfiles de datos.
Seleccione el estado para abrir el panel Detalles de progreso y vea el progreso de las tareas. Para cancelar el trabajo, seleccione Cancelar trabajo en la parte inferior del panel.
En cada tarea, puede seleccionar Ver detalles para obtener más información sobre el progreso, como el tiempo de procesamiento, la fecha del último procesamiento y los errores y advertencias aplicables asociados con la tarea o el proceso. Seleccione Ver el estado del sistema en la parte inferior del panel para ver otros procesos en el sistema.
Le recomendamos que continúe transmitiendo sus datos a la ubicación de Data Lake Storage a través de su canalización existente y mantenga los manifiestos y esquemas hasta que determine que la actualización fue exitosa y que todo funciona como se esperaba.
Revertir la conversión de tablas del Common Data Model común a tablas delta
Si ha intentado actualizar un origen de datos de Azure Data Lake Common Data Model a tablas Delta y el proceso falla, haga los siguientes pasos.
Requisitos previos
- Su organización ha seguido transmitiendo los datos de Data Lake Storage a través de su canalización.
- Su organización ha mantenido los manifiestos y esquemas de Data Lake Storage.
Volver a un origen de datos Azure Data Lake Common Data Model
Vaya a Datos>Orígenes de datos.
Seleccione el origen de datos de Azure Data Lake Common Data Model y luego seleccione Volver a tablas Common Data Model.
Confirme que quiere revertir. La página Orígenes de datos se abre y muestra el nuevo origen de datos en estado Actualizando.
Importante
No detenga el proceso de actualización, ya que podría afectar negativamente a la reversión del origen de datos.