Orígenes de datos que se conectan a Data Map

Artículo
03/04/2025

En este artículo se enumeran los orígenes de datos, los tipos de archivo y los conceptos de examen admitidos en Mapa de datos de Microsoft Purview.

Lista de orígenes de datos por tipo

En las tablas siguientes se muestran todos los orígenes de datos que tienen metadatos técnicos disponibles en Mapa de datos de Microsoft Purview, junto con otras funcionalidades admitidas. Seleccione un nombre de origen de datos en la columna Origen de datos para obtener instrucciones sobre cómo conectar ese origen a Data Map.

Microsoft Azure
Base de datos
Archivo
Servicios y aplicaciones

Azure

Los recursos de Azure solo están disponibles en el mismo inquilino que la cuenta de Microsoft Purview, a menos que se indique lo contrario en la página de cada origen de datos.

Origen de datos	Puede aplicar automáticamente las clasificaciones.	Puede aplicar etiquetas de confidencialidad a los recursos de Mapa de datos	Puede aplicar directivas	Linaje de datos	Accesible en la vista en vivo
Seleccione el vínculo para obtener instrucciones de conexión y examen.	Seleccione Sí para ver las instrucciones de examen. Obtenga información sobre cómo se aplican las clasificaciones durante el examen.	Obtenga información sobre el etiquetado de confidencialidad (versión preliminar).	Seleccione Sí para ver las directivas admitidas; por ejemplo, el propietario de datos, el acceso de autoservicio o la protección.	Seleccione Sí para obtener más información.	Obtenga información sobre la vista en vivo.
Varios orígenes	Sí	Dependiente del origen	Sí	No	Limitado
Azure Blob Storage	Sí	Sí	Sí (versión preliminar)	Limitado*	Yes
Azure Cosmos DB (API for NoSQL)	Sí	No	No	No*	No
Azure Data Explorer	Sí	No	No	No*	No
Azure Data Factory	No	No	No	Sí	No
Azure Data Lake Storage Gen2	Sí	Sí	Sí (versión preliminar)	Limitado*	Yes
Azure Data Share	No	No	No	Sí	No
Azure Database for MySQL	Sí	No	No	No*	No
Azure Database for PostgreSQL	Sí	No	No	No*	No
Azure Databricks Hive Metastore	No	No	No	Sí	No
Unity Catalog para Azure Databricks	Sí	No	No	No	No
Grupo de Azure Dedicated SQL (anteriormente SQL DW)	Sí	No	No	No*	No
Azure Files	Sí	Sí	No	Limitado*	No
Azure Machine Learning	No	No	No	Sí	No
Base de datos SQL de Azure	Sí	Sí	Sí	Sí (versión preliminar)	Yes
Azure SQL Managed Instance	Sí	No	Sí	No*	No
Azure Synapse Analytics (área de trabajo)	Sí	No	No	Sí: canalizaciones de Synapse	No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

Base de datos

Origen de datos	Puede aplicar automáticamente las clasificaciones.	Puede aplicar etiquetas de confidencialidad a los recursos de Mapa de datos	Puede aplicar directivas	Linaje de datos	Accesible en la vista en vivo
Seleccione el vínculo para obtener instrucciones de conexión y examen.	Seleccione Sí para ver las instrucciones de examen. Obtenga información sobre cómo se aplican las clasificaciones durante el examen.	Obtenga información sobre el etiquetado de confidencialidad (versión preliminar).	Seleccione Sí para ver las directivas admitidas; por ejemplo, el propietario de datos, el acceso de autoservicio o la protección.	Seleccione Sí para obtener más información.	Obtenga información sobre la vista en vivo.
Amazon RDS	Sí	No	No	No	No
Amazon Redshift	No	No	No	No	No
Cassandra	No	No	No	Sí	No
Db2	No	No	No	Sí	No
Google BigQuery	No	No	No	Sí	No
Base de datos de metastore de Hive	No	No	No	Sí*	No
MongoDB	No	No	No	No	No
MySQL	No	No	No	Sí	No
Oracle	Sí	No	No	Sí*	No
PostgreSQL	No	No	No	Sí	No
Almacenamiento de datos empresarial SAP	No	No	No	No	No
SAP HANA	No	No	No	No	No
Copo de nieve	Sí	No	No	Sí	No
SQL Server	Sí	No	No	No*	No
SQL Server en Azure-Arc	Sí	No	Sí	No*	No
Teradata	Sí	No	No	Sí*	No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

Archivo

Origen de datos	Puede aplicar automáticamente las clasificaciones.	Puede aplicar etiquetas de confidencialidad a los recursos de Mapa de datos	Puede aplicar directivas	Linaje de datos	Accesible en la vista en vivo
Seleccione el vínculo para obtener instrucciones de conexión y examen.	Seleccione Sí para ver las instrucciones de examen. Obtenga información sobre cómo se aplican las clasificaciones durante el examen.	Obtenga información sobre el etiquetado de confidencialidad (versión preliminar).	Seleccione Sí para ver las directivas admitidas; por ejemplo, el propietario de datos, el acceso de autoservicio o la protección.	Seleccione Sí para obtener más información.	Obtenga información sobre la vista en vivo.
Amazon S3	Sí	No	No	Limitado*	No
Sistema de archivos distribuido de Hadoop (HDFS)	Sí	No	No	No	No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

Servicios y aplicaciones

Origen de datos	Puede aplicar automáticamente las clasificaciones.	Puede aplicar etiquetas de confidencialidad a los recursos de Mapa de datos	Puede aplicar directivas	Linaje de datos	Accesible en la vista en vivo
Seleccione el vínculo para obtener instrucciones de conexión y examen.	Seleccione Sí para ver las instrucciones de examen. Obtenga información sobre cómo se aplican las clasificaciones durante el examen.	Obtenga información sobre el etiquetado de confidencialidad (versión preliminar).	Seleccione Sí para ver las directivas admitidas; por ejemplo, el propietario de datos, el acceso de autoservicio o la protección.	Seleccione Sí para obtener más información.	Obtenga información sobre la vista en vivo.
Corriente de aire	No	No	No	Sí	No
Dataverse	Sí	No	No	No	No
Erwin	No	No	No	Sí	No
Tejido	No	No	No	Sí	Sí
Looker	No	No	No	Sí	No
Power BI	No	No	No	Sí	Sí**
Sensor Qlik	No	No	No	No	No
Salesforce	No	No	No	No	No
SAP ECC	No	No	No	Sí*	No
SAP S/4HANA	No	No	No	Sí*	No
Tableau	No	No	No	No	No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

** Los elementos de Power BI de un inquilino de Fabric están disponibles mediante la vista en vivo.

Nota:

Actualmente, el Mapa de datos de Microsoft Purview no puede examinar un recurso que tenga /, \o # en su nombre. Para limitar el examen y evitar el examen de recursos que tengan esos caracteres en el nombre del recurso, use el ejemplo de Registro y examen de una base de datos de Azure SQL.

Importante

Si tiene previsto usar un entorno de ejecución de integración autohospedado, el examen de algunos orígenes de datos requiere una configuración adicional en la máquina de Integration Runtime autohospedada. Por ejemplo, JDK, Visual C++ Redistributable o controlador específico. Para el origen, consulte cada artículo de origen para obtener detalles de requisitos previos. Los requisitos se enumeran en la sección Requisitos previos .

Regiones del analizador de Mapa de datos

A continuación se muestra una lista de todas las regiones del origen de datos (centro de datos) de Azure donde se ejecuta el analizador de Mapa de datos de Microsoft Purview. Si el origen de datos de Azure está en una región fuera de esta lista, el analizador se ejecutará en la región de la instancia de Microsoft Purview.

Este de Australia
Sureste de Australia
Sur de Brasil
Centro de Canadá
Este de Canadá
Centro de India
Norte de China 3
Asia Oriental
Este de EE. UU.
Este de EE. UU. 2
Centro de Francia
Alemania Central Occidental
Este de Japón
Centro de Corea
Centro y norte de EE. UU.
Norte de Europa
Centro de Qatar
Norte de Sudáfrica
Centro y Sur de EE. UU.
Sudeste de Asia
Norte de Suiza
Norte de Emiratos Árabes Unidos
Sur de Reino Unido
USGov Virginia
Centro oeste de EE. UU.
Oeste de Europa
Oeste de EE. UU.
Oeste de EE. UU. 2
Oeste de EE. UU. 3

Tipos de archivo admitidos para el examen

Los tipos de archivo que se enumeran a continuación son compatibles con el examen, la extracción de esquemas y la clasificación cuando corresponda. Además, Data Map admite extensiones de archivo personalizadas y analizadores personalizados.

Los formatos de archivo estructurados admitidos por la extensión incluyen el examen, la extracción de esquemas y la clasificación de nivel de activos y columnas:

AVRO
CSV
GZIP
JSON
ORCO
PARQUET
PSV
SSV
TSV
TXT
XML

Los formatos de archivo de documento admitidos por la extensión incluyen el examen y la clasificación de nivel de recurso:

DOC
DOCM
DOCX
PUNTO
ODP
ODS
ODT
PDF
OLLA
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

Nota:

Limitaciones conocidas:

El analizador de Mapa de datos de Microsoft Purview solo admite la extracción de esquemas para los tipos de archivo estructurados enumerados anteriormente.
Para los tipos de archivo AVRO, ORC y PARQUET, el analizador no admite la extracción de esquemas para los archivos que contienen tipos de datos complejos (por ejemplo, MAP, LIST, STRUCT).
El escáner admite el análisis de tipos PARQUET comprimidos de forma ágil para la extracción y clasificación de esquemas.
Para los tipos de archivo GZIP, el GZIP debe asignarse a un único archivo CSV dentro de . Los archivos Gzip están sujetos a las reglas de clasificación personalizada y del sistema. Actualmente no se admite el examen de un archivo gzip asignado a varios archivos dentro o a cualquier tipo de archivo que no sea csv.
Para tipos de archivo delimitados (CSV, PSV, SSV, TSV, TXT)::
- Los archivos delimitados con solo 1 columna no se pueden determinar como archivos CSV y no tendrán ningún esquema.
- No se admite la detección de tipos de datos. El tipo de datos se mostrará como "cadena" para todas las columnas.
- Solo se admiten coma(','), punto y coma(';'), barra vertical('|') y tab('\t') como delimitadores.
- No se puede determinar que los archivos delimitados con menos de tres filas sean archivos CSV si usan un delimitador personalizado. Por ejemplo: los archivos con ~ delimitador y menos de tres filas no podrán determinarse como archivos CSV.
- Si un campo contiene comillas dobles, las comillas dobles solo pueden aparecer al principio y al final del campo y deben coincidir. Las comillas dobles que aparecen en el centro del campo o que aparecen al principio y al final, pero que no coinciden, se reconocerán como datos incorrectos y no se analizará ningún esquema desde el archivo. Las filas que tienen un número diferente de columnas que la fila de encabezado se considerarán filas de error. (números de filas de error o números de filas muestreadas) debe ser menor que 0,1.
En el caso de los archivos Parquet, si usa un entorno de ejecución de integración autohospedado, debe instalar JRE 11 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Consulte nuestra sección Java Runtime Environment (Entorno de tiempo de ejecución de Java) en la parte inferior de la página para obtener una guía de instalación.
Actualmente no se admite el formato delta. Si examina el formato delta directamente desde el origen de datos de almacenamiento como Azure Data Lake Storage (ADLS Gen2), el conjunto de archivos parquet del formato delta se analizará y controlará como conjunto de recursos, tal como se describe en Descripción de los conjuntos de recursos. Además de las columnas usadas para la creación de particiones, no se reconocerán como parte del esquema del conjunto de recursos.

Extracción de esquemas

En el caso de los orígenes de datos que admiten la extracción de esquemas durante el examen, el esquema de recursos no se truncará directamente por el número de columnas.

Datos anidados

Los datos anidados solo se admiten para el contenido JSON. Para todos los tipos de archivo admitidos por el sistema, si hay contenido JSON anidado en una columna, el analizador analiza los datos JSON anidados y los expone dentro de la pestaña esquema del recurso.

Los datos anidados o el análisis de esquemas anidados no se admiten en SQL. Una columna con datos anidados se notificará y clasificará tal cual, y los subdatos no se analizarán.

Datos de muestreo para la clasificación

En terminología del mapa de datos,

Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo
Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.

Obtenga más información sobre la personalización de los niveles de examen.

Para todos los formatos de archivo estructurados, el Mapa de datos de Microsoft Purview los archivos de ejemplo del escáner de la siguiente manera:

En el caso de los tipos de archivo estructurados, muestra las 128 filas principales de cada columna o los primeros 1 MB, lo que sea menor.
En el caso de los formatos de archivo de documento, muestra los primeros 20 MB de cada archivo.
- Si un archivo de documento es mayor que 20 MB, no está sujeto a un examen profundo (sujeto a clasificación). En ese caso, Microsoft Purview captura solo metadatos básicos, como el nombre de archivo y el nombre completo.
En el caso de los orígenes de datos tabulares (SQL), muestra las 128 primeras filas.
Para Azure Cosmos DB for NoSQL, se recopilarán hasta 300 propiedades distintas de los 10 primeros documentos de un contenedor para el esquema y, para cada propiedad, se muestrearán valores de hasta 128 documentos o los primeros 1 MB.

Muestreo de archivos del conjunto de recursos

Se detecta una carpeta o un grupo de archivos de partición como un conjunto de recursos en el Mapa de datos de Microsoft Purview si coincide con una directiva de conjunto de recursos del sistema o una directiva de conjunto de recursos definida por el cliente. Si se detecta un conjunto de recursos, el analizador muestra cada carpeta que contiene. Obtenga más información sobre los conjuntos de recursos aquí.

Muestreo de archivos para conjuntos de recursos por tipos de archivo:

Archivos delimitados (CSV, PSV, SSV, TSV): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
Tipos de archivo de Data Lake (Parquet, Avro, Orc): 1 en 18446744073709551615 (máximo largo) se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
Otros tipos de archivos estructurados (JSON, XML, TXT): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos".
Objetos SQL y entidades de Azure Cosmos DB : se examina cada archivo L3.
Tipos de archivo de documento: cada archivo se examina con L3. Los patrones de conjunto de recursos no se aplican a estos tipos de archivo.

Compartir a través de

Orígenes de datos que se conectan a Data Map

Lista de orígenes de datos por tipo

Azure

Base de datos

Archivo

Servicios y aplicaciones

Regiones del analizador de Mapa de datos

Tipos de archivo admitidos para el examen

Extracción de esquemas

Datos anidados

Datos de muestreo para la clasificación

Muestreo de archivos del conjunto de recursos

Pasos siguientes

Comentarios

Recursos adicionales