Origini dati che si connettono alla mappa dati

Articolo
03/04/2025

Questo articolo elenca le origini dati, i tipi di file e i concetti di analisi supportati in Microsoft Purview Data Map.

Elenco di origini dati per tipo

Le tabelle seguenti mostrano tutte le origini dati con metadati tecnici disponibili in Microsoft Purview Data Map, insieme ad altre funzionalità supportate. Selezionare un nome dell'origine dati nella colonna Origine dati per istruzioni sulla connessione dell'origine al mapping dei dati.

Microsoft Azure
Database
File
Servizi e app

Azure

Le risorse di Azure sono disponibili solo nello stesso tenant dell'account Microsoft Purview, se non diversamente indicato nella pagina di ogni origine dati.

Origine dati	Può applicare automaticamente le classificazioni	Può applicare etichette di riservatezza agli asset di Mappa dati	Può applicare criteri	Derivazione dei dati	Accessibile in visualizzazione live
Selezionare il collegamento per le istruzioni di connessione e analisi.	Selezionare Sì per le istruzioni di analisi. Informazioni su come vengono applicate le classificazioni durante l'analisi.	Informazioni sull'etichettatura di riservatezza (anteprima).	Selezionare Sì per visualizzare i criteri supportati; ad esempio il proprietario dei dati, l'accesso self-service o la protezione.	Selezionare Sì per informazioni dettagliate.	Informazioni sulla visualizzazione dinamica.
Più origini	Sì	Dipendente dall'origine	Sì	No	Funzionalità limitata
Archiviazione BLOB di Azure	Sì	Sì	Sì (anteprima)	Limitato*	Sì
Azure Cosmos DB (API per NoSQL)	Sì	No	No	No*	No
Esplora dati di Azure	Sì	No	No	No*	No
Azure Data Factory	No	No	No	Sì	No
Azure Data Lake Storage Gen2	Sì	Sì	Sì (anteprima)	Limitato*	Sì
Azure Condivisione dati	No	No	No	Sì	No
Azure Database per MySQL	Sì	No	No	No*	No
Database di Azure per PostgreSQL	Sì	No	No	No*	No
Azure Databricks Hive Metastore	No	No	No	Sì	No
Catalogo Unity Azure Databricks	Sì	No	No	No	No
Pool SQL dedicato di Azure (in precedenza SQL Data Warehouse)	Sì	No	No	No*	No
File di Azure	Sì	Sì	No	Limitato*	No
Azure Machine Learning	No	No	No	Sì	No
database SQL di Azure	Sì	Sì	Sì	Sì (anteprima)	Sì
Istanza gestita di SQL di Azure	Sì	No	Sì	No*	No
Azure Synapse Analytics (area di lavoro)	Sì	No	No	Sì - Pipeline di Synapse	No

* Oltre alla derivazione sugli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

Database

Origine dati	Può applicare automaticamente le classificazioni	Può applicare etichette di riservatezza agli asset di Mappa dati	Può applicare criteri	Derivazione dei dati	Accessibile in visualizzazione live
Selezionare il collegamento per le istruzioni di connessione e analisi.	Selezionare Sì per le istruzioni di analisi. Informazioni su come vengono applicate le classificazioni durante l'analisi.	Informazioni sull'etichettatura di riservatezza (anteprima).	Selezionare Sì per visualizzare i criteri supportati; ad esempio il proprietario dei dati, l'accesso self-service o la protezione.	Selezionare Sì per informazioni dettagliate.	Informazioni sulla visualizzazione dinamica.
Amazon RDS	Sì	No	No	No	No
Amazon Redshift	No	No	No	No	No
Cassandra	No	No	No	Sì	No
Db2	No	No	No	Sì	No
Google BigQuery	No	No	No	Sì	No
Hive Metastore Database	No	No	No	Sì*	No
MongoDB	No	No	No	No	No
MySQL	No	No	No	Sì	No
Oracle	Sì	No	No	Sì*	No
PostgreSQL	No	No	No	Sì	No
SAP Business Warehouse	No	No	No	No	No
SAP HANA	No	No	No	No	No
Fiocco di neve	Sì	No	No	Sì	No
SQL Server	Sì	No	No	No*	No
SQL Server in Azure-Arc	Sì	No	Sì	No*	No
Teradata	Sì	No	No	Sì*	No

* Oltre alla derivazione sugli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

File

Origine dati	Può applicare automaticamente le classificazioni	Può applicare etichette di riservatezza agli asset di Mappa dati	Può applicare criteri	Derivazione dei dati	Accessibile in visualizzazione live
Selezionare il collegamento per le istruzioni di connessione e analisi.	Selezionare Sì per le istruzioni di analisi. Informazioni su come vengono applicate le classificazioni durante l'analisi.	Informazioni sull'etichettatura di riservatezza (anteprima).	Selezionare Sì per visualizzare i criteri supportati; ad esempio il proprietario dei dati, l'accesso self-service o la protezione.	Selezionare Sì per informazioni dettagliate.	Informazioni sulla visualizzazione dinamica.
Amazon S3	Sì	No	No	Limitato*	No
Hadoop Distributed File System (HDFS)	Sì	No	No	No	No

* Oltre alla derivazione sugli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

Servizi e app

Origine dati	Può applicare automaticamente le classificazioni	Può applicare etichette di riservatezza agli asset di Mappa dati	Può applicare criteri	Derivazione dei dati	Accessibile in visualizzazione live
Selezionare il collegamento per le istruzioni di connessione e analisi.	Selezionare Sì per le istruzioni di analisi. Informazioni su come vengono applicate le classificazioni durante l'analisi.	Informazioni sull'etichettatura di riservatezza (anteprima).	Selezionare Sì per visualizzare i criteri supportati; ad esempio il proprietario dei dati, l'accesso self-service o la protezione.	Selezionare Sì per informazioni dettagliate.	Informazioni sulla visualizzazione dinamica.
Flusso d' aria	No	No	No	Sì	No
Dataverse	Sì	No	No	No	No
Erwin	No	No	No	Sì	No
Tessuto	No	No	No	Sì	Sì
Looker	No	No	No	Sì	No
Power BI	No	No	No	Sì	Sì**
Qlik Sense	No	No	No	No	No
Salesforce	No	No	No	No	No
SAP ECC	No	No	No	Sì*	No
SAP S/4HANA	No	No	No	Sì*	No
Tableau	No	No	No	No	No

* Oltre alla derivazione sugli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

** Gli elementi di Power BI in un tenant di Fabric sono disponibili tramite la visualizzazione dinamica.

Nota

Attualmente, il Microsoft Purview Data Map non può analizzare un asset con /, \o # nel relativo nome. Per definire l'ambito dell'analisi ed evitare l'analisi di asset con tali caratteri nel nome dell'asset, usare l'esempio in Registrare ed analizzare un database Azure SQL.

Importante

Se si prevede di usare un runtime di integrazione self-hosted, l'analisi di alcune origini dati richiede una configurazione aggiuntiva nel computer di runtime di integrazione self-hosted. Ad esempio, JDK, Visual C++ Redistributable o driver specifico. Per informazioni sull'origine, vedere ogni articolo di origine per informazioni dettagliate sui prerequisiti. Tutti i requisiti sono elencati nella sezione Prerequisiti .

Aree dello scanner della mappa dati

Di seguito è riportato un elenco di tutte le aree dell'origine dati di Azure (data center) in cui viene eseguito lo scanner Microsoft Purview Data Map. Se l'origine dati di Azure si trova in un'area esterna a questo elenco, lo scanner verrà eseguito nell'area dell'istanza di Microsoft Purview.

Australia orientale
Australia sud-orientale
Brasile meridionale
Canada centrale
Canada orientale
India centrale
Cina settentrionale 3
Asia orientale
Stati Uniti orientali
Stati Uniti orientali 2
Francia centrale
Germania Centro-Occidentale
Giappone orientale
Corea centrale
Stati Uniti centro-settentrionali
Europa settentrionale
Qatar centrale
Sudafrica settentrionale
Stati Uniti centro-meridionali
Asia sudorientale
Svizzera nord
Emirati Arabi Uniti Settentrionali
Regno Unito meridionale
USGov Virginia
Stati Uniti centro-occidentali
Europa occidentale
Stati Uniti occidentali
Stati Uniti occidentali 2
Stati Uniti occidentali 3

Tipi di file supportati per l'analisi

I tipi di file elencati di seguito sono supportati per l'analisi, l'estrazione dello schema e la classificazione, se applicabile. Mappa dati supporta inoltre estensioni di file personalizzate e parser personalizzati.

I formati di file strutturati supportati dall'estensione includono l'analisi, l'estrazione dello schema e la classificazione a livello di asset e colonna:

AVRO
CSV
GZIP
JSON
ORCO
PARQUET
PSV
SSV
TSV
TXT
XML

I formati di file di documento supportati dall'estensione includono l'analisi e la classificazione a livello di asset:

DOTTORE
DOCM
DOCX
PUNTO
ODP
ODS
ODT
PDF
PENTOLA
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

Nota

Limitazioni note:

Lo scanner Microsoft Purview Data Map supporta solo l'estrazione dello schema per i tipi di file strutturati elencati in precedenza.
Per i tipi di file AVRO, ORC e PARQUET, lo scanner non supporta l'estrazione dello schema per i file che contengono tipi di dati complessi, ad esempio MAP, LIST, STRUCT.
Lo scanner supporta l'analisi dei tipi PARQUET compressi snappy per l'estrazione e la classificazione dello schema.
Per i tipi di file GZIP, è necessario eseguire il mapping di GZIP a un singolo file CSV all'interno. I file Gzip sono soggetti alle regole di classificazione di sistema e personalizzate. Attualmente non è supportata l'analisi di un file gzip mappato a più file all'interno o a qualsiasi tipo di file diverso da csv.
Per i tipi di file delimitati (CSV, PSV, SSV, TSV, TXT):
- I file delimitati con una sola colonna non possono essere determinati come file CSV e non avranno uno schema.
- Non è supportare il rilevamento dei tipi di dati. Il tipo di dati verrà elencato come "stringa" per tutte le colonne.
- Supportiamo solo virgole(','), punto e virgola(';'), barre verticali('|') e tabulazioni('\t') come delimitatori.
- I file delimitati con meno di tre righe non possono essere determinati come file CSV se usano un delimitatore personalizzato. Ad esempio: i file con ~ delimitatore e meno di tre righe non potranno essere determinati come file CSV.
- Se un campo contiene virgolette doppie, le virgolette doppie possono essere visualizzate solo all'inizio e alla fine del campo e devono essere corrispondenti. Le virgolette doppie visualizzate al centro del campo o visualizzate all'inizio e alla fine, ma non corrispondenti, verranno riconosciute come dati non validi e non verrà analizzato alcuno schema dal file. Le righe con un numero di colonne diverso da quello della riga di intestazione verranno giudicate come righe di errore. (numeri di righe di errore/numeri di righe campionate ) deve essere minore di 0,1.
Per i file Parquet, se si usa un runtime di integrazione self-hosted, è necessario installare JRE 11 (Java Runtime Environment) a 64 bit o OpenJDK nel computer a runtime di integrazione. Per una guida all'installazione, vedere la sezione Java Runtime Environment (Ambiente di runtime Java) nella parte inferiore della pagina .
Attualmente il formato delta non è supportato. Se si esegue l'analisi del formato delta direttamente dall'origine dati di archiviazione, ad esempio Azure Data Lake Storage (ADLS Gen2), il set di file Parquet dal formato delta verrà analizzato e gestito come set di risorse come descritto in Informazioni sui set di risorse. Oltre alle colonne usate per il partizionamento, non verranno riconosciute come parte dello schema per il set di risorse.

Estrazione dello schema

Per le origini dati che supportano l'estrazione dello schema durante l'analisi, lo schema dell'asset non verrà troncato direttamente dal numero di colonne.

Dati annidati

I dati annidati sono supportati solo per il contenuto JSON. Per tutti i tipi di file supportati dal sistema, se è presente contenuto JSON annidato in una colonna, lo scanner analizza i dati JSON annidati e li espone all'interno della scheda dello schema dell'asset.

I dati annidati o l'analisi dello schema annidato non sono supportati in SQL. Una colonna con dati annidati verrà segnalata e classificata così come è e i dati secondari non verranno analizzati.

Dati di campionamento per la classificazione

Nella terminologia di Mappa dati,

Analisi L1: estrae informazioni di base e metadati come nome file, dimensioni e nome completo
Analisi L2: estrae lo schema per i tipi di file strutturati e le tabelle di database
Analisi L3: estrae lo schema dove applicabile e soggetto il file campionato alle regole di classificazione personalizzate e di sistema

Altre informazioni sulla personalizzazione dei livelli di analisi.

Per tutti i formati di file strutturati, i file di esempio dello scanner Microsoft Purview Data Map nel modo seguente:

Per i tipi di file strutturati, viene eseguito l'esempio delle prime 128 righe in ogni colonna o dei primi 1 MB, a seconda di quale sia inferiore.
Per i formati di file di documento, vengono campioni i primi 20 MB di ogni file.
- Se un file di documento è più grande di 20 MB, non è soggetto a un'analisi approfondita (soggetta a classificazione). In tal caso, Microsoft Purview acquisisce solo i metadati di base, ad esempio il nome file e il nome completo.
Per le origini dati tabulari (SQL), vengono esempi le prime 128 righe.
Per Azure Cosmos DB per NoSQL, verranno raccolte fino a 300 proprietà distinte dei primi 10 documenti in un contenitore per lo schema e per ogni proprietà verranno campionati i valori da un massimo di 128 documenti o i primi 1 MB.

Campionamento di file del set di risorse

Una cartella o un gruppo di file di partizione viene rilevato come set di risorse nel Microsoft Purview Data Map se corrisponde a un criterio del set di risorse di sistema o a un criterio del set di risorse definito dal cliente. Se viene rilevato un set di risorse, lo scanner esegue un esempio di ogni cartella che contiene. Altre informazioni sui set di risorse sono disponibili qui.

Campionamento di file per set di risorse in base ai tipi di file:

File delimitati (CSV, PSV, SSV, TSV): vengono campionati 1 file su 100 (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un "set di risorse"
Tipi di file Data Lake (Parquet, Avro, Orc): 1 in 18446744073709551615 (numero massimo lungo) vengono campionati (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un 'set di risorse'
Altri tipi di file strutturati (JSON, XML, TXT): 1 file su 100 vengono campionati (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un 'set di risorse'
Oggetti SQL ed entità di Azure Cosmos DB : ogni file viene analizzato L3.
Tipi di file di documento : ogni file viene analizzato L3. I modelli di set di risorse non si applicano a questi tipi di file.

Condividi tramite

Origini dati che si connettono alla mappa dati

Elenco di origini dati per tipo

Azure

Database

File

Servizi e app

Aree dello scanner della mappa dati

Tipi di file supportati per l'analisi

Estrazione dello schema

Dati annidati

Dati di campionamento per la classificazione

Campionamento di file del set di risorse

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive