Origens de dados que se ligam ao Mapa de Dados

Artigo
03/07/2025

Este artigo lista as origens de dados, os tipos de ficheiro e os conceitos de análise suportados no Mapa de Dados do Microsoft Purview.

Listagem de origem de dados por tipo

As tabelas abaixo mostram todas as origens de dados que têm metadados técnicos disponíveis no Mapa de Dados do Microsoft Purview, juntamente com outras capacidades suportadas. Selecione um nome de origem de dados na coluna Origem de dados para obter instruções sobre como ligar essa origem ao Mapa de Dados.

Microsoft Azure
Banco de dados
Arquivo
Serviços e aplicações

Azure

Os recursos do Azure só estão disponíveis no mesmo inquilino que a sua conta do Microsoft Purview, salvo indicação em contrário na página de cada origem de dados.

Fonte de dados	Pode aplicar classificações automaticamente	Pode aplicar etiquetas de confidencialidade a recursos do Mapa de Dados	Pode aplicar políticas	Linhagem de dados	Acessível na vista dinâmica
Selecione a ligação para obter as instruções de ligação e análise.	Selecione Sim* para obter instruções de análise. Saiba como as classificações são aplicadas durante a análise.*	Saiba mais sobre a etiquetagem de confidencialidade (pré-visualização).	Selecione Sim* para ver as políticas suportadas; por exemplo, proprietário de dados, acesso self-service ou proteção.*	Selecione Sim* para obter detalhes.*	Saiba mais sobre a vista em direto.
Várias origens	Sim	Dependente da origem	Sim	Não	Limitado
Azure Storage Blob	Sim	Sim	Sim (pré-visualização)	Limitado*	Sim
Azure Cosmos DB (API para NoSQL)	Sim	Não	Não	Não*	Não
Azure Data Explorer	Sim	Não	Não	Não*	Não
Azure Data Factory	Não	Não	Não	Sim	Não
Azure Data Lake Storage Gen2	Sim	Sim	Sim (pré-visualização)	Limitado*	Sim
Azure Data Share	Não	Não	Não	Sim	Não
Banco de Dados do Azure para MySQL	Sim	Não	Não	Não*	Não
Banco de dados do Azure para PostgreSQL	Sim	Não	Não	Não*	Não
Azure Databricks Hive Metastore	Não	Não	Não	Sim	Não
Catálogo do Unity no Azure Databricks	Sim	Não	Não	Não	Não
Pool de SQL Dedicado do Azure (antigo SQL DW)	Sim	Não	Não	Não*	Não
Arquivos do Azure	Sim	Sim	Não	Limitado*	Não
Azure Machine Learning	Não	Não	Não	Sim	Não
Banco de Dados SQL Azure	Sim	Sim	Sim	Sim (Pré-visualização)	Sim
Instância Gerenciada de SQL do Azure	Sim	Não	Sim	Não*	Não
Azure Synapse Analytics (Área de Trabalho)	Sim	Não	Não	Sim - Pipelines do Synapse	Não

* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.

Banco de dados

Fonte de dados	Pode aplicar classificações automaticamente	Pode aplicar etiquetas de confidencialidade a recursos do Mapa de Dados	Pode aplicar políticas	Linhagem de dados	Acessível na vista dinâmica
Selecione a ligação para obter as instruções de ligação e análise.	Selecione Sim* para obter instruções de análise. Saiba como as classificações são aplicadas durante a análise.*	Saiba mais sobre a etiquetagem de confidencialidade (pré-visualização).	Selecione Sim* para ver as políticas suportadas; por exemplo, proprietário de dados, acesso self-service ou proteção.*	Selecione Sim* para obter detalhes.*	Saiba mais sobre a vista em direto.
Amazon RDS	Sim	Não	Não	Não	Não
Amazon Redshift	Não	Não	Não	Não	Não
Cassandra	Não	Não	Não	Sim	Não
DB2	Não	Não	Não	Sim	Não
BigQuery do Google	Não	Não	Não	Sim	Não
Banco de Dados do Metastore do Hive	Não	Não	Não	Sim*	Não
Mongodb	Não	Não	Não	Não	Não
MySQL	Não	Não	Não	Sim	Não
Oracle	Sim	Não	Não	Sim*	Não
PostgreSQL	Não	Não	Não	Sim	Não
Warehouse de Negócios do SAP	Não	Não	Não	Não	Não
SAP HANA	Não	Não	Não	Não	Não
Snowflake	Sim	Não	Não	Sim	Não
SQL Server	Sim	Não	Não	Não*	Não
SQL Server no Azure-Arc	Sim	Não	Sim	Não*	Não
Teradata	Sim	Não	Não	Sim*	Não

* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.

Arquivo

Fonte de dados	Pode aplicar classificações automaticamente	Pode aplicar etiquetas de confidencialidade a recursos do Mapa de Dados	Pode aplicar políticas	Linhagem de dados	Acessível na vista dinâmica
Selecione a ligação para obter as instruções de ligação e análise.	Selecione Sim* para obter instruções de análise. Saiba como as classificações são aplicadas durante a análise.*	Saiba mais sobre a etiquetagem de confidencialidade (pré-visualização).	Selecione Sim* para ver as políticas suportadas; por exemplo, proprietário de dados, acesso self-service ou proteção.*	Selecione Sim* para obter detalhes.*	Saiba mais sobre a vista em direto.
Amazon S3	Sim	Não	Não	Limitado*	Não
Sistema de Ficheiros Distribuído Hadoop (HDFS)	Sim	Não	Não	Não	Não

* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.

Serviços e aplicações

Fonte de dados	Pode aplicar classificações automaticamente	Pode aplicar etiquetas de confidencialidade a recursos do Mapa de Dados	Pode aplicar políticas	Linhagem de dados	Acessível na vista dinâmica
Selecione a ligação para obter as instruções de ligação e análise.	Selecione Sim* para obter instruções de análise. Saiba como as classificações são aplicadas durante a análise.*	Saiba mais sobre a etiquetagem de confidencialidade (pré-visualização).	Selecione Sim* para ver as políticas suportadas; por exemplo, proprietário de dados, acesso self-service ou proteção.*	Selecione Sim* para obter detalhes.*	Saiba mais sobre a vista em direto.
Fluxo de ar	Não	Não	Não	Sim	Não
Dataverse	Sim	Não	Não	Não	Não
Erwin	Não	Não	Não	Sim	Não
Recursos de Infraestrutura	Não	Não	Não	Sim	Sim
Looker	Não	Não	Não	Sim	Não
Power BI	Não	Não	Não	Sim	Sim**
Qlik Sense	Não	Não	Não	Não	Não
Salesforce	Não	Não	Não	Não	Não
SAP ECC	Não	Não	Não	Sim*	Não
SAP S/4HANA	Não	Não	Não	Sim*	Não
Tableau	Não	Não	Não	Não	Não

* Além da linhagem nos recursos na origem de dados, a linhagem também é suportada se o conjunto de dados for utilizado como origem/sink no pipeline do Data Factory ou do Synapse.

** Os itens do Power BI num inquilino dos Recursos de Infraestrutura estão disponíveis através da vista dinâmica.

Observação

Atualmente, o Mapa de Dados do Microsoft Purview não consegue analisar um recurso que tenha /, \ou # no respetivo nome. Para definir o âmbito da análise e evitar a análise de recursos que tenham esses carateres no nome do recurso, utilize o exemplo em Registar e analisar um SQL do Azure Base de Dados.

Importante

Se planear utilizar um runtime de integração autoalojado, analisar algumas origens de dados requer uma configuração adicional no computador runtime de integração autoalojado. Por exemplo, JDK, Pacote Redistribuível do Visual C++ ou controlador específico. Para obter a sua origem, consulte cada artigo de origem para obter detalhes de pré-requisitos. Todos os requisitos são listados na secção Pré-requisitos .

Regiões do scanner do Mapa de Dados

Segue-se uma lista de todas as regiões de origem de dados (datacenter) do Azure onde o Mapa de Dados do Microsoft Purview scanner é executado. Se a origem de dados do Azure estiver numa região fora desta lista, o scanner será executado na região da sua instância do Microsoft Purview.

Leste da Austrália
Sudeste da Austrália
Sul do Brasil
Canadá Central
Leste do Canadá
Índia Central
China Norte 3
Leste da Ásia
Leste dos EUA
Leste 2 dos EUA
França Central
Centro-Oeste da Alemanha
Leste do Japão
Coréia Central
Centro-Norte dos EUA
Norte da Europa
Catar Central
Norte da África do Sul
Centro-Sul dos EUA
Sudeste da Ásia
Suíça (Norte)
Emirados Árabes Unidos Norte
Sul do Reino Unido
USGov Virginia
Centro-Oeste dos EUA
Europa Ocidental
Oeste dos EUA
Oeste 2 dos EUA
E.U.A. Oeste 3

Tipos de ficheiro suportados para análise

Os tipos de ficheiro listados abaixo são suportados para análise, extração de esquemas e classificação, sempre que aplicável. Além disso, o Mapa de Dados suporta extensões de ficheiros personalizadas e analisadores personalizados.

Os formatos de ficheiro estruturados suportados pela extensão incluem análise, extração de esquemas e classificação ao nível dos recursos e colunas:

AVRO
CSV
GZIP
JSON
ORC
PARQUET
PSV
SSV
TSV
TXT
XML

Os formatos de ficheiro de documento suportados pela extensão incluem a análise e a classificação ao nível dos recursos:

DOC
DOCM
DOCX
PONTO
ODP
ODS
ODT
PDF
POTE
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

Observação

Limitações conhecidas:

O Mapa de Dados do Microsoft Purview scanner só suporta a extração de esquemas para os tipos de ficheiro estruturados listados acima.
Para os tipos de ficheiro AVRO, ORC e PARQUET, o analisador não suporta a extração de esquemas para ficheiros que contenham tipos de dados complexos (por exemplo, MAP, LIST, STRUCT).
O scanner suporta a análise de tipos PARQUET comprimidos snappy para extração e classificação de esquemas.
Para os tipos de ficheiro GZIP, o GZIP tem de ser mapeado para um único ficheiro csv. Os ficheiros Gzip estão sujeitos às regras de Classificação Personalizada e do Sistema. Atualmente, não suportamos a análise de um ficheiro gzip mapeado para vários ficheiros no ou qualquer tipo de ficheiro que não seja csv.
Para tipos de ficheiro delimitados (CSV, PSV, SSV, TSV, TXT):
- Os ficheiros delimitados com apenas uma coluna não podem ser determinados como ficheiros CSV e não terão esquema.
- Não suportamos a deteção de tipos de dados. O tipo de dados será listado como "cadeia" para todas as colunas.
- Só suportamos vírgula(','), ponto e vírgula(';'), barra vertical('|') e tabulação('\t') como delimitadores.
- Os ficheiros delimitados com menos de três linhas não podem ser determinados como ficheiros CSV se estiverem a utilizar um delimitador personalizado. Por exemplo: os ficheiros com ~ delimitador e menos de três linhas não poderão ser determinados como ficheiros CSV.
- Se um campo contiver aspas duplas, as aspas duplas só podem aparecer no início e no fim do campo e têm de ser correspondidas. As aspas duplas que aparecem no meio do campo ou aparecem no início e no fim, mas que não são correspondidas, serão reconhecidas como dados incorretos e não haverá nenhum esquema a ser analisado do ficheiro. As linhas que têm um número diferente de colunas do que a linha de cabeçalho serão consideradas linhas de erro. (os números de linhas de erro/números de linhas amostradas ) têm de ser inferiores a 0,1.
Para ficheiros Parquet, se estiver a utilizar um runtime de integração autoalojado, tem de instalar o JRE 11 de 64 bits (Ambiente de Runtime Java) ou o OpenJDK no seu computador IR. Consulte a nossa secção Ambiente de Runtime Java na parte inferior da página para obter um guia de instalação.
Atualmente, o formato delta não é suportado. Se estiver a analisar o formato delta diretamente a partir da origem de dados de armazenamento, como Azure Data Lake Storage (ADLS Gen2), o conjunto de ficheiros parquet do formato delta será analisado e processado como conjunto de recursos, conforme descrito em Compreender os conjuntos de recursos. Além das colunas utilizadas para a criação de partições, não serão reconhecidas como parte do esquema do conjunto de recursos.

Extração de esquemas

Para origens de dados que suportam a extração de esquemas durante a análise, o esquema de recursos não será diretamente truncado pelo número de colunas.

Dados aninhados

Os dados aninhados só são suportados para conteúdo JSON. Para todos os tipos de ficheiro suportados pelo sistema, se existir conteúdo JSON aninhado numa coluna, o analisador analisa os dados JSON aninhados e apresenta-os no separador esquema do elemento.

Os dados aninhados ou a análise de esquema aninhado não são suportados no SQL. Uma coluna com dados aninhados será reportada e classificada como está e os subdados não serão analisados.

Dados de amostragem para classificação

Na terminologia do Mapa de Dados,

Análise L1: extrai informações básicas e metadados, como nome de ficheiro, tamanho e nome completamente qualificado
Análise L2: extrai o esquema para tipos de ficheiro estruturados e tabelas de bases de dados
Análise L3: extrai o esquema quando aplicável e sujeita o ficheiro de amostragem às regras de classificação personalizadas e do sistema

Saiba mais sobre como personalizar os níveis de análise.

Para todos os formatos de ficheiro estruturados, o Mapa de Dados do Microsoft Purview scanner mostra os ficheiros da seguinte forma:

Para tipos de ficheiro estruturados, mostra as 128 primeiras linhas de cada coluna ou os primeiros 1 MB, o que for inferior.
Para formatos de ficheiros de documentos, mostra os primeiros 20 MB de cada ficheiro.
- Se um ficheiro de documento for superior a 20 MB, não estará sujeito a uma análise profunda (sujeita à classificação). Nesse caso, o Microsoft Purview captura apenas metadados básicos, como o nome de ficheiro e o nome completamente qualificado.
Para origens de dados tabulares (SQL), mostra as 128 linhas principais.
Para o Azure Cosmos DB para NoSQL, serão recolhidas até 300 propriedades distintas dos primeiros 10 documentos num contentor para o esquema e, para cada propriedade, serão recolhidos valores de até 128 documentos ou os primeiros 1 MB.

Amostragem de ficheiros do conjunto de recursos

Uma pasta ou grupo de ficheiros de partição é detetado como um conjunto de recursos no Mapa de Dados do Microsoft Purview se corresponder a uma política de conjunto de recursos do sistema ou a uma política de conjunto de recursos definida pelo cliente. Se for detetado um conjunto de recursos, o detetor irá provar cada pasta que contém. Saiba mais sobre os conjuntos de recursos aqui.

Amostragem de ficheiros para conjuntos de recursos por tipos de ficheiro:

Ficheiros delimitados (CSV, PSV, SSV, TSV) – 1 em cada 100 ficheiros são amostrados (análise L3) numa pasta ou grupo de ficheiros de partição considerados um "Conjunto de recursos"
Os tipos de ficheiros do Data Lake (Parquet, Avro, Orc) – 1 em 18446744073709551615 (máximo longo) são amostrados (análise L3) numa pasta ou grupo de ficheiros de partição considerados um "Conjunto de recursos"
Outros tipos de ficheiro estruturados (JSON, XML, TXT) – 1 em cada 100 ficheiros são amostrados (análise L3) numa pasta ou grupo de ficheiros de partição considerados um "Conjunto de recursos"
Objetos SQL e entidades do Azure Cosmos DB – cada ficheiro é analisado por L3.
Tipos de ficheiros de documentos – cada ficheiro é analisado por L3. Os padrões de conjuntos de recursos não se aplicam a estes tipos de ficheiro.

Partilhar via

Origens de dados que se ligam ao Mapa de Dados

Listagem de origem de dados por tipo

Azure

Banco de dados

Arquivo

Serviços e aplicações

Regiões do scanner do Mapa de Dados

Tipos de ficheiro suportados para análise

Extração de esquemas

Dados aninhados

Dados de amostragem para classificação

Amostragem de ficheiros do conjunto de recursos

Próximas etapas

Comentários

Recursos adicionais