Compreender os conjuntos de recursos
Este artigo ajuda-o a compreender como o Microsoft Purview utiliza conjuntos de recursos para mapear recursos de dados para recursos lógicos.
Importante
A funcionalidade Conjunto de Recursos Avançado só é aplicável a clientes de conjuntos de recursos avançados existentes que utilizem o Microsoft Purview clássico ou atualizem uma conta clássica para Catálogo unificado do Microsoft Purview com o Conjunto de Recursos Avançado ativado. Esta funcionalidade não está disponível para novos clientes do Microsoft Purview com Catálogo unificado.
Informações de fundo
Normalmente, os sistemas de processamento de dados à escala armazenam uma única tabela no armazenamento como múltiplos ficheiros. No Catálogo unificado do Microsoft Purview, este conceito é representado através da utilização de conjuntos de recursos. Um conjunto de recursos é um único objeto no catálogo que representa um grande número de recursos no armazenamento.
Por exemplo, suponha que o seu cluster do Spark manteve um DataFrame numa origem de dados do Azure Data Lake Storage (ADLS) Gen2. Embora no Spark a tabela pareça um único recurso lógico, no disco existem provavelmente milhares de ficheiros Parquet, cada um dos quais representa uma partição do total de conteúdos do DataFrame. Os dados de IoT e os dados de registo Web têm o mesmo desafio. Imagine que tem um sensor que produz ficheiros de registo várias vezes por segundo. Não demorará muito até ter centenas de milhares de ficheiros de registo desse único sensor.
Como o Microsoft Purview deteta conjuntos de recursos
O Microsoft Purview suporta a deteção de conjuntos de recursos no Armazenamento de Blobs do Azure, ADLS Gen1, ADLS Gen2, Arquivos do Azure e Amazon S3.
O Microsoft Purview deteta automaticamente conjuntos de recursos ao analisar. Esta funcionalidade analisa todos os dados ingeridos através da análise e compara-os com um conjunto de padrões definidos.
Por exemplo, suponha que analisa uma origem de dados cujo URL é https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. O Microsoft Purview analisa os segmentos de caminho e determina se correspondem a padrões incorporados. Tem padrões incorporados para GUIDs, números, formatos de data, códigos de localização (por exemplo, en-us), etc. Neste caso, o padrão de número corresponde a 23. O Microsoft Purview pressupõe que este ficheiro faz parte de um conjunto de recursos com o nome https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
.
Em alternativa, para um URL como https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
, o Microsoft Purview corresponde ao padrão de localização e ao padrão de número, produzindo um conjunto de recursos com o nome https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
.
Com esta estratégia, o Microsoft Purview mapearia os seguintes recursos para o mesmo conjunto de recursos: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Tipos de ficheiro que o Microsoft Purview não detetará como conjuntos de recursos
O Microsoft Purview não tenta classificar intencionalmente a maioria dos tipos de ficheiros de documentos, como Word, Excel ou PDF como Conjuntos de Recursos. A exceção é o formato CSV, uma vez que é um formato de ficheiro particionado comum.
Como o Microsoft Purview analisa os conjuntos de recursos
Quando o Microsoft Purview deteta recursos que considera que fazem parte de um conjunto de recursos, muda de uma análise completa para uma análise de exemplo. Uma análise de exemplo abre apenas um subconjunto dos ficheiros que pensa estarem no conjunto de recursos. Para cada ficheiro aberto, utiliza o respetivo esquema e executa os respetivos classificadores. Em seguida, o Microsoft Purview localiza o recurso mais recente entre os recursos abertos e utiliza o esquema e as classificações desse recurso na entrada para todo o conjunto de recursos no catálogo.
Conjuntos de recursos avançados
O Microsoft Purview pode personalizar e enriquecer ainda mais os recursos do conjunto de recursos através da capacidade Conjuntos de Recursos Avançados . Os conjuntos de recursos avançados permitem ao Microsoft Purview compreender as partições subjacentes dos dados ingeridos e permite a criação de regras de padrão de conjunto de recursos que personalizam a forma como o Microsoft Purview agrupa os conjuntos de recursos durante a análise.
Quando os Conjuntos de Recursos Avançados estão ativados, o Microsoft Purview executa agregações adicionais para calcular as seguintes informações sobre os recursos do conjunto de recursos:
- Um caminho de exemplo de um ficheiro que compreende o conjunto de recursos.
- Uma contagem de partições que mostra quantos ficheiros compõem o conjunto de recursos.
- O tamanho total de todos os ficheiros que compõem o conjunto de recursos.
Estas propriedades podem ser encontradas na página de detalhes do recurso do conjunto de recursos.
Ativar conjuntos de recursos avançados
Os conjuntos de recursos avançados estão desativados por predefinição em todas as novas instâncias do Microsoft Purview. Os conjuntos de recursos avançados podem ser ativados a partir de Informações de conta no hub de gestão. Apenas os utilizadores que são adicionados à função de Curador de Dados na coleção de raiz podem gerir as definições de Conjuntos de Recursos Avançados.
Depois de ativar conjuntos de recursos avançados, os melhoramentos adicionais ocorrerão em todos os recursos recém-ingeridos. Estes melhoramentos podem demorar até 12 horas a estarem disponíveis nos seus recursos após a ingestão. A equipa do Microsoft Purview recomenda aguardar uma hora antes de analisar os novos dados do data lake depois de ativar a funcionalidade.
Importante
A ativação de conjuntos de recursos avançados afetará a taxa de atualização das informações de ativos e de classificação. Quando os conjuntos de recursos avançados estão ativados, as informações de ativos e classificação só serão atualizadas duas vezes por dia.
Além disso, quando ativar conjuntos de recursos avançados, pode demorar até 12 horas a ver as atualizações de esquema.
Padrões de conjuntos de recursos incorporados
O Microsoft Purview suporta os seguintes padrões de conjunto de recursos. Estes padrões podem aparecer como um nome num diretório ou como parte de um nome de ficheiro.
Padrões baseados em Regex
Nome do Padrão | Nome de exibição | Descrição |
---|---|---|
Guid | {GUID} | Um identificador exclusivo global, conforme definido em RFC 4122 |
Número | {N} | Um ou mais dígitos |
Formatos de Data/Hora | {Year}{Month}{Day}{N} | Suportamos vários formatos de data/hora, mas todos são representados com {Year}[delimitador]{Month}[delimitador]{Day} ou série de {N}s. |
4ByteHex | {HEX} | Um número HEX de 4 dígitos. |
Localização | {LOC} | Uma etiqueta de idioma, conforme definido no BCP 47, ambos os nomes - e _ são suportados (por exemplo, en_ca e en-ca) |
Padrões complexos
Nome do Padrão | Nome de exibição | Descrição |
---|---|---|
SparkPath | {SparkPartitions} | Identificador do ficheiro de partição do Spark |
Data(aaaa/mm/dd)InPath | {Year}/{Month}/{Day} | Padrão ano/mês/dia que abrange várias pastas |
Como os conjuntos de recursos são apresentados no Catálogo unificado
Quando o Microsoft Purview corresponde a um grupo de recursos num conjunto de recursos, tenta extrair as informações mais úteis para utilizar como nome a apresentar no catálogo. Alguns exemplos da convenção de nomenclatura predefinida aplicada:
Exemplo 1
Nome qualificado: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Nome a apresentar: "nome da saída do Spark"
Exemplo 2
Nome qualificado: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Nome a apresentar: "os meus dados particionados"
Exemplo 3
Nome qualificado: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Nome a apresentar: "data"
Personalizar o agrupamento de conjuntos de recursos com regras de padrão
Ao analisar uma conta de armazenamento, o Microsoft Purview utiliza um conjunto de padrões definidos para determinar se um grupo de recursos é um conjunto de recursos. Em alguns casos, o agrupamento de conjuntos de recursos do Microsoft Purview pode não refletir com precisão o seu património de dados. Estes problemas podem incluir:
- Marcar incorretamente um recurso como um conjunto de recursos.
- Colocar um recurso no conjunto de recursos errado.
- Marcar incorretamente um recurso como não sendo um conjunto de recursos.
Para personalizar ou substituir a forma como o Microsoft Purview deteta quais os recursos agrupados como conjuntos de recursos e como são apresentados no catálogo, pode definir regras de padrão no centro de gestão. Para obter instruções passo a passo e sintaxe, veja regras de padrão de conjunto de recursos.
Limitações conhecidas com conjuntos de recursos
- Por predefinição, os recursos de conjunto de recursos só serão eliminados por uma análise se os conjuntos de Recursos Avançados estiverem ativados. Se esta capacidade estiver desativada, os recursos do conjunto de recursos só podem ser eliminados manualmente ou através da API.
Próximas etapas
Para começar a utilizar o Microsoft Purview, consulte Início Rápido: Criar uma conta do Microsoft Purview.