Partilhar via


Saiba mais sobre os tipos de informações confidenciais com base na correspondência exata de dados

Os tipos de informações confidenciais (SITs) são utilizados para ajudar a identificar dados confidenciais, para que possa impedir que sejam partilhados inadvertidamente ou de forma inadequada. Também são utilizados para ajudar a localizar dados relevantes na Deteção de Dados Eletrónicos e para aplicar ações de governação a determinados tipos de informações. Define um SIT personalizado com base em:

  • padrões
  • palavra-chave provas como funcionário, número de segurança social ou ID
  • proximidade de um caractere da evidência em um padrão específico
  • níveis de confiança

Mas e se quiser um SIT personalizado que utilize valores de dados exatos ou quase exatos, em vez de um que encontre correspondências com base em padrões genéricos? Com a classificação baseada em Correspondência de Dados Exata (EDM), pode criar um tipo de informação confidencial personalizado concebido para:

  • ser dinâmica e facilmente atualizada
  • resultar em menos falsos positivos
  • trabalhar com dados confidenciais estruturados
  • processar informações confidenciais de forma mais segura, não partilhá-la com ninguém, incluindo a Microsoft
  • ser usado com vários serviços de nuvem da Microsoft

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

A classificação baseada em EDM permite-lhe criar SITs personalizados que fazem referência a valores exatos numa base de dados de informações confidenciais. A base de dados pode ser atualizada diariamente e pode conter até 100 milhões de linhas de dados. Assim, à medida que os funcionários, pacientes e clientes entram e saem, e à medida que os registos mudam, os seus tipos de informações confidenciais personalizados permanecem atualizados e aplicáveis. Além disso, pode utilizar a classificação baseada em EDM com políticas, como políticas de Prevenção Contra Perda de Dados do Microsoft Purview ou políticas de ficheiros do Microsoft Cloud App Security.

O diagrama seguinte mostra o funcionamento fundamental da classificação EDM:

Classificação baseada em EDM.

Observação

Proteção de Informações do Microsoft Purview suporta os seguintes idiomas que utilizam conjuntos de carateres de byte duplo:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, veja Suporte de proteção de informações para conjuntos de carateres de byte duplo: Notas de Versão (pré-visualização).

O que é diferente num SIT EDM

Quando trabalha com SITs EDM, é útil compreender alguns conceitos exclusivos dos mesmos.

Esquema

Um esquema é um ficheiro XML. O Microsoft Purview utiliza o esquema para determinar se os seus dados contêm ou não cadeias de carateres que correspondem às que os seus tipos de informações confidenciais foram concebidos para detetar.

O ficheiro XML de esquema define:

  • O nome do esquema, mais tarde referido como Arquivo de Dados.
  • Os nomes de campo que a tabela de origem de informações confidenciais contém. Existe um mapeamento 1:1 dos nomes dos campos de esquema para os nomes das colunas na tabela de origem de informações confidenciais.
  • Os campos de provas corroborantes requerem o modo de correspondência de vários tokens.
  • Que campos de dados são pesquisáveis.
  • Se as correspondências configuráveis são ou não suportadas para cada campo. Uma correspondência configurável é uma com parâmetros que modificam uma pesquisa, como ignorar delimitadores e maiúsculas/minúsculas em valores pesquisados.

Tabela de origem de informações confidenciais

A tabela de origem de informações confidenciais contém os valores que o SIT EDM procura. A tabela é composta por colunas e linhas. Os cabeçalhos de coluna são os nomes dos campos, as linhas são instâncias de itens e cada célula numa linha contém os valores dessa instância de item para esse campo.

Eis um exemplo simples de uma tabela de origem de informações confidenciais.

Nome Sobrenome Date of Birth
Isaías Langer 05-05-1960
Ana Bowman 11-24-1971
Óscar Ala 02-12-1998

Pacote de regras

Cada tipo de informação confidencial tem um pacote de regras. Utilize o pacote de regras num SIT EDM para definir os vários componentes do seu SIT EDM. A tabela seguinte fornece uma descrição de cada componente.

Componente Descrição
Match Especifica o elemento primário (campo de dados) a ser utilizado na pesquisa exata. Pode ser uma expressão regular com ou sem uma validação da soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma função.
Classificação Especifica a correspondência de tipo de informação confidencial que aciona uma pesquisa EDM.
Elementos de suporte Elementos que, quando encontrados, fornecem provas que ajudam a aumentar a confiança da correspondência. Por exemplo, a ocorrência de um apelido perto de um número real de segurança social. Um elemento de suporte pode ser uma expressão regular com ou sem uma validação da soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma correspondência de cadeia de carateres de um ou vários tokens.
Nível de confiança
(Alto, Médio, Baixo)
Indicação da quantidade de provas de suporte detetadas, além do elemento primário. Quanto mais provas de suporte um item contiver, maior é a confiança de que um item correspondente contém as informações confidenciais que procura. Para obter mais informações sobre os níveis de confiança, veja Partes fundamentais de um tipo de informação confidencial.
Proximidade O número de carateres entre o elemento principal e o elemento de suporte.

Fornece o seu próprio esquema e dados

O Microsoft Purview inclui muitos SITs incorporados predefinidos. Estes SITs são fornecidos com esquemas, padrões REGEX, palavras-chave e níveis de confiança. No entanto, com os SITs EDM, é responsável por definir o esquema, bem como os campos primário e secundário que identificam itens confidenciais. Uma vez que os valores de esquema e dados primários e secundários são todos altamente confidenciais, encripta-os através de uma função hash que inclui um valor de sal gerado aleatoriamente ou auto-fornecido. Apenas os valores com hash são carregados para o serviço, pelo que os dados confidenciais nunca estão abertos.

Elementos de suporte primários e secundários

Quando cria um SIT EDM, define um campo de elemento primário no pacote de regras. Em seguida, o EDM procura o elemento primário em todo o seu conteúdo. Para que o EDM os possa detetar, os elementos principais têm de ser detetáveis através de um SIT existente.

Observação

Para obter uma lista completa dos SITs disponíveis, veja Definições de entidades de tipo de informação confidencial

Tem de encontrar um SIT incorporado que detete as informações confidenciais que pretende que o seu SIT EDM detete. Por exemplo, se o seu esquema EDM SIT tiver o número de segurança social dos E.U.A. como elemento principal, quando criar o esquema EDM, terá associado o mesmo ao SIT (Número de Segurança Social dos E.U.A.) (SSN ). Os elementos primários têm de seguir um padrão definido para serem detetados.

Quando o elemento primário é encontrado num item analisado, o EDM procura elementos secundários (também denominados elementos de suporte ). Ao contrário dos elementos primários, os elementos secundários têm a opção de seguir um padrão. Se os elementos secundários contiverem vários tokens, esses elementos têm de ser associados a um SIT que consiga detetar esse conteúdo ou que possa ser configurado para a correspondência de vários tokens. Em todos os casos, os elementos secundários têm de estar numa determinada proximidade do elemento primário para que seja detetada uma correspondência.

Como funciona a correspondência

O EDM funciona ao comparar cadeias nos seus documentos e e-mails com valores na tabela de origem de informações confidenciais. Utiliza esta comparação para determinar se os valores no conteúdo analisado estão presentes na tabela. A determinação é feita ao comparar hashes criptográficos unidirecionais.

Dica

Pode utilizar os SITs EDM e os SITs predefinidos em que se baseiam, em conjunto nas regras DLP para melhorar a deteção de dados confidenciais. Utilize o SIT EDM com níveis de confiança mais elevados e o SIT predefinido com níveis de confiança mais baixos. Por exemplo, utilize um SIT EDM que procure o número de segurança social e outros dados de suporte com requisitos rigorosos com elevada confiança. Se configurado para correspondências de alta confiança, o EDM gera uma correspondência DLP quando são detetadas apenas algumas instâncias. Para acionar uma correspondência DLP quando for detetado um maior número de ocorrências, utilize um SIT incorporado, como o Número da Segurança Social dos E.U.A.

Como funcionam os elementos de suporte com o EDM

Conforme abordado em O que é diferente num SIT EDM, os elementos de suporte são elementos que, quando encontrados, fornecem provas que ajudam a aumentar a confiança da partida.

Com o suporte para SITs EDM, pode procurar e detetar elementos de suporte compostos por vários campos. As correspondências de elementos de suporte podem consistir em palavra-chave listas, palavra-chave dicionários, cadeias alfanuméricas individuais ou cadeias de múltiplos tokens.

Vejamos um exemplo. Suponha que pretende detetar números da Segurança Social dos E.U.A. Para aumentar a confiança da correspondência, os elementos de suporte incluem first name, last namee date of birth (DoB). Assim, a tabela de origem tem o seguinte aspeto:

SSN FirstName Sobrenome DoB
987-65-4320 Isaías Langer 05-05-1960
078-05-1120 Ana Bowman 11-24-1971
219-09-9999 Óscar Ala 02-12-1998

Ao procurar elementos de suporte correspondentes num ficheiro protegido, o SIT do EDM verifica cada elemento de suporte (individualmente e em combinação) assim que o elemento primário for detetado.

Por exemplo, digamos que o primeiro número de segurança social é detetado. Em seguida, a funcionalidade de correspondência de dados exata procura combinações de elementos de suporte em todas as colunas na tabela de origem:

  • Isaías
  • Langer
  • 05-05-1960
  • Isaiah Langer
  • Isaías 05-05-1960
  • Langer 05-05-1960
  • Isaiah Langer 05-05-1960

Correspondência de vários tokens

A correspondência de vários tokens foi concebida para ser utilizada quando o campo de provas corroborativas contém valores de vários tokens, mas a correspondência desses valores com um SIT não é facilmente conseguida. Por exemplo, quando tem um Address campo que contém valores como 1 Microsoft Way, Redmond, WA ou 123 Main Street, New York, NY.

Esta funcionalidade permite ao EDM comparar os hashes de palavras consecutivas no conteúdo com os hashes dos campos de vários tokens na sua origem de dados. Se forem idênticos, o EDM produz uma correspondência. Desta forma, o EDM pode detetar campos com vários tokens, como nomes, endereços, condições médicas ou quaisquer outros campos de provas corroborativas que possam conter mais do que uma palavra, desde que estejam marcados como vários tokens no esquema EDM.

Por exemplo, se selecionar correspondência de vários tokens como a opção de correspondência, obterá dois benefícios adicionais:

  1. As políticas irão detetar conteúdo que corresponda a vários campos nas colunas da tabela de origem.
  2. A tabela de origem pode incluir campos com valores de cadeia que consistem num número pré-configurado de palavras. A tabela seguinte mostra uma tabela de origem de exemplo:
SSN Nome Endereço
987-65-4320 Isaiah Langer Estrada Lincoln, 1432
078-05-1120 Ana Bowman Rua 8250
219-09-9999 Oscar Ward 424 205th Avenue

Com a correspondência de vários tokens, os campos Nome e Endereço de Rua são correspondidos como cadeias de elementos de suporte independentes e em combinação como campos individuais. Assim, quando correspondidas como cadeias de múltiplos tokens como elementos de suporte para o número 987-65-4320 da Segurança Social, as correspondências são:

  • Isaiah Langer
  • Estrada Lincoln, 1432

Quando combinada em combinação, a correspondência é a seguinte:

  • Isaiah Langer + 1432 Lincoln Road

A correspondência de vários tokens também é suportada para conjuntos de carateres de byte duplo, que geralmente não utilizam espaços para separar palavras.

Serviços suportados pelo EDM

Serviço Localizações
Prevenção Contra Perda de Dados do Microsoft Purview - SharePoint
- OneDrive
- Chat
do Teams - Exchange Online
- Dispositivos
Microsoft Defender for Cloud Apps - SharePoint
- OneDrive
Etiquetagem automática (lado do serviço) - SharePoint
- OneDrive
- Exchange Online
Etiquetagem automática (lado do cliente) - Word
– Excel
– PowerPoint
– Clientes de ambiente de trabalho do Exchange
Chave Gerida pelo Cliente - SharePoint
- OneDrive
- Chat
do Teams - Exchange Online
- Word
- Excel
- PowerPoint
- Clientes
de ambiente de trabalho do Exchange - Dispositivos
Descoberta eletrônica - SharePoint
- OneDrive
- Chat
do Teams - Exchange Online
- Word
- Excel
- PowerPoint
- Clientes de ambiente de trabalho do Exchange
Gerenciamento de riscos internos - SharePoint
- OneDrive
- Chat
do Teams - Exchange Online
- Word
- Excel
- PowerPoint
- Clientes de ambiente de trabalho do Exchange

Confira também