Exportar dados de origem para tipos de informações confidenciais baseados em correspondência de dados exatas
Dica
Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.
Aplicável a
A tabela de dados confidenciais é um ficheiro de texto que contém linhas de valores com os quais compara o conteúdo nos seus documentos para identificar dados confidenciais. Estes valores podem ser informações de identificação pessoal, registos de produtos ou outros dados confidenciais sob a forma de texto que pretende detetar no seu conteúdo e proteger.
Depois de exportar os dados na tabela (num dos formatos suportados), pode criar um esquema EDM.
Definir o tipo sensível ao EDM
Quando define o seu tipo sensível EDM, uma das decisões mais críticas é definir quais os campos que são os campos principais. Os campos primários têm de seguir um padrão detetável e ser definidos como campos pesquisáveis (colunas) no esquema EDM. Os campos secundários não precisam de seguir qualquer padrão, uma vez que serão comparados com todas as correspondências de texto adjacentes aos campos primários.
Utilize estas regras para o ajudar a decidir que colunas deve utilizar como campos primários:
- Se tiver de detetar dados confidenciais com base na presença de um único valor que corresponda a um campo na tabela de dados confidenciais, independentemente da presença de quaisquer outros dados confidenciais que os rodeiam, essa coluna tem de ser definida como um elemento primário para um SIT EDM.
- Se forem detetadas múltiplas combinações de campos diferentes na tabela de dados confidenciais no conteúdo, identifique as colunas que são comuns à maioria dessas combinações e designe-as como elementos principais. Designe as combinações dos outros campos como elementos secundários.
- Se uma coluna que pretende utilizar como elemento primário não seguir um padrão detetável, como
any text string
ou seguir padrões detetáveis que estariam presentes algures numa grande percentagem de documentos ou e-mails, selecione outras colunas, melhor estruturadas, como elementos primários.
Por exemplo, se tiver as colunas full name
, date of birth
, account number
e Social Security Number
, mesmo que os nomes próprios e apelidos sejam as colunas comuns às diferentes combinações de dados que pretende detetar, essas cadeias não seguem padrões que são facilmente identificáveis e podem ser difíceis de definir como um tipo de informação confidencial. Existem vários motivos para tal:
- alguns nomes podem não começar com um caráter maiúscula
- alguns podem ser formados por duas, três ou mais palavras/cadeias
- alguns podem conter números ou outros carateres não alfabéticos. As datas de nascimento podem ser identificadas mais facilmente, mas, uma vez que cada e-mail e a maioria dos documentos irão conter pelo menos uma data, um
DateOfBirth
campo também não é um bom candidato. Em vez disso, utilize campos como números da Segurança Social e números de conta, que são bons candidatos para campos primários.
Modelos de ficheiro de exemplo
Para facilitar a seleção dos campos primários, reunimos alguns modelos de ficheiro de exemplo para:
Trata-se de ficheiros de valores separados por vírgulas (.csv) que têm os valores mais utilizados nesses verticais da indústria como cabeçalhos de coluna, juntamente com valores sintéticos gerados pela Microsoft nas linhas. Utilize os cabeçalhos de coluna para o ajudar a decidir sobre os campos primários. A melhor prática é exportar apenas os dados de origem necessários. Os cabeçalhos de coluna sugerem os campos mais relevantes.
Para saber como utilizar os modelos de ficheiro de exemplo, veja Como utilizar os modelos de ficheiro de exemplo.
Guardar dados confidenciais no formato.csv, .tsv ou separados por tubos
Identifique as informações confidenciais que deseja usar. Exporte os dados para uma aplicação como o Microsoft Excel e guarde o ficheiro como um ficheiro de texto. O ficheiro pode ser guardado em qualquer um dos seguintes formatos: .csv (valores separados por vírgulas), .tsv (valores separados por tabulações) ou formato (|)(separados por tubos). O formato .tsv é recomendado nos casos em que os valores de dados podem incluir vírgulas, como endereços de rua. O arquivo de dados pode incluir um máximo de:
- Até 100 milhões de linhas de dados confidenciais
- Até 32 colunas (campos) por fonte de dados
- Até 10 colunas (campos) marcadas como pesquisáveis
Estrutura os dados confidenciais no ficheiro .csv ou .tsv de forma a que a primeira linha inclua os nomes dos campos utilizados para a classificação baseada em EDM. No ficheiro, poderá ter nomes de campos como "ssn", "birthdate", "firstname", "lastname". Os nomes de cabeçalhos de coluna não podem conter espaços ou sublinhados. Por exemplo, o arquivo .csv de amostra que usamos neste artigo é denominado PatientRecords.csv e suas colunas incluem PatientID, MRN, LastName, FirstName, SSN e mais.
Preste atenção ao formato dos campos de dados confidenciais; em particular, os campos que podem conter vírgulas nos respetivos conteúdos. Por exemplo, um endereço de rua que contenha o valor "Seattle, WA" seria analisado como dois campos separados se o formato .csv estiver selecionado. Para evitar esta situação, utilize o formato .tsv ou coloque a vírgula entre valores por aspas duplas na tabela de dados confidenciais. Se a vírgula que contém valores também contiver espaços, terá de criar um SIT personalizado que corresponda ao formato correspondente. Por exemplo, um SIT que deteta uma cadeia de várias palavras com vírgulas e espaços na mesma.
Próxima etapa
- Para uma nova experiência: Criar um ficheiro de exemplo SIT EDM para a nova experiência
ou
- Para experiência clássica: criar o esquema para tipos de informações confidenciais baseados em correspondência de dados exatas