Eliminação de duplicados nos resultados da pesquisa de Deteção de Dados Eletrónicos
Dica
A Deteção de Dados Eletrónicos (pré-visualização) está agora disponível no novo portal do Microsoft Purview. Para saber mais sobre como utilizar a nova experiência de Deteção de Dados Eletrónicos, veja Saiba mais sobre a Deteção de Dados Eletrónicos (pré-visualização).
Este artigo descreve como funciona a eliminação de duplicados dos resultados da pesquisa de Deteção de Dados Eletrónicos e explica as limitações do algoritmo de eliminação de duplicados.
Ao utilizar ferramentas de Deteção de Dados Eletrónicos para exportar os resultados de uma pesquisa de Deteção de Dados Eletrónicos, tem a opção de eliminar a eliminação de duplicados dos resultados exportados. O que isso significa? Quando ativa a eliminação de duplicados (por predefinição, a eliminação de duplicados não está ativada), apenas uma cópia de uma mensagem de e-mail é exportada, apesar de terem sido encontradas várias instâncias da mesma mensagem nas caixas de correio que foram pesquisadas. A eliminação de duplicados ajuda-o a poupar tempo ao reduzir o número de itens que tem de rever e analisar após a exportação dos resultados da pesquisa. No entanto, é importante compreender como funciona a eliminação de duplicados e ter em atenção que existem limitações no algoritmo que podem fazer com que um item exclusivo seja marcado como duplicado durante o processo de exportação.
As informações neste artigo são aplicáveis ao exportar os resultados da pesquisa com uma das seguintes ferramentas de Deteção de Dados Eletrónicos:
- Pesquisa de conteúdo no portal de conformidade do Microsoft Purview
- Descoberta Eletrônica In-loco no Exchange Online
- O Centro de Deteção de Dados Eletrónicos no SharePoint Online
Dica
Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.
Como as mensagens duplicadas são identificadas
As ferramentas de Deteção de Dados Eletrónicos utilizam uma combinação das seguintes propriedades de e-mail para determinar se uma mensagem é duplicada:
- InternetMessageId – esta propriedade especifica o identificador de mensagem de Internet de uma mensagem de e-mail, que é um identificador globalmente exclusivo que se refere a uma versão específica de uma mensagem específica. Este ID é gerado pelo programa de cliente de e-mail do remetente ou pelo sistema de e-mail anfitrião que envia a mensagem. Se uma pessoa enviar uma mensagem para mais do que um destinatário, o ID da mensagem da Internet é o mesmo para cada instância da mensagem. As revisões subsequentes à mensagem original recebem um identificador de mensagem diferente.
- ConversationTopic - Esta propriedade especifica o assunto do tópico de conversação de uma mensagem. O valor da propriedade ConversationTopic é a cadeia que descreve o artigo geral da conversação. Uma conversação consiste numa mensagem inicial e em todas as mensagens enviadas em resposta à mensagem inicial. As mensagens na mesma conversação têm o mesmo valor para a propriedade ConversationTopic . Normalmente, o valor desta propriedade é a linha Assunto da mensagem inicial que gerou a conversação.
- BodyTagInfo – esta é uma propriedade interna do arquivo do Exchange. O valor desta propriedade é calculado ao verificar vários atributos no corpo da mensagem. Esta propriedade é utilizada para identificar diferenças no corpo das mensagens.
Durante o processo de exportação da Deteção de Dados Eletrónicos, estas três propriedades são comparadas para cada mensagem que corresponda aos critérios de pesquisa. Se estas propriedades forem idênticas para duas (ou mais) mensagens, essas mensagens são determinadas como duplicadas e o resultado é que apenas uma cópia da mensagem será exportada se a eliminação de duplicados estiver ativada. A mensagem exportada é conhecida como o "item de origem". As informações sobre mensagens duplicadas estão incluídas no Results.csv e Manifest.xml relatórios incluídos nos resultados de pesquisa exportados. No ficheiro Results.csv , uma mensagem duplicada é identificada por ter um valor na coluna Duplicar para Item . O valor nesta coluna corresponde ao valor na coluna Identidade do Item da mensagem que foi exportada.
Os gráficos seguintes mostram como as mensagens duplicadas são apresentadas no Results.csv e Manifest.xml relatórios que são exportados com os resultados da pesquisa. Estes relatórios não incluem as propriedades de e-mail descritas anteriormente, que são utilizadas no algoritmo de eliminação de duplicados. Em vez disso, os relatórios incluem a propriedade Identidade do Item atribuída aos itens pelo arquivo do Exchange.
Results.csv relatório (visualizado no Excel)
Manifest.xml relatório (visualizado no Excel)
Além disso, outras propriedades de mensagens duplicadas são incluídas nos relatórios de exportação. Isto inclui a caixa de correio na qual a mensagem duplicada está localizada, se a mensagem foi enviada para um grupo de distribuição e se a mensagem era Cc'd ou Bcc'd para outro utilizador.
Limitações do algoritmo de eliminação de duplicados
Existem algumas limitações conhecidas do algoritmo de eliminação de duplicados que podem fazer com que os itens exclusivos sejam marcados como duplicados. É importante compreender estas limitações para que possa decidir se deve ou não utilizar a funcionalidade de eliminação de duplicados opcional.
Existe uma situação em que a funcionalidade de eliminação de duplicados pode identificar erradamente uma mensagem como duplicada e não exportá-la (mas ainda a citar como um duplicado nos relatórios de exportação). Estas são mensagens que um utilizador edita, mas não envia. Por exemplo, digamos que um utilizador seleciona uma mensagem no Outlook, copia o conteúdo da mensagem e, em seguida, cola-a numa nova mensagem. Em seguida, o utilizador altera uma das cópias ao remover ou adicionar um anexo ou ao alterar a linha do assunto ou o próprio corpo. Se estas duas mensagens corresponderem à consulta de uma pesquisa de Deteção de Dados Eletrónicos, apenas uma das mensagens será exportada se a eliminação de duplicados estiver ativada quando os resultados da pesquisa forem exportados. Assim, apesar de a mensagem original ou a mensagem copiada ter sido alterada, nenhuma das mensagens revistas foi enviada e, por conseguinte, os valores das propriedades InternetMessageId, ConversationTopic e BodyTagInfo não foram atualizados. No entanto, conforme explicado anteriormente, ambas as mensagens estão listadas nos relatórios de exportação
As mensagens exclusivas também podem ser marcadas como duplicadas quando a funcionalidade de proteção da página Copiar na Escrita está ativada, como no caso de uma caixa de correio estar em Suspensão de Litígios ou In-Place Suspensão. A funcionalidade Copiar na Escrita copia a mensagem original (e guarda-a na pasta Versões da pasta Itens Recuperáveis) do utilizador antes de a revisão para o item original ser guardada. Neste caso, a cópia revista e a mensagem original (na pasta Itens Recuperáveis) podem ser consideradas mensagens duplicadas e, portanto, apenas uma delas seria exportada.
Importante
Se as limitações do algoritmo de eliminação de duplicados podem afetar a qualidade dos resultados da pesquisa, não deve ativar a eliminação de duplicados ao exportar itens. Se é pouco provável que as situações descritas nesta secção sejam um fator nos resultados da pesquisa e pretenda reduzir o número de itens com maior probabilidade de duplicados, deve considerar ativar a eliminação de duplicados.
Mais informações
Para obter mais informações sobre a exportação de resultados da pesquisa, consulte: