Remover o componente Linhas duplicadas

Artigo
09/01/2024

Este artigo descreve um componente no designer do Azure Machine Learning.

Use este componente para remover possíveis duplicatas de um conjunto de dados.

Por exemplo, suponha que seus dados se pareçam com o seguinte e representem vários registros para pacientes.

ID do Doente	Initials	Sexo	Antiguidade	Admitido
1	F.M.	Seg	53	Jan
2	F.A.M.	Seg	53	Jan
3	F.A.M.	Seg	24	Jan
3	F.M.	Seg	24	Fev
4	F.M.	Seg	23	Fev
	F.M.	Seg	23
5	F.A.M.	Seg	53
6	F.A.M.	Seg	NaN
7	F.A.M.	Seg	NaN

Claramente, este exemplo tem várias colunas com dados potencialmente duplicados. Se eles são realmente duplicados depende do seu conhecimento dos dados.

Por exemplo, você pode saber que muitos pacientes têm o mesmo nome. Você não eliminaria duplicatas usando nenhuma coluna de nome, apenas a coluna ID . Dessa forma, apenas as linhas com valores de ID duplicados são filtradas, independentemente de os pacientes terem o mesmo nome ou não.
Como alternativa, você pode decidir permitir duplicatas no campo ID e usar alguma outra combinação de arquivos para encontrar registros exclusivos, como nome, sobrenome, idade e sexo.

Para definir os critérios para saber se uma linha é duplicada ou não, especifique uma única coluna ou um conjunto de colunas para usar como chaves. Duas linhas são consideradas duplicadas somente quando os valores em todas as colunas de chave são iguais. Se alguma linha tiver valor ausente para chaves, elas não serão consideradas linhas duplicadas. Por exemplo, se Sexo e Idade estiverem definidos como Chaves na tabela acima, as linhas 6 e 7 não serão linhas duplicadas, dado que têm valor ausente em Idade.

Quando você executa o componente, ele cria um conjunto de dados candidato e retorna um conjunto de linhas que não têm duplicatas no conjunto de colunas especificado.

Importante

O conjunto de dados de origem não é alterado; Esse componente cria um novo conjunto de dados que é filtrado para excluir duplicatas, com base nos critérios especificados.

Como usar Remover linhas duplicadas

Adicione o componente ao seu pipeline. Você pode encontrar o componente Remover linhas duplicadas em Transformação de dados, Manipulação.
Conecte o conjunto de dados que você deseja verificar se há linhas duplicadas.
No painel Propriedades, em Expressão de filtro de seleção de coluna de chave, clique em Iniciar seletor de coluna, para escolher colunas a serem usadas na identificação de duplicatas.

Neste contexto, Key não significa um identificador único. Todas as colunas selecionadas usando o Seletor de Colunas são designadas como colunas de chave. Todas as colunas não selecionadas são consideradas colunas não-chave. A combinação de colunas selecionadas como teclas determina a exclusividade dos registros. (Pense nisso como uma instrução SQL que usa várias uniões de igualdade.)

Exemplos:
- "Quero garantir que os IDs sejam exclusivos": escolha apenas a coluna ID.
- "Quero garantir que a combinação de nome, sobrenome e ID seja exclusiva": selecione as três colunas.
Use a caixa de seleção Reter primeira linha duplicada para indicar qual linha retornar quando duplicatas forem encontradas:
- Se selecionada, a primeira linha é retornada e outras descartadas.
- Se você desmarcar essa opção, a última linha duplicada será mantida nos resultados e outras serão descartadas.
Envie o pipeline.
Para rever os resultados, clique com o botão direito do rato no componente e selecione Visualizar.

Gorjeta

Se os resultados forem difíceis de entender ou se você quiser excluir algumas colunas da consideração, poderá remover colunas usando o componente Selecionar colunas no conjunto de dados.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.

Partilhar via

Remover o componente Linhas duplicadas

Como usar Remover linhas duplicadas

Próximos passos

Comentários

Recursos adicionais