Remover Linhas Duplicadas
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Remove as linhas duplicadas de um conjunto de dados
Categoria: transformação/manipulação de dados
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
este artigo descreve como usar o módulo remover linhas duplicadas no Machine Learning Studio (clássico), para remover duplicatas potenciais de um conjunto de uma.
Por exemplo, suponha que os dados sejam semelhantes aos dados a seguir e representem vários registros para pacientes.
PatientID | Iniciais | Sexo | Idade | Admitido em |
---|---|---|---|---|
1 | F.M. | M | 53 | Jan |
2 | F.A.M. | M | 53 | Jan |
3 | F.A.M. | M | 24 | Jan |
3 | F.M. | M | 24 | Fev |
4 | F.M. | M | 23 | Fev |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 |
Esse exemplo tem várias colunas contendo dados potencialmente duplicados. Saber se eles são realmente duplicados vai depender do seu conhecimento dos dados.
Por exemplo, você pode saber que muitos pacientes têm o mesmo nome. Você não eliminaria duplicatas usando colunas de nome, apenas a coluna de ID. Assim, somente as linhas com valores de ID duplicados são filtradas, independentemente de os pacientes terem o mesmo nome ou não.
Como alternativa, você pode optar por permitir duplicatas no campo ID e usar alguma outra combinação de arquivamentos para localizar registros exclusivos, como nome, sobrenome, idade e sexo.
Para definir os critérios para saber se uma linha está duplicada ou não, especifique uma coluna ou um conjunto de colunas para usar como chaves. Duas linhas são consideradas duplicatas somente quando os valores em todas as colunas de chave são iguais.
Quando você executa o módulo, ele cria um conjunto de dados candidato e retorna um conjunto de linhas que não tem duplicatas no conjunto de colunas especificado.
Importante
O conjunto de dados de origem não é alterado; o módulo cria um conjunto de dados que é filtrado para excluir as duplicatas com base nos critérios especificados.
Como usar o módulo Remover Linhas Duplicadas
Adicione o módulo ao seu experimento. Você pode encontrar o módulo Remover Linhas Duplicadas em Transformação de Dados, Manipulação.
Conecte o conjunto de dados no qual você quer verificar as linhas duplicadas.
No painel Propriedades, em Expressão de filtro de seleção de coluna de chave, clique em Inicializar seletor de coluna, para escolher as colunas a serem usadas na identificação de duplicatas.
Nesse contexto, a Chave não significa um identificador exclusivo. Todas as colunas que você seleciona usando o Seletor de Coluna são designadas como colunas de chave. Todas as colunas não selecionadas são consideradas colunas não chave. A combinação de colunas que você seleciona como chaves determina a exclusividade dos registros. (imagine-o como uma instrução SQL que usa várias junções de igualdade.)
Exemplos:
- "Quero garantir que as IDs sejam exclusivas": escolha apenas a coluna de ID.
- "Quero garantir que a combinação de nome, sobrenome e ID seja exclusiva": selecione as três colunas.
Use a caixa de seleção Reter primeira linha duplicada para indicar qual linha retornar quando duplicatas forem encontradas:
- Se selecionada, a primeira linha será retornada e as outras vão ser descartadas.
- Se você não selecionar essa opção, a última linha duplicada será mantida nos resultados e outras serão descartadas.
Consulte a seção observações técnicas para obter informações sobre como os valores de missinng são tratados.
Execute o experimento ou clique no módulo e selecione executar selecionado.
Para examinar os resultados, clique com o botão direito do mouse no módulo, selecione conjunto de resultadose clique em Visualizar.
Dica
Se os resultados forem difíceis de entender ou se você quiser excluir algumas colunas da consideração, remova as colunas usando o módulo Selecionar Colunas no Conjunto de Dados.
Exemplos
Para ver exemplos de como esse módulo é usado, consulte a Galeria de ia do Azure:
Detecção de câncer mama: a remoção de linhas duplicadas é usada para consolidar os conjuntos de testes de treinamento e de teste após a adição de colunas de recursos.
Recomendação de filme: usa remover linhas duplicadas para garantir que haja apenas uma classificação de usuário por filme.
Análise de sentimentos do Twitter: remover linhas duplicadas é aplicada somente às colunas ID e popularidade, para garantir que haja apenas um valor ordinal de classificação por filme. Em outras palavras, um filme não pode ser 1º e terceiro, portanto, um único valor é usado mesmo que os usuários tenham classificado o filme de forma diferente.
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Detalhes de implementação
O módulo funciona fazendo um loop através de todas as linhas do conjunto de dados de entrada. Ele coleta em um conjunto de resultados de saída candidato todas as linhas em que a combinação exclusiva de valores de coluna de chave aparece pela primeira vez.
O tipo de matriz de colunas é preservado independentemente dos resultados de filtragem de linha. Você não mpode forçar a matriz a um tipo de dados particulares ao filtrar valores inválidos. O tipo de matriz de coluna é baseado em todos os valores na coluna. Essa restrição também se aplica ao filtrar valores ausentes.
O algoritmo usado para comparar valores de dados é forçado por hash.
Valores ausentes
O conjunto de dados de entrada pode ter valores ausentes em colunas não chave e de chave. Essas regras se aplicam a valores ausentes:
Um valor ausente é considerado um valor válido nas colunas de chave. Os valores ausentes podem estar presentes em ambas as chaves.
Em um conjunto de dados esparso, o valor ausente é considerado igual somente se ele for igual a representação padrão de um valor esparso.
Nas colunas principais, um valor ausente é considerado igual a outros valores ausentes, mas não igual a valores não ausentes.
Entrada esperada
Nome | Tipo | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Expressão de filtro de seleção de coluna chave | any | ColumnSelection | Escolha as colunas principais para usar ao pesquisar por duplicatas. | |
Manter a primeira linha duplicada | any | Boolean | true | Indique se deseja manter a primeira linha de um conjunto de duplicatas e descarte as outras. Se for Falso, a última linha duplicada encontrada é mantida. |
Saída
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados filtrado |
Exceções
Exceção | Descrição |
---|---|
Erro 0003 | Ocorre uma exceção se um ou mais conjuntos de entrada são nulos ou estão vazios. |
Erro 0020 | Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados que passou para o módulo é muito pequeno. |
Erro 0017 | Ocorrerá uma exceção se uma ou mais colunas especificadas tem um tipo que não é suportado pelo módulo atual. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.