Recortar valores
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Detecta valores atípicos e recorta ou substitui valores
Categoria: Transformação/Escala e Redução de Dados
Observação
Aplica-se a: Machine Learning Studio (clássico) somente
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
Este artigo descreve como usar o módulo Valores de Clipe no Machine Learning Studio (clássico) para identificar e, opcionalmente, substituir valores de dados acima ou abaixo de um limite especificado. Isso é útil quando você deseja remover as saídas ou substituí-las por uma média, uma constante ou outro valor substituto.
Você conecta o módulo a um conjunto de dados que tem os números que deseja recortar, escolhe as colunas com as quais deseja trabalhar e define um limite ou intervalo de valores e um método de substituição. O módulo pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de banco de um original.
Como configurar Recortar valores
Antes de começar, identifique as colunas que você deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.
O módulo aplica os mesmos critérios e método de substituição a todas as colunas que você incluir na seleção. Portanto, exclua as colunas que você não deseja alterar.
Se você precisar aplicar métodos de recorte ou diferentes critérios a algumas colunas, deverá usar uma nova instância de Recortar Valores para cada conjunto de colunas semelhantes.
Adicione o módulo Valores de Clipe ao seu experimento e conecte-o ao conjuntos de dados que você deseja modificar. Encontre esse módulo em Transformação de Dados, na categoria Dimensionar e reduzir.
Em Lista de colunas, use o seletor de coluna para escolher as colunas às quais Recortar valores será aplicado.
Para o Conjunto de limites, escolha uma das opções a seguir na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser recortados.
ClipPeaks: quando você corta valores por picos, especifique apenas um limite superior. Valores maiores que esse valor de limite são substituídos ou removidos.
ClipSubpeaks: ao cortar valores por sub-picos, você especifica apenas um limite inferior. Valores menores que esse valor de limite são substituídos ou removidos.
ClipPeaksAndSubpeaks: ao cortar valores por picos e sub-picos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos ou removidos. Os valores que correspondem aos valores de limite não são alterados.
Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores de limite:
- Limite inferior: exibido somente se você escolher ClipSubPeaks
- Limite superior: exibido somente se você escolher ClipPeaks
- Limite: exibido somente se você escolher ClipPeaksAndSubPeaks
Para cada tipo de limite, escolha Constante ou Percentil.
Se você selecionar Constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 tenha sido usado como um valor de espaço reservado. Você pode escolher Constante para o limite superior e digitar 999 em Valor constante do limite superior.
Se você escolher Percentil, restringirá os valores de coluna a um intervalo percentual.
Por exemplo, suponha que você queira manter apenas os valores no intervalo percentual de 10 a 80 e substituir todos os outros. Você escolhe Percentil e, em seguida, digite 10 para Valor de percentil de limite inferior e digite 80 para Valor de percentil de limite superior.
Confira a seção sobre percentis para ver alguns exemplos de como usar intervalos de percentil.
Defina um valor de substituição.
Números que exatamente corresponderem aos limites especificados são considerados dentro do intervalo permitido de valores e, portanto, não são substituídos nem removidos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor de substituição.
- Valor substituto para picos: define o valor a ser substituído para todos os valores de coluna maiores que o limite especificado.
- Valor substituto para subpicos: define o valor a ser usado como substituto para todos os valores de coluna menores que o limite especificado.
- Se você usar a opção ClipPeaksAndSubpeaks, poderá especificar valores de substituição separados para os valores recortados superior e inferior.
Os seguintes valores de substituição têm suporte:
Limite: substitui valores recortados pelo valor de limite especificado.
Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.
Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.
Ausente. Substitui os valores recortados pelo valor ausente (vazio).
Adicionar colunas de indicador: selecione esta opção se desejar gerar uma nova coluna que informa se a operação de recorte especificada foi aplicada aos dados nessa linha. Essa opção é particularmente útil quando você está testando um novo conjunto de valores de recorte e substituição.
Substituir sinalizador: indica como você deseja que os novos valores sejam gerados. Por padrão, Recortar valores constrói uma nova coluna com os valores de pico recortados para o limite desejado. Novos valores substituem a coluna original.
Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desmarque essa opção.
Execute o experimento.
Clique com o botão direito do mouse na saída do módulo Valores de Clipe e selecione Visualizar para revisar os valores e garantir que a operação de recorte atendeu às suas expectativas.
Exemplos
Para ver como esse módulo é usado em experimentos de aprendizado de máquina, consulte o Galeria de IA do Azure:
- Outliers de incêndio de floresta: este exemplo da coutilização EdX na ciência de dados demonstra métodos de recorte usando o conjuntos de dados de exemplo De incêndios florestais.
Recorte usando percentis
Para entender como funciona o recorte de percentuais, considere um conjunto de dados com 10 linhas, que tenham uma instância cada dos valores de 1 a 10.
Se você estiver usando o percentil como o limite superior, o valor para o 90º percentil, 90 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.
Se você estiver usando o percentil como o limite inferior, o valor para o 10º percentil, 10 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.
Para Conjunto de limites, escolha ClipPeaksAndSubPeaks.
Para Limite superior, escolha Percentil e para Número de percentil, digite 90.
Para Valor superior de substituição, escolha Valor Ausente.
Para Limite inferior, escolha Percentil e para Número de percentil, digite 10.
Para Valor inferior de substituição, escolha Valor Ausente.
Desmarque a opção Sinalizador de substituição e selecione a opção Adicionar coluna indicadora.
Agora tente a mesma experiência usando 60 como o limite superior de percentil e 30 como o limite inferior de percentil e usar o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:
Substituir por ausente; Limite superior = 90; Limite inferior = 10
Substituir por limite; Percentil superior = 60; Percentil inferior = 30
Dados originais | Substituir por ausente | Substituir por limite |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSO 4, FALSO 5, FALSO 6, FALSO 7, FALSO 8, FALSO 9, FALSO TRUE |
4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 5, FALSO 6, FALSO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO |
Observações técnicas
Você pode usar Valores de Clipe somente em colunas que contêm números ou valores de data/hora.
Se você incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.
Valores ausentes são ignorados quando o valor médio ou mediano for calculado para uma coluna.
Valores do Clipe não oferece suporte a dados ordinais.
Valores ausentes não são alterados quando eles são propagados para o conjunto de dados de saída. A coluna que indica valores recortados sempre contém FALSE para valores ausentes.
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Adicionar colunas de indicador | TRUE/FALSE | Boolean | FALSE | Se o indicador para recorte de um valor deve ser feito |
Valor constante para o limite inferior | any | Float | -1 | Valor abaixo do qual os subpeaks serão recortados |
Valor constante para o limite superior | any | Float | 1 | Valor acima do qual os picos serão recortados |
Valor constante do limite inferior | any | Float | -1 | Valor abaixo do qual os subpeaks são recortados |
Valor constante do limite superior | >=1 | Float | 1 | Valor acima do qual os picos são recortados |
Lista de colunas | ColumnSelection | Lista de colunas a ser reilhada | ||
Valor inferior de substituição | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado para subpeaks de recorte |
Limite inferior | Constante Percentil |
Modo de limite | Constante | Valor abaixo do qual os subpeaks serão recortados no modo |
Sinalizador de substituição | TRUE/FALSE | Boolean | TRUE | Se colunas de dados recortados devem substituir colunas de dados de entrada |
Número de percentual para o limite inferior | [1;99] | Integer | 1 | Número de percentil abaixo do qual os subpeaks serão recortados |
Número de percentual para o limite superior | [1;99] | Inteiro | 99 | Número de percentil acima do qual os picos serão recortados |
Número de percentual do limite inferior | [1; 99] | Integer | 1 | Número percentual abaixo do qual os subpicos são recortados |
Número de percentual do limite superior | [1; 99] | Inteiro | 99 | Número percentual acima do qual os picos são recortados |
Conjunto de limites | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Conjunto de limites | ClipPeaks | Especifica o tipo de limite a ser usado |
Valor de substituição para picos | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado durante picos de corte |
Valor de substituição para subpeaks | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado durante os subpicos de corte |
Limite | Constante Percentil |
Modo de limite | Constante | Valor acima e abaixo do qual os picos serão do modo recortado |
Valor superior de substituição | Limite Média Mediana Ausente |
Limite | Limite | O valor usado para picos de corte |
Limite superior | Constante Percentil |
Modo de limite | Constante | Valor acima do qual os picos serão o modo recortado |
Saídas
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados com colunas recortadas |
Exceções
Exceção | Descrição |
---|---|
Erro 0011 | Ocorrerá uma exceção se o argumento de conjunto de colunas passado não se aplicar a nenhuma das colunas do conjunto de dados. |
Erro 0017 | Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.