Valores de Clip
Este artigo descreve um componente do designer do Azure Machine Learning.
Use o componente Valores de clipe para identificar e, opcionalmente, substituir valores de dados acima ou abaixo de um limite especificado por uma média, uma constante ou outro valor substituto.
Conecte o componente a um conjunto de dados que tenha os números que deseja cortar, escolha as colunas com as quais trabalhar e, em seguida, defina um limite ou intervalo de valores e um método de substituição. O componente pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de dados original.
Como configurar valores de clipe
Antes de começar, identifique as colunas que deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.
O componente aplica os mesmos critérios e método de substituição a todas as colunas incluídas na seleção. Portanto, certifique-se de excluir colunas que você não deseja alterar.
Se precisar aplicar métodos de recorte ou critérios diferentes a algumas colunas, use uma nova instância de Valores de Clipe para cada conjunto de colunas semelhantes.
Adicione o componente Clip Values ao pipeline e conecte-o ao conjunto de dados que você deseja modificar. Você pode encontrar esse componente em Transformação de dados, na categoria Dimensionar e reduzir.
Em Lista de colunas, use o Seletor de Colunas para escolher as colunas às quais os Valores de Clipe serão aplicados.
Para Conjunto de limites, escolha uma das seguintes opções na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser cortados.
ClipPeaks: Ao recortar valores por picos, você especifica apenas um limite superior. Os valores maiores que esse valor de limite são substituídos.
ClipSubpeaks: Ao recortar valores por subpicos, você especifica apenas um limite inferior. Os valores que são menores que esse valor de limite são substituídos.
ClipPeaksAndSubpeaks: Ao recortar valores por picos e subpicos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos. Os valores que correspondem aos valores de limite não são alterados.
Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores limite:
- Limite inferior: exibido somente se você escolher ClipSubPeaks
- Limite superior: exibido somente se você escolher ClipPeaks
- Limite: exibido somente se você escolher ClipPeaksAndSubPeaks
Para cada tipo de limite, escolha Constante ou Percentil.
Se você selecionar Constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 foi usado como um valor de espaço reservado. Você pode escolher Constante para o limite superior e digitar 999 em Valor constante para o limite superior.
Se você escolher Percentil, restringirá os valores da coluna a um intervalo de percentis.
Por exemplo, suponha que você queira manter apenas os valores no intervalo de percentis 10-80 e substituir todos os outros. Você escolheria Percentil e, em seguida, digitaria 10 para Valor de percentil para limite inferior e digite 80 para Valor de percentil para limite superior.
Consulte a secção sobre percentis para obter alguns exemplos de como utilizar intervalos de percentis.
Defina um valor substituto.
Os números que correspondem exatamente aos limites especificados são considerados dentro do intervalo de valores permitido e, portanto, não são substituídos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor substituto.
- Valor de substituição para picos: define o valor a ser substituído por todos os valores de coluna maiores que o limite especificado.
- Valor de substituição para subpicos: define o valor a ser usado como um substituto para todos os valores de coluna que são menores do que o limite especificado.
- Se você usar a opção ClipPeaksAndSubpeaks , poderá especificar valores de substituição separados para os valores cortados superior e inferior.
Os seguintes valores de substituição são suportados:
Limite: substitui os valores cortados pelo valor de limite especificado.
Média: substitui os valores cortados pela média dos valores da coluna. A média é calculada antes de os valores serem cortados.
Mediana: substitui os valores cortados pela mediana dos valores da coluna. A mediana é calculada antes de os valores serem cortados.
Falta. Substitui os valores cortados pelo valor ausente (vazio).
Adicionar colunas de indicador: selecione esta opção se quiser gerar uma nova coluna que informe se a operação de recorte especificada foi ou não aplicada aos dados nessa linha. Essa opção é útil quando você está testando um novo conjunto de valores de recorte e substituição.
Sinalizador de substituição: indique como deseja que os novos valores sejam gerados. Por padrão, Valores de Clipe constrói uma nova coluna com os valores de pico cortados para o limite desejado. Novos valores substituem a coluna original.
Para manter a coluna original e adicionar uma nova coluna com os valores cortados, desmarque esta opção.
Envie o pipeline.
Clique com o botão direito do mouse no componente Valores de clipe e selecione Visualizar ou selecione o componente e alterne para a guia Saídas no painel direito, clique no ícone de histograma nas saídas de porta, para revisar os valores e garantir que a operação de recorte atendeu às suas expectativas.
Exemplos de clipping usando percentis
Para entender como o recorte por percentis funciona, considere um conjunto de dados com 10 linhas, que têm uma instância cada um dos valores de 1 a 10.
Se você estiver usando percentil como o limite superior, no valor para o percentil 90, 90% de todos os valores no conjunto de dados devem ser menores do que esse valor.
Se você estiver usando percentil como o limite inferior, no valor do percentil 10, 10% de todos os valores no conjunto de dados devem ser menores que esse valor.
Para set of thresholds, escolha ClipPeaksAndSubPeaks.
Em Limite superior, escolha Percentil e, para Número de percentil, digite 90.
Para Valor substituto superior, escolha Valor ausente.
Em Limite inferior, escolha Percentil e, para Número de percentil, digite 10.
Em Valor substituto mais baixo, escolha Valor ausente.
Desmarque a opção Substituir sinalizador e selecione a opção Adicionar coluna indicador.
Agora tente o mesmo pipeline usando 60 como o limite de percentil superior e 30 como o limite de percentil inferior, e use o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:
Substitua por faltante; Limiar superior = 90; Limiar inferior = 20
Substituir por limiar; Percentil superior = 60; Percentil inferior = 40
Dados originais | Substituir por ausente | Substituir por limite |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSO 4, FALSO 5, FALSO 6, FALSO 7, FALSO 8, FALSO 9, FALSO TRUE |
4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 5, FALSO 6, FALSO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO |
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.