Partilhar via


Valores de Clip

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Deteta os mais distantes e clips ou substitui os seus valores

Categoria: Transformação de Dados / Escala e Redução

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Valores de Clip em Machine Learning Studio (clássico), para identificar e substituir opcionalmente valores de dados acima ou abaixo de um limiar especificado. Isto é útil quando se pretende remover os outliers ou substituí-los por um valor médio, constante ou outro valor de substituição.

Liga o módulo a um conjunto de dados que tem os números que pretende cortar, escolhe as colunas para trabalhar e, em seguida, define um limiar ou intervalo de valores e um método de substituição. O módulo pode obter apenas os resultados, ou os valores alterados anexados ao conjunto de dados originais.

Como configurar valores de clipe

Antes de começar, identifique as colunas que pretende cortar e o método a utilizar. Recomendamos que teste primeiro qualquer método de recorte num pequeno subconjunto de dados.

O módulo aplica os mesmos critérios e método de substituição a todas as colunas que inclui na seleção. Portanto, certifique-se de excluir colunas que não quer mudar.

Se precisar de aplicar métodos de clipping ou critérios diferentes em algumas colunas, deve utilizar uma nova instância de Valores de Clip para cada conjunto de colunas semelhantes.

  1. Adicione o módulo Valores de Clip à sua experiência e conecte-o ao conjunto de dados que pretende modificar. Pode encontrar este módulo na categoria De Transformação de Dados, na categoria Escala e Redução .

  2. Na Lista de colunas, utilize o Seletor de Colunas para escolher as colunas às quais serão aplicados valores de clipe .

  3. Para definir limiares, escolha uma das seguintes opções da lista de abandono. Estas opções determinam como define os limites superiores e inferiores para valores aceitáveis vs. valores que devem ser cortados.

    • ClipPeaks: Quando se cortam valores por picos, especificamos apenas um limite superior. Valores superiores a esse valor limite são substituídos ou removidos.

    • ClipSubpeaks: Quando se cortam valores por sub-picos, especificamos apenas um limite inferior. Valores inferiores a esse valor limite são substituídos ou removidos.

    • ClipPeaksAndSubpeaks: Quando se cortam valores por picos e sub-picos, pode especificar tanto os limites superiores como os mais baixos. Os valores que estão fora desse alcance são substituídos ou removidos. Os valores que correspondem aos valores de fronteira não são alterados.

  4. Dependendo da sua seleção na etapa anterior, pode definir os seguintes valores-limiar:

    • Limiar inferior: Exibido apenas se escolher ClipSubPeaks
    • Limiar superior: Exibido apenas se escolher clipPeaks
    • Limiar: Exibido apenas se escolher ClipPeaksAndSubPeaks

    Para cada tipo de limiar, escolha Constant ou Percentil.

  5. Se selecionar Constant, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, assuma que sabe que o valor 999 foi usado como um valor reservado. Pode escolher Constant para o limiar superior, e digitar 999 em valor constante do limiar superior.

  6. Se escolher o Percentil, limita os valores da coluna a um intervalo percentil.

    Por exemplo, assuma que deseja manter apenas os valores na gama de percentil de 10-80, e substituir todos os outros. Você escolheria Percentil, e depois tipo 10 para o valor percentil de limiar inferior, e tipo 80 para o valor percentil do limiar superior.

    Consulte a secção sobre percentils para obter alguns exemplos de como utilizar gamas de percentil.

  7. Defina um valor substituto.

    Os números que correspondem exatamente aos limites especificados são considerados dentro da gama de valores permitida, não estando assim substituídos ou removidos. Todos os números que se encontram fora do intervalo especificado são substituídos pelo valor de substituição.

    • Valor de substituição para picos: Define o valor para substituir todos os valores da coluna que sejam superiores ao limiar especificado.
    • Valor de substituição para subpeaks: Define o valor a utilizar como substituto de todos os valores da coluna que sejam inferiores ao limiar especificado.
    • Se utilizar a opção ClipPeaksAndSubpeaks , pode especificar valores de substituição separados para os valores superiores e inferiores.

    São suportados os seguintes valores de substituição:

    • Limiar: Substitui os valores cortados pelo valor limiar especificado.

    • Média: Substitui valores cortados pela média dos valores da coluna. A média é calculada antes de os valores serem cortados.

    • Mediana: Substitui os valores cortados pela mediana dos valores da coluna. A mediana é calculada antes de os valores serem cortados.

    • Desaparecido. Substitui os valores cortados pelo valor em falta (vazio).

  8. Adicione colunas indicadoras: Selecione esta opção se pretender gerar uma nova coluna que lhe diga se a operação de clipping especificada foi aplicada ou não aos dados dessa linha. Esta opção é particularmente útil quando está a testar um novo conjunto de valores de clipping e substituição.

  9. Bandeira de substituição: Indique como pretende que os novos valores sejam gerados. Por predefinição, os Valores de Clip constrói uma nova coluna com os valores de pico cortados ao limiar pretendido. Novos valores substituem a coluna original.

    Para manter a coluna original e adicionar uma nova coluna com os valores cortados, desmarca esta opção.

  10. Execute a experimentação.

    Clique com o botão direito na saída do módulo Valores de Clip e selecione Visualize para rever os valores e certifique-se de que a operação de clipping corresponde às suas expectativas.

Exemplos

Para ver como este módulo é usado em experiências de machine learning, consulte a Galeria Azure AI:

  • Forest Fire outliers: Este exemplo da couuse EdX na ciência dos dados demonstra métodos de clipping usando o conjunto de dados da amostra de Incêndios Florestais.

Recortes usando percentiles

Para entender como funciona o clipping por percentiles, considere um conjunto de dados com 10 linhas, que têm um exemplo cada um dos valores 1-10.

  • Se estiver a usar o percentil como limiar superior, pelo valor do percentil 90, 90% de todos os valores do conjunto de dados devem ser inferiores a esse valor.

  • Se estiver a usar o percentil como o limiar mais baixo, pelo valor do percentil 10, 10% de todos os valores do conjunto de dados devem ser inferiores a esse valor.

  1. Para definir limiares, escolha ClipPeaksAndSubPeaks.

  2. Para o limiar superior, escolha Percentil, e para o número percentil, tipo 90.

  3. Para obter o valor de substituição superior, escolha Valor Em Falta.

  4. Para o limiar mais baixo, escolha Percentil, e para o número percentil, tipo 10.

  5. Para um valor de substituição inferior, escolha Valor Em Falta.

  6. Desmarcar a opção Substituta bandeira e selecione a opção, Adicione a coluna indicadora.

Agora experimente a mesma experiência usando 60 como o limiar percentil superior e 30 como o limiar percentil inferior, e use o valor limiar como o valor de substituição. A tabela a seguir compara estes dois resultados:

  1. Substitua-o em falta; Limiar superior = 90; Limiar inferior = 10

  2. Substituir por limiar; Percentil superior = 60; Percentil inferior = 30

Dados originais Substitua por falta Substituir por limiar
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3.

4.

5.

6.

7.

8, FALSO

9, FALSO

TRUE
4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

5.

6.

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

Notas técnicas

  • Só pode utilizar Valores de Clipe em colunas que contenham números ou valores de data/hora.

  • Se incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.

  • Os valores em falta são ignorados quando o valor médio ou mediano é calculado para uma coluna.

  • Os Valores de Clip não suportam dados ordinais.

  • Os valores em falta não são alterados quando são propagados ao conjunto de dados de saída. A coluna indicando valores cortados contém sempre FALSO para valores em falta.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Adicionar colunas indicadoras VERDADEIRO/FALSO Booleano FALSE Se adicionar indicador para o clipping de um valor é feito
Valor constante para limiar inferior qualquer Float -1 Valor abaixo do qual os subpeaks serão cortados
Valor constante para limiar superior qualquer Float 1 Valor acima do qual os picos serão cortados
Valor constante do limiar inferior qualquer Float -1 Valor abaixo do qual os subpeaks são cortados
Valor constante do limiar superior >=1 Float 1 Valor acima do qual os picos são cortados
Lista de colunas Seleção de Colunas Lista de colunas para cortar
Menor valor de substituição Limite

Média

Mediana

Desaparecido
Suplentes Limite O valor utilizado para recortar subpeaks
Limiar inferior Constante

Percentil
Modo Limiar Constante Valor abaixo do qual os subpeaks serão cortados no modo
Bandeira de substituição VERDADEIRO/FALSO Booleano TRUE Se as colunas de dados cortadas devem substituir as colunas de dados de entrada(s)
Número de percentil para limiar mais baixo [1;99] Número inteiro 1 Número percentil abaixo do qual os subpeaks serão cortados
Número de percentil para limiar superior [1;99] Número inteiro 99 Número percentil acima do qual os picos serão cortados
Número de percentil de limiar mais baixo [1;99] Número inteiro 1 Número percentil abaixo do qual os subpeaks são cortados
Número de percentil do limiar superior [1;99] Número inteiro 99 Número percentil acima do qual os picos são cortados
Conjunto de limiares ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Conjunto de limiares ClipPeaks Especifica o tipo de limiar para utilizar
Valor de substituição para picos Limite

Média

Mediana

Desaparecido
Suplentes Limite O valor usado durante os picos de clipping
Valor de substituição para subpeaks Limite

Média

Mediana

Desaparecido
Suplentes Limite O valor utilizado durante os subpeaks de recorte
Limite Constante

Percentil
Modo Limiar Constante Valor acima e abaixo do qual os picos serão cortados em modo
Valor de substituição superior Limite

Média

Mediana

Desaparecido
Limite Limite O valor usado para cortar picos
Limiar superior Constante

Percentil
Modo Limiar Constante Valor acima do qual os picos serão cortados em modo

Saídas

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas cortadas

Exceções

Exceção Description
Erro 0011 A exceção ocorre se o argumento do conjunto de colunas aprovada não se aplicar a nenhuma das colunas do conjunto de dados.
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem o tipo não suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Escala e Redução
Lista de Módulos A-Z