Valores de Clip
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Deteta os mais distantes e clips ou substitui os seus valores
Categoria: Transformação de Dados / Escala e Redução
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como utilizar o módulo Valores de Clip em Machine Learning Studio (clássico), para identificar e substituir opcionalmente valores de dados acima ou abaixo de um limiar especificado. Isto é útil quando se pretende remover os outliers ou substituí-los por um valor médio, constante ou outro valor de substituição.
Liga o módulo a um conjunto de dados que tem os números que pretende cortar, escolhe as colunas para trabalhar e, em seguida, define um limiar ou intervalo de valores e um método de substituição. O módulo pode obter apenas os resultados, ou os valores alterados anexados ao conjunto de dados originais.
Como configurar valores de clipe
Antes de começar, identifique as colunas que pretende cortar e o método a utilizar. Recomendamos que teste primeiro qualquer método de recorte num pequeno subconjunto de dados.
O módulo aplica os mesmos critérios e método de substituição a todas as colunas que inclui na seleção. Portanto, certifique-se de excluir colunas que não quer mudar.
Se precisar de aplicar métodos de clipping ou critérios diferentes em algumas colunas, deve utilizar uma nova instância de Valores de Clip para cada conjunto de colunas semelhantes.
Adicione o módulo Valores de Clip à sua experiência e conecte-o ao conjunto de dados que pretende modificar. Pode encontrar este módulo na categoria De Transformação de Dados, na categoria Escala e Redução .
Na Lista de colunas, utilize o Seletor de Colunas para escolher as colunas às quais serão aplicados valores de clipe .
Para definir limiares, escolha uma das seguintes opções da lista de abandono. Estas opções determinam como define os limites superiores e inferiores para valores aceitáveis vs. valores que devem ser cortados.
ClipPeaks: Quando se cortam valores por picos, especificamos apenas um limite superior. Valores superiores a esse valor limite são substituídos ou removidos.
ClipSubpeaks: Quando se cortam valores por sub-picos, especificamos apenas um limite inferior. Valores inferiores a esse valor limite são substituídos ou removidos.
ClipPeaksAndSubpeaks: Quando se cortam valores por picos e sub-picos, pode especificar tanto os limites superiores como os mais baixos. Os valores que estão fora desse alcance são substituídos ou removidos. Os valores que correspondem aos valores de fronteira não são alterados.
Dependendo da sua seleção na etapa anterior, pode definir os seguintes valores-limiar:
- Limiar inferior: Exibido apenas se escolher ClipSubPeaks
- Limiar superior: Exibido apenas se escolher clipPeaks
- Limiar: Exibido apenas se escolher ClipPeaksAndSubPeaks
Para cada tipo de limiar, escolha Constant ou Percentil.
Se selecionar Constant, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, assuma que sabe que o valor 999 foi usado como um valor reservado. Pode escolher Constant para o limiar superior, e digitar 999 em valor constante do limiar superior.
Se escolher o Percentil, limita os valores da coluna a um intervalo percentil.
Por exemplo, assuma que deseja manter apenas os valores na gama de percentil de 10-80, e substituir todos os outros. Você escolheria Percentil, e depois tipo 10 para o valor percentil de limiar inferior, e tipo 80 para o valor percentil do limiar superior.
Consulte a secção sobre percentils para obter alguns exemplos de como utilizar gamas de percentil.
Defina um valor substituto.
Os números que correspondem exatamente aos limites especificados são considerados dentro da gama de valores permitida, não estando assim substituídos ou removidos. Todos os números que se encontram fora do intervalo especificado são substituídos pelo valor de substituição.
- Valor de substituição para picos: Define o valor para substituir todos os valores da coluna que sejam superiores ao limiar especificado.
- Valor de substituição para subpeaks: Define o valor a utilizar como substituto de todos os valores da coluna que sejam inferiores ao limiar especificado.
- Se utilizar a opção ClipPeaksAndSubpeaks , pode especificar valores de substituição separados para os valores superiores e inferiores.
São suportados os seguintes valores de substituição:
Limiar: Substitui os valores cortados pelo valor limiar especificado.
Média: Substitui valores cortados pela média dos valores da coluna. A média é calculada antes de os valores serem cortados.
Mediana: Substitui os valores cortados pela mediana dos valores da coluna. A mediana é calculada antes de os valores serem cortados.
Desaparecido. Substitui os valores cortados pelo valor em falta (vazio).
Adicione colunas indicadoras: Selecione esta opção se pretender gerar uma nova coluna que lhe diga se a operação de clipping especificada foi aplicada ou não aos dados dessa linha. Esta opção é particularmente útil quando está a testar um novo conjunto de valores de clipping e substituição.
Bandeira de substituição: Indique como pretende que os novos valores sejam gerados. Por predefinição, os Valores de Clip constrói uma nova coluna com os valores de pico cortados ao limiar pretendido. Novos valores substituem a coluna original.
Para manter a coluna original e adicionar uma nova coluna com os valores cortados, desmarca esta opção.
Execute a experimentação.
Clique com o botão direito na saída do módulo Valores de Clip e selecione Visualize para rever os valores e certifique-se de que a operação de clipping corresponde às suas expectativas.
Exemplos
Para ver como este módulo é usado em experiências de machine learning, consulte a Galeria Azure AI:
- Forest Fire outliers: Este exemplo da couuse EdX na ciência dos dados demonstra métodos de clipping usando o conjunto de dados da amostra de Incêndios Florestais.
Recortes usando percentiles
Para entender como funciona o clipping por percentiles, considere um conjunto de dados com 10 linhas, que têm um exemplo cada um dos valores 1-10.
Se estiver a usar o percentil como limiar superior, pelo valor do percentil 90, 90% de todos os valores do conjunto de dados devem ser inferiores a esse valor.
Se estiver a usar o percentil como o limiar mais baixo, pelo valor do percentil 10, 10% de todos os valores do conjunto de dados devem ser inferiores a esse valor.
Para definir limiares, escolha ClipPeaksAndSubPeaks.
Para o limiar superior, escolha Percentil, e para o número percentil, tipo 90.
Para obter o valor de substituição superior, escolha Valor Em Falta.
Para o limiar mais baixo, escolha Percentil, e para o número percentil, tipo 10.
Para um valor de substituição inferior, escolha Valor Em Falta.
Desmarcar a opção Substituta bandeira e selecione a opção, Adicione a coluna indicadora.
Agora experimente a mesma experiência usando 60 como o limiar percentil superior e 30 como o limiar percentil inferior, e use o valor limiar como o valor de substituição. A tabela a seguir compara estes dois resultados:
Substitua-o em falta; Limiar superior = 90; Limiar inferior = 10
Substituir por limiar; Percentil superior = 60; Percentil inferior = 30
Dados originais | Substitua por falta | Substituir por limiar |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3. 4. 5. 6. 7. 8, FALSO 9, FALSO TRUE |
4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 5. 6. 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO |
Notas técnicas
Só pode utilizar Valores de Clipe em colunas que contenham números ou valores de data/hora.
Se incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.
Os valores em falta são ignorados quando o valor médio ou mediano é calculado para uma coluna.
Os Valores de Clip não suportam dados ordinais.
Os valores em falta não são alterados quando são propagados ao conjunto de dados de saída. A coluna indicando valores cortados contém sempre FALSO para valores em falta.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Adicionar colunas indicadoras | VERDADEIRO/FALSO | Booleano | FALSE | Se adicionar indicador para o clipping de um valor é feito |
Valor constante para limiar inferior | qualquer | Float | -1 | Valor abaixo do qual os subpeaks serão cortados |
Valor constante para limiar superior | qualquer | Float | 1 | Valor acima do qual os picos serão cortados |
Valor constante do limiar inferior | qualquer | Float | -1 | Valor abaixo do qual os subpeaks são cortados |
Valor constante do limiar superior | >=1 | Float | 1 | Valor acima do qual os picos são cortados |
Lista de colunas | Seleção de Colunas | Lista de colunas para cortar | ||
Menor valor de substituição | Limite Média Mediana Desaparecido |
Suplentes | Limite | O valor utilizado para recortar subpeaks |
Limiar inferior | Constante Percentil |
Modo Limiar | Constante | Valor abaixo do qual os subpeaks serão cortados no modo |
Bandeira de substituição | VERDADEIRO/FALSO | Booleano | TRUE | Se as colunas de dados cortadas devem substituir as colunas de dados de entrada(s) |
Número de percentil para limiar mais baixo | [1;99] | Número inteiro | 1 | Número percentil abaixo do qual os subpeaks serão cortados |
Número de percentil para limiar superior | [1;99] | Número inteiro | 99 | Número percentil acima do qual os picos serão cortados |
Número de percentil de limiar mais baixo | [1;99] | Número inteiro | 1 | Número percentil abaixo do qual os subpeaks são cortados |
Número de percentil do limiar superior | [1;99] | Número inteiro | 99 | Número percentil acima do qual os picos são cortados |
Conjunto de limiares | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Conjunto de limiares | ClipPeaks | Especifica o tipo de limiar para utilizar |
Valor de substituição para picos | Limite Média Mediana Desaparecido |
Suplentes | Limite | O valor usado durante os picos de clipping |
Valor de substituição para subpeaks | Limite Média Mediana Desaparecido |
Suplentes | Limite | O valor utilizado durante os subpeaks de recorte |
Limite | Constante Percentil |
Modo Limiar | Constante | Valor acima e abaixo do qual os picos serão cortados em modo |
Valor de substituição superior | Limite Média Mediana Desaparecido |
Limite | Limite | O valor usado para cortar picos |
Limiar superior | Constante Percentil |
Modo Limiar | Constante | Valor acima do qual os picos serão cortados em modo |
Saídas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados com colunas cortadas |
Exceções
Exceção | Description |
---|---|
Erro 0011 | A exceção ocorre se o argumento do conjunto de colunas aprovada não se aplicar a nenhuma das colunas do conjunto de dados. |
Erro 0017 | A exceção ocorre se uma ou mais colunas especificadas tiverem o tipo não suportado pelo módulo atual. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.