Partilhar via


Componente Editar metadados

Este artigo descreve um componente incluído no designer do Azure Machine Learning.

Use o componente Editar metadados para alterar metadados associados a colunas em um conjunto de dados. O valor e o tipo de dados do conjunto de dados serão alterados após o uso do componente Editar metadados.

As alterações típicas de metadados podem incluir:

  • Tratar colunas booleanas ou numéricas como valores categóricos.

  • Indicar qual coluna contém o rótulo de classe ou contém os valores que você deseja categorizar ou prever.

  • Marcação de colunas como recursos.

  • Alterar valores de data/hora para valores numéricos ou vice-versa.

  • Renomeando colunas.

Use Editar metadados sempre que precisar modificar a definição de uma coluna, normalmente para atender aos requisitos de um componente downstream. Por exemplo, alguns componentes funcionam apenas com tipos de dados específicos ou exigem sinalizadores nas colunas, como IsFeature ou IsCategorical.

Depois de executar a operação necessária, você pode redefinir os metadados para seu estado original.

Configurar Editar Metadados

  1. No designer do Azure Machine Learning, adicione o componente Editar Metadados ao seu pipeline e conecte o conjunto de dados que você deseja atualizar. Você pode encontrar o componente na categoria Transformação de dados.

  2. Clique em Editar coluna no painel direito do componente e escolha a coluna ou o conjunto de colunas com o qual trabalhar. Você pode escolher colunas individualmente por nome ou índice, ou pode escolher um grupo de colunas por tipo.

  3. Selecione a opção Tipo de dados se precisar atribuir um tipo de dados diferente às colunas selecionadas. Talvez seja necessário alterar o tipo de dados para determinadas operações. Por exemplo, se o conjunto de dados de origem tiver números manipulados como texto, você deverá alterá-los para um tipo de dados numéricos antes de usar operações matemáticas.

    • Os tipos de dados suportados são String, Integer, Double, Boolean e DateTime.

    • Se você selecionar várias colunas, deverá aplicar as alterações de metadados a todas as colunas selecionadas. Por exemplo, digamos que você escolha duas ou três colunas numéricas. Você pode alterá-los todos para um tipo de dados de cadeia de caracteres e renomeá-los em uma operação. No entanto, não é possível alterar uma coluna para um tipo de dados de cadeia de caracteres e outra coluna de um float para um inteiro.

    • Se você não especificar um novo tipo de dados, os metadados da coluna não serão alterados.

    • O tipo de coluna e os valores serão alterados depois que você executar a operação Editar metadados. Você pode recuperar o tipo de dados original a qualquer momento usando Editar metadados para redefinir o tipo de dados da coluna.

    Nota

    O formato DateTime segue o formato datetime integrado do Python.
    Se você alterar qualquer tipo de número para o tipo DateTime , deixe o campo Formato DateTime em branco. Atualmente, não é possível especificar o formato de dados de destino.

  4. Selecione a opção Categórica para especificar que os valores nas colunas selecionadas devem ser tratados como categorias.

    Por exemplo, você pode ter uma coluna que contenha os números 0, 1 e 2, mas saiba que os números na verdade significam "Fumante", "Não fumante" e "Desconhecido". Nesse caso, ao sinalizar a coluna como categórica, você garante que os valores sejam usados apenas para agrupar dados e não em cálculos numéricos.

  5. Use a opção Campos se quiser alterar a maneira como o Aprendizado de Máquina do Azure usa os dados em um modelo.

    • Recurso: use esta opção para sinalizar uma coluna como um recurso em componentes que operam apenas em colunas de recursos. Por padrão, todas as colunas são inicialmente tratadas como recursos.

    • Rótulo: use esta opção para marcar o rótulo, que também é conhecido como atributo previsível ou variável de destino. Muitos componentes exigem que exatamente uma coluna de rótulo esteja presente no conjunto de dados.

      Em muitos casos, o Aprendizado de Máquina do Azure pode inferir que uma coluna contém um rótulo de classe. Ao definir esses metadados, você pode garantir que a coluna seja identificada corretamente. A definição desta opção não altera os valores dos dados. Ele muda apenas a maneira como alguns algoritmos de aprendizado de máquina lidam com os dados.

    Gorjeta

    Você tem dados que não se encaixam nessas categorias? Por exemplo, seu conjunto de dados pode conter valores como identificadores exclusivos que não são úteis como variáveis. Às vezes, esses IDs podem causar problemas quando usados em um modelo.

    Felizmente, o Azure Machine Learning mantém todos os seus dados, para que você não precise excluir essas colunas do conjunto de dados. Quando você precisar executar operações em algum conjunto especial de colunas, basta remover todas as outras colunas temporariamente usando o componente Selecionar colunas no conjunto de dados. Mais tarde, você pode mesclar as colunas novamente no conjunto de dados usando o componente Adicionar colunas .

  6. Use as opções a seguir para limpar seleções anteriores e restaurar metadados para os valores padrão.

    • Limpar recurso: use esta opção para remover o sinalizador de recurso.

      Todas as colunas são inicialmente tratadas como recursos. Para componentes que executam operações matemáticas, talvez seja necessário usar essa opção para evitar que colunas numéricas sejam tratadas como variáveis.

    • Limpar rótulo: use esta opção para remover os metadados do rótulo da coluna especificada.

    • Limpar pontuação: use esta opção para remover os metadados da pontuação da coluna especificada.

      Atualmente, não é possível marcar explicitamente uma coluna como uma pontuação no Azure Machine Learning. No entanto, algumas operações resultam em uma coluna sendo sinalizada como uma pontuação internamente. Além disso, um componente R personalizado pode gerar valores de pontuação.

  7. Em Novos nomes de colunas, insira o novo nome da(s) coluna(s) selecionada(s).

    • Os nomes de coluna podem usar apenas caracteres suportados pela codificação UTF-8. Cadeias de caracteres vazias, nulas ou nomes que consistem inteiramente em espaços não são permitidos.

    • Para renomear várias colunas, insira os nomes como uma lista separada por vírgulas na ordem dos índices das colunas.

    • Todas as colunas selecionadas devem ser renomeadas. Não é possível omitir ou pular colunas.

  8. Envie o pipeline.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.