Converter em Conjunto de Dados
Este artigo descreve como usar o componente Converter em Conjunto de Dados no designer do Aprendizado de Máquina do Azure para converter quaisquer dados de um pipeline para o formato interno do designer.
A conversão não é necessária na maioria dos casos. O Azure Machine Learning converte implicitamente dados para seu formato de conjunto de dados nativo quando qualquer operação é executada nos dados.
Recomendamos salvar dados no formato do conjunto de dados se você tiver realizado algum tipo de normalização ou limpeza em um conjunto de dados e quiser garantir que as alterações sejam usadas em outros pipelines.
Nota
Converter em Conjunto de Dados altera apenas o formato dos dados. Ele não salva uma nova cópia dos dados no espaço de trabalho. Para salvar o conjunto de dados, clique duas vezes na porta de saída, selecione Salvar como conjunto de dados e insira um novo nome.
Como usar Converter em Conjunto de Dados
Recomendamos que você use o componente Editar metadados para preparar o conjunto de dados antes de usar Converter em conjunto de dados. Você pode adicionar ou alterar nomes de colunas, ajustar tipos de dados e fazer outras alterações conforme necessário.
Adicione o componente Converter em Conjunto de Dados ao seu pipeline. Você pode encontrar esse componente na categoria Transformação de dados no designer.
Conecte-o a qualquer componente que produza um conjunto de dados.
Desde que os dados sejam tabulares, você pode convertê-los em um conjunto de dados. Isso inclui dados carregados por meio de Importar Dados, dados criados por meio de Inserir Dados Manualmente ou conjuntos de dados transformados por meio de Aplicar Transformação.
Na lista suspensa Ação, indique se deseja fazer alguma limpeza nos dados antes de salvar o conjunto de dados:
Nenhum: use os dados como estão.
SetMissingValue: defina um valor específico como um valor ausente no conjunto de dados. O espaço reservado padrão é o caractere de ponto de interrogação (?), mas você pode usar a opção Valor ausente personalizado para inserir um valor diferente. Por exemplo, se você inserir Taxi para o valor ausente personalizado, todas as instâncias de Taxi no conjunto de dados serão alteradas para o valor ausente.
ReplaceValues: Use esta opção para especificar um único valor exato a ser substituído por qualquer outro valor exato. Você pode substituir valores ausentes ou valores personalizados definindo o método Replace :
- Ausente: escolha esta opção para substituir os valores ausentes no conjunto de dados de entrada. Em Novo Valor, insira o valor pelo qual substituir os valores ausentes.
- Personalizado: escolha esta opção para substituir valores personalizados no conjunto de dados de entrada. Em Valor personalizado, insira o valor que você deseja localizar. Por exemplo, se seus dados contiverem a cadeia de caracteres
obs
usada como um espaço reservado para valores ausentes, insiraobs
. Em Novo valor, insira o novo valor pelo qual substituir a cadeia de caracteres original.
Observe que a operação ReplaceValues se aplica apenas a correspondências exatas. Por exemplo, essas cadeias de caracteres não seriam afetadas:
obs.
,obsolete
.Envie o pipeline.
Resultados
- Para salvar o conjunto de dados resultante com um novo nome, selecione no ícone Registrar conjunto de dados na guia Saídas no painel direito do componente.
Notas técnicas
Qualquer componente que tome um conjunto de dados como entrada também pode obter dados no arquivo CSV ou no arquivo TSV. Antes de qualquer código de componente ser executado, as entradas são pré-processadas. O pré-processamento é equivalente à execução do componente Converter em Conjunto de Dados na entrada.
Não é possível converter do formato SVMLight para um conjunto de dados.
Quando você está especificando uma operação de substituição personalizada, a operação de pesquisa e substituição se aplica a valores completos. Não são permitidas partidas parciais. Por exemplo, você pode substituir um 3 por -1 ou por 33, mas não pode substituir um 3 em um número de dois dígitos, como 35.
Para operações de substituição personalizadas, a substituição falhará silenciosamente se você usar como substituição qualquer caractere que não esteja em conformidade com o tipo de dados atual da coluna.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.