Compartilhar via


Conversões de formato de dados

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

este artigo lista os módulos fornecidos no Machine Learning Studio (clássico) para converter dados entre vários formatos de arquivo usados no aprendizado de máquina.

Os formatos com suporte incluem:

  • O formato do conjunto de um usado em Machine Learning.
  • O formato ARFF usado pelo weka. Weka é um conjunto de algoritmos de aprendizado de máquina de software livre baseado em Java.
  • O formato SVMLight . O formato SVMLight foi desenvolvido para a estrutura SVMLight para Machine Learning. Ele também pode ser usado por Vowpal Wabbit.
  • Os formatos de arquivo simples separados por tabulação (TSV) e separados por VÍRGULAs (CSV ) que são compatíveis com a maioria dos bancos de dados relacionais. Esses formatos também são amplamente suportados pelo R e Python.

Ao converter dados nesses formatos, você pode mover resultados e dados com mais facilidade entre estruturas de aprendizado de máquina ou mecanismos de armazenamento diferentes.

Observação

Esses módulos de conversão de dados convertem apenas o conjunto de dado completo em um formato especificado. Se você precisar fazer qualquer conversão, truncamento, conversão de formatos de data e hora ou outra manipulação dos valores, use os módulos na transformação de dadosou veja a lista de tarefas relacionadas.

Cenários comuns de conversão de dados

normalmente, você usa os módulos de conversão de dados se precisar mover dados de um experimento Machine Learning para outra ferramenta ou plataforma de aprendizado de máquina. você também pode usar os módulos para exportar dados de Machine Learning em um formato que possa ser usado por um banco de dado ou por outras ferramentas. Por exemplo:

Tarefa Use isso
você precisa salvar um conjunto de dados intermediário para usar em Excel, ou para importar para um database. Use o módulo CSV ou o módulo TSV para preparar os dados no formato correto. em seguida, baixe os dados ou salve-os no Azure Armazenamento.
Você deseja reutilizar dados de seu experimento em código R ou Python. Use o módulo CSV ou o módulo TSV para preparar os dados. Em seguida, clique com o botão direito do mouse no conjunto de DataSet convertido para obter o código Python de que você precisa para acessar o conjunto de um.
Você está portando seu experimento e seus dados entre weka e Machine Learning. Use o módulo ARFF para preparar os dados. Em seguida, baixe os resultados.
Você precisa preparar dados na estrutura SVMlight. Use o módulo converter para SVMLight para preparar os dados. Em seguida, baixe os dados resultantes.
Crie dados para usar com Vowpal Wabbit. Use o formato SVMLight . Em seguida, modifique os arquivos conforme descrito no artigo. Salve o arquivo no armazenamento de BLOBs do Azure para usar com um módulo Vowpal Wabbit no Machine Learning.
Os dados não estão em um formato tabular. Convertê-lo em um formato de conjunto de um DataSet usando o módulo converter para conjunto de módulos.

se você precisar importar dados para Machine Learning ou transformar dados em colunas individuais, use esses módulos antes de executar a conversão de dados:

Tarefa Use isso
Importar dados do meu computador para o Machine Learning. Upload conjuntos de dados no formato CSV, conforme descrito em importar seus dados de treinamento para o Machine Learning Studio (clássico).
Importe dados de uma fonte de dados de nuvem, incluindo o Hadoop ou o Azure. Use o módulo importar dados .
Salve conjuntos de computadores de aprendizado de máquina no armazenamento de BLOBs do Azure, em um cluster Hadoop ou em outro armazenamento baseado em nuvem. Use o módulo exportar dados .
Altere o tipo de dados de colunas ou colunas de conversão para um formato ou tipo diferente. em Machine Learning, use os módulos editar metadados ou aplicar SQL transformação . Se você for proficiente com R ou Python, experimente os módulos Executar script Python ou Executar script R .
Arredondar, agrupar ou normalizar dados numéricos. Use a operação aplicar matemática, agrupar dados em compartimentosou normalizar módulos de dados.

Lista de módulos

A categoria de conversões de formato de dados inclui estes módulos:

  • Converter em ARFF: converte a entrada de dados no formato de arquivo de relação de atributo usado pelo conjunto de ferramentas weka.
  • Converter em CSV: converte um conjunto de uma em um formato de valores separados por vírgula.
  • Converter em DataSet: converte a entrada de dados para o formato de conjunto de dado interno usado pelo Machine Learning.
  • Converter em SVMLight: converte a entrada de dados no formato usado pela estrutura SVMLight.
  • Converter em TSV: converte a entrada de dados no formato delimitado por tabulação.

Confira também