Conversão em CSV
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Converte a entrada de dados em um formato de valores separados por vírgula
Categoria: Conversões de formato de dados
Observação
Aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
Este artigo descreve como usar o módulo Converter em CSV no Machine Learning Studio (clássico) para converter um conjunto de dados do Azure ML em um formato CSV que pode ser baixado, exportado ou compartilhado com módulos de script R ou Python.
Mais sobre o formato CSV
O formato CSV, que significa "valores separados por vírgulas", é um formato de arquivo usado por muitas ferramentas de machine learning externas. Embora o formato de conjunto de dados nativo usado por Machine Learning seja baseado na tabela de dados .NET e, portanto, possa ser lido por bibliotecas .NET, o CSV é um formato de intercâmbio comum ao trabalhar com linguagens de software livre, como R ou Python.
Mesmo que você faça a maior parte do seu trabalho no Machine Learning Studio (clássico), há momentos em que você pode achar útil converter seu conjunto de dados em CSV para usar em ferramentas externas. Por exemplo:
- Baixar o arquivo CSV para abri-lo com o Excel ou importá-lo para um banco de dados relacional.
- Salvar o arquivo CSV no armazenamento em nuvem e conectar-se a ele do Power BI para criar visualizações.
- Usar o formato CSV para preparar dados para uso em R e Python. Basta clicar com o botão direito do mouse na saída do módulo para gerar o código necessário para acessar os dados diretamente do Python ou de um jupyter notebook.
Quando você converte um conjunto de dados em CSV, o arquivo é salvo no workspace ML do Azure. Você pode usar um utilitário de armazenamento do Azure para abrir e usar o arquivo diretamente ou clicar com o botão direito do mouse na saída do módulo e baixar o arquivo CSV no computador ou usá-lo no código R ou Python.
Como configurar Converter em CSV
Adicione o módulo Converter em CSV ao experimento. Você pode encontrar este módulo no grupo Conversões de Formato de Dados no Studio (clássico).
Conecte-o a qualquer módulo que produza um conjunto de dados.
Execute o experimento ou clique no módulo Converter em CSV e clique em Executar selecionado.
Resultados
Clique duas vezes na saída de Converter em CSV e selecione uma dessas opções.
Download: abre imediatamente uma cópia dos dados no formato CSV que você pode salvar em uma pasta local. Se você não especificar uma pasta, um nome de arquivo padrão será aplicado e o arquivo CSV será salvo na biblioteca local de Downloads .
Se você selecionar Baixar conjunto de dados, deverá indicar se deseja abrir o conjunto de dados ou salvá-lo em um arquivo local.
Se você selecionar Abrir, o conjunto de dados será carregado usando o aplicativo associado por padrão a arquivos .CSV: por exemplo, Microsoft Excel.
Se você selecionar Baixar conjunto de dados, por padrão, o arquivo será salvo com o nome do módulo mais um GUID que representa a ID do workspace. No entanto, você pode selecionar a opção Salvar como durante o download e alterar o nome ou o local do arquivo.
Salvar como conjunto de dados: salva o arquivo CSV de volta no workspace ML do Azure como um conjunto de dados separado.
Gerar código de acesso a dados: o Azure ML gera dois conjuntos de código para você acessar os dados, usando Python ou usando R. Para acessar os dados, copie o snippet de código em seu aplicativo.
Abrir em um novo Bloco de Anotações: um novo notebook Jupyter é criado para você e o código inserido para ler os dados do seu workspace, usando o idioma de sua escolha: Python 2, Python 3 ou R com o Microsoft R Open.
Por exemplo, se você escolher a opção R, será fornecido um código R de exemplo que carrega o arquivo CSV em um quadro de dados e exibe as primeiras linhas usando a
head
função.
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Requisitos do formato CSV
O formato de arquivo CSV é um formato popular com suporte de muitas estruturas de machine learning. O formato é referenciado várias vezes para "valores separados por vírgula" ou "valores separados por caracteres".
Um arquivo CSV armazena dados tabulares (números e texto) em formato de texto sem formatação. Um arquivo CSV consiste em qualquer número de registros, separado por quebras de linha de algum tipo. Cada registro consiste em campos, separados por uma vírgula literal. Em algumas regiões, o separador pode ser um ponto e vírgula.
Normalmente, todos os registros têm um número idêntico de campos e os valores ausentes são representados como nulos ou cadeias de caracteres vazias.
Dica
Você pode exportar facilmente dados de Excel, Access ou um banco de dados relacional para arquivos CSV, a serem usados em Machine Learning. Embora os nomes de arquivo normalmente tenham a extensão .CSV, Machine Learning não exigirá que essa extensão de nome de arquivo esteja presente se você quiser importar os dados como CSV. Você pode importar XLSX, TXT e outros arquivos como CSV. No entanto, os campos no arquivo devem ser formatados conforme descrito na seção anterior e o arquivo deve usar a codificação UTF-8.
Perguntas e problemas comuns
Esta seção descreve alguns problemas conhecidos, perguntas comuns e soluções alternativas específicas para o módulo Converter em CSV .
Cabeçalhos devem ser linhas simples
O formato de arquivo CSV usado em Machine Learning dá suporte a uma única linha de cabeçalho. Não é possível inserir cabeçalhos de várias linhas.
Separadores personalizados com suporte na importação, mas não na exportação
O módulo Converter em CSV não dá suporte à geração de separadores de coluna alternativos, como o ponto e vírgula (;), que geralmente é usado na Europa.
No entanto, ao importar dados de arquivos CSV no armazenamento externo, você pode especificar separadores alternativos. No módulo Importar Dados , selecione a opção CSV com codificações e escolha uma codificação com suporte.
Separação de coluna imprecisa em dados de cadeia de caracteres que contêm vírgulas
É um problema comum no processamento de texto que quase todos os caracteres que podem ser especificados como separador de coluna (guias, espaços, vírgulas etc.) também podem ser encontrados aleatoriamente em campos de texto. Importar texto do CSV sempre requer cuidado para evitar a separação de texto entre novas colunas desnecessárias.
Quando você tenta exportar uma coluna de dados de cadeia de caracteres que contém vírgulas, você também pode ter problemas. Machine Learning não dá suporte a tratamento especial ou tradução especial desses dados, como a colocação de cadeias de caracteres entre aspas. Além disso, você não pode usar caracteres de escape antes de uma vírgula para garantir que as vírgulas sejam tratadas como um caractere literal.
Portanto, novos campos são criados no arquivo de saída para cada vírgula encontrada no campo de cadeia de caracteres. Para evitar esse problema, há várias soluções alternativas:
Use o módulo Texto de Pré-processamento para remover caracteres de pontuação dos campos de cadeia de caracteres.
Use script R personalizado ou script Python para processar texto e garantir que os dados possam ser exportados corretamente.
Codificação UTF-8 necessária
O módulo Converter para CSV suporta apenas codificação de caractere UTF-8. Se você precisar exportar dados usando uma codificação diferente, tente usar os módulos Executar Script R ou Executar Script Python para gerar uma saída personalizada.
O conjunto de dados não tem nomes de coluna
Se o conjunto de dados que você está exportando para um arquivo CSV não tiver nomes de coluna, recomendamos que você use Editar Metadados para adicionar nomes de coluna antes de convertê-lo. Você não pode adicionar nomes de coluna como parte do processo de conversão ou exportação.
SYLK: formato de arquivo não é válido
Se a primeira coluna do conjunto de dados que você converte em CSV tiver a ID do nome, você poderá receber o seguinte erro ao tentar abrir o arquivo em Excel:
"SYLK: formato de arquivo não é válido."
Para evitar esse erro, você deve renomear a coluna.
Preciso de ajuda para importar do CSV
Para importar, não use o módulo Exportar para CSV . Em vez disso, use o módulo Importar Dados .
Para obter informações gerais sobre a importação do CSV, consulte estes recursos:
- Importar dados de treinamento para o Estúdio do Machine Learning (clássico) de diferentes fontes de dados.
- Experimentos do AzureML e interação de dados: demonstra várias fontes de dados e como trabalhar com elas no Studio (clássico).
Entradas esperadas
Nome | Type | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Saída
Nome | Type | Descrição |
---|---|---|
Conjunto de dados de resultados | GenericCsv | Conjunto de dados de saída |