Inserir Dados Manualmente
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Permite inserir e editar pequenos conjuntos de dados digitando valores
Categoria: transformação/manipulação de dados
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
este artigo descreve como usar o módulo inserir dados manualmente no Machine Learning Studio (clássico), para criar um pequeno dataset digitando valores. O conjunto de dados pode ter várias colunas.
Esse módulo pode ser útil em cenários como estes:
Gerando um pequeno conjunto de valores para teste
Criando uma lista curta de rótulos
Inserindo valores para uso na operação aplicar matemática
Especificando valores de substituição para uso em substituir valores discretos
Digitar uma lista de nomes de coluna para inserir em um conjunto de dados
Como usar inserir dados manualmente
Adicione o módulo inserir dados manualmente ao seu experimento. você pode encontrar esse módulo na categoria entrada e saída de dados no Machine Learning Studio (clássico).
Em Formato dos dados, escolha uma das opções a seguir. Essas opções determinam como analisar os dados que você informa. Os requisitos para cada formato variam muito. Portanto, não deixe de ler os tópicos relacionados.
ARFF. O formato de arquivo de relação de atributo, usado pelo weka. Para obter mais informações, consulte converter em ARFF.
CSV. Formato de valores separados por vírgula. Para mais informações, confira Converter em CSV.
SVMLight. Um formato usado por Vowpal wabbit e outras estruturas de aprendizado de máquina. Para obter mais informações, consulte converter em SVMLight.
TSV. Formato de valores separados por tabulação. Para obter mais informações, consulte converter em TSV.
Se você escolher um formato e não fornecer dados que atendam às especificações de formato, ocorrerá um erro em tempo de execução.
Clique dentro da caixa de texto Dados para começar a inserir dados. Os seguintes formatos exigem atenção especial:
CSV: para criar várias colunas, Cole o texto separado por vírgulas ou digite várias colunas usando vírgulas entre os campos.
Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.
Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.
TSV: para criar várias colunas, cole em texto separado por tabulações ou digite várias colunas usando guias entre campos.
Se você escolher a opção HasHeader, poderá usar a primeira linha de valores como o título de coluna.
Se você desmarcar essa opção, os nomes das colunas, Col1, Col2 e assim por diante serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar metadados.
ARFF: cole um arquivo de formato ARFF existente. Se você estiver digitando valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributo necessários no início dos dados.
Por exemplo, as linhas de cabeçalho e de atributo a seguir podem ser adicionadas a uma lista simples. O título de coluna seria
SampleText
.% Title: SampleText.ARFF % Source: Enter Data module @ATTRIBUTE SampleText STRING @DATA \<type first data row here>
SVMLight: digite ou cole valores usando o formato SVMLight.
Por exemplo, o exemplo a seguir representa as primeiras linhas do conjunto de linha de doação de sangue, no formato SVMight:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
Quando você executa o módulo Inserir dados manualmente, essas linhas são convertidas em um conjunto de dados de colunas e valores de índice, como os seguintes:
Col1 Col2 Col3 Col4 Rótulos 0,00016 0,004 0,999961 0,00784 1 0 0,004 0,999955 0,008615 1
Pressione ENTER após cada linha para iniciar uma nova linha.
Certifique-se de pressionar ENTER após a linha final.
Se você pressionar ENTER várias vezes para adicionar várias linhas à direita vazias, a linha final vazia será removida, mas outras linhas vazias serão tratadas como valores ausentes.
Se você criar linhas com valores ausentes, poderá filtrá-las posteriormente.
Clique com o botão direito do mouse no módulo e selecione executar selecionado para analisar os dados e carregá-los em seu espaço de trabalho como um conjunto.
Para exibir o conjunto de resultados, clique na porta de saída e selecione Visualizar.
Exemplos
Para obter exemplos de como esse módulo é usado no aprendizado de máquina, consulte o Galeria de ia do Azure:
- exemplo de Download de dados: obtém dados do repositório do Machine Learning UCI e, em seguida, usa inserir dados manualmente para criar nomes de coluna. Código de exemplo R também é fornecido, que pode ser usado para mesclar as linhas inseridas com o conjunto de dados.
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Independentemente do formato salvo, os dados inseridos são convertidos implicitamente no formato do conjunto dedados (tabela de data) para uso em experimentos. No entanto, os dados não são persistidos como um DataSet salvo, a menos que você escolha explicitamente a opção salvar como conjunto de dados.
Se você não salvar os dados inserindo manualmente como um conjunto de dados, ele será removido do cache do espaço de trabalho quando você encerrar a sessão. No entanto, você pode executar o experimento novamente para disponibilizar os dados.
Se você combinar os dados de inserir dados manualmente com outro DataSet, o DataSet combinado não poderá ter duas colunas com o mesmo nome. Se houver nomes de coluna duplicados, um sufixo numérico será anexado à coluna do conjunto de valores à direita para tornar os nomes de coluna exclusivos.
Por exemplo, suponha que você tenha duas instâncias de inserir dados manualmente que contenham a coluna TestDatae use o módulo adicionar colunas para mesclá-las. A coluna da instância à esquerda de inserir dados manualmente permaneceria como TestData, e a coluna da instância direita de inserir dados manualmente seria renomeada TestData (2).