Componente Inserir dados manualmente
Este artigo descreve um componente no designer do Azure Machine Learning.
Use o componente Inserir dados manualmente para criar um pequeno conjunto de dados digitando valores. O conjunto de dados pode ter várias colunas.
Este componente pode ser útil em cenários como:
- Gerando um pequeno conjunto de valores para teste.
- Criação de uma pequena lista de etiquetas.
- Digitando uma lista de nomes de colunas para inserir em um conjunto de dados.
Criar um conjunto de dados
Adicione o componente Inserir dados manualmente ao seu pipeline. Você pode encontrar esse componente na categoria Entrada e Saída de Dados no Aprendizado de Máquina do Azure.
Para DataFormat, selecione uma das seguintes opções. Essas opções determinam como os dados fornecidos devem ser analisados. Os requisitos para cada formato diferem muito, por isso certifique-se de ler os tópicos relacionados.
- ARFF: Formato de arquivo de relação de atributo usado pelo Weka.
- CSV: formato de valores separados por vírgula. Para obter mais informações, consulte Converter em CSV.
- SVMLight: Formato usado pelo Vowpal Wabbit e outras estruturas de aprendizado de máquina.
- TSV: Formato de valores separados por tabulações.
Se você escolher um formato e não fornecer dados que atendam às especificações de formato, ocorrerá um erro de tempo de execução.
Clique dentro da caixa de texto Dados para começar a inserir dados. Os seguintes formatos requerem atenção especial:
CSV: Para criar várias colunas, cole em texto separado por vírgulas ou digite várias colunas usando vírgulas entre campos.
Se você selecionar a opção HasHeader , poderá usar a primeira linha de valores como título da coluna.
Se você desmarcar essa opção, os nomes das colunas (Col1, Col2 e assim por diante) serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar Metadados.
TSV: Para criar várias colunas, cole em texto separado por tabulações ou digite várias colunas usando guias entre campos.
Se você selecionar a opção HasHeader , poderá usar a primeira linha de valores como título da coluna.
Se você desmarcar essa opção, os nomes das colunas (Col1, Col2 e assim por diante) serão usados. Você pode adicionar ou alterar nomes de colunas posteriormente usando Editar Metadados.
ARFF: Cole em um arquivo de formato ARFF existente. Se você estiver digitando valores diretamente, certifique-se de adicionar o cabeçalho opcional e os campos de atributo obrigatórios no início dos dados.
Por exemplo, as seguintes linhas de cabeçalho e atributo podem ser adicionadas a uma lista simples. O título da coluna seria
SampleText
. Observe que o tipo String não é suportado.% Title: SampleText.ARFF % Source: Enter Data component @ATTRIBUTE SampleText NUMERIC @DATA \<type first data row here>
SVMLight: digite ou cole valores usando o formato SVMLight.
Por exemplo, o exemplo a seguir representa as primeiras linhas do conjunto de dados Doação de sangue, no formato SVMLight:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
Quando você executa o componente Inserir dados manualmente , essas linhas são convertidas em um conjunto de dados de colunas e valores de índice da seguinte maneira:
Col1 Col2 Col3 Col4 Etiquetas 0.00016 0,004 0.999961 0.00784 1 0 0,004 0.999955 0.008615 1
Selecione a tecla Enter após cada linha para iniciar uma nova linha.
Se você selecionar Enter várias vezes para adicionar várias linhas à direita vazias, as linhas vazias serão removidas ou cortadas.
Se criar linhas com valores em falta, pode sempre filtrá-las mais tarde.
Conecte a porta de saída a outros componentes e execute o pipeline.
Para exibir o conjunto de dados, clique com o botão direito do mouse no componente e selecione Visualizar.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.