Projetar Colunas no Conjunto de Dados
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Seleciona colunas a serem incluídas ou excluídas de um conjunto de dados em uma operação
Categoria: transformação/manipulação de dados
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
este artigo descreve como usar o módulo selecionar colunas no conjunto de Dataset no Machine Learning Studio (clássico), para escolher um subconjunto de colunas a ser usado em operações de downstream. O módulo não remove fisicamente as colunas do conjuntos de dados de origem. Em vez disso, ele cria um subconjunto de colunas, como em uma exibição ou projeção de banco de dados.
Esse módulo é particularmente útil quando você precisa limitar as colunas disponíveis para uma operação downstream, ou se quiser reduzir o tamanho do conjunto de um removendo colunas desnecessárias.
As colunas no conjunto de dados são geradas na mesma ordem que nos dados originais, mesmo se forem especificadas em uma ordem diferente.
Como usar selecionar colunas no conjunto de linhas
Esse módulo não tem parâmetros. Use o seletor de coluna para escolher quais serão incluídas ou excluídas.
Escolher colunas pelo nome
Há várias opções no módulo para escolher colunas pelo nome:
Filtrar e procurar
Clique na opção POR NOME.
Se você conectou um conjunto de dados já está populado, uma lista de colunas disponíveis deverá aparecer. Se nenhuma coluna aparecer, talvez seja necessário executar módulos upstream para ver a lista de colunas.
Para filtrar a lista, digite na caixa de pesquisa. Por exemplo, se você digitar a letra
w
na caixa de pesquisa, a lista será filtrada para mostrar os nomes de coluna que contêm a letraw
.Selecione as colunas e clique no botão de seta para a direita para mover as colunas selecionadas à lista no painel direito.
- Para selecionar um intervalo contínuo de nomes de coluna, pressione Shift + Clique.
- Para adicionar colunas individuais à seleção, pressione Ctrl + Clique.
Clique no botão de marca de verificação para salvar e fechar.
Usar nomes combinadas com outras regras
Clique na opção COM REGRAS.
Escolha uma regra, como mostrar as colunas de um tipo de dados específico.
Em seguida, clique em colunas individuais desse tipo pelo nome para adicioná-las à lista de seleção.
Digite ou cole uma lista de nomes de colunas separados por vírgula.
Se o conjunto de seus conjuntos de um for muito grande, pode ser mais fácil usar índices ou listas geradas de nomes, em vez de selecionar colunas individualmente. Supondo a lista foi preparada com antecedência:
- Clique na opção COM REGRAS.
- Escolha Nenhuma coluna, selecione Incluir e clique dentro da caixa de texto com o ponto de exclamação vermelho.
- Cole ou digite uma lista separada por vírgulas de nomes de coluna validados anteriormente. O módulo não poderá ser salvo se uma coluna tiver um nome inválido. Por isso, verifique os nomes com antecedência.
Você também pode usar esse método para especificar uma lista de colunas com valores de índice. Consulte a seção exemplos para obter dicas sobre como trabalhar com índices de coluna.
Escolher por tipo
Se você usar a opção COM REGRAS, poderá aplicar várias condições às seleções de coluna. Por exemplo, pode ser necessário obter apenas colunas de recursos de um tipo de dados numérico.
A opção begin with determina seu ponto de partida e é muito importante para entender os resultados.
Se você escolher a opção TODAS AS COLUNAS, todas as colunas serão adicionadas à lista. Em seguida, você precisa usar a opção Excluir para remover colunas que cumpram determinadas condições.
Por exemplo, você pode iniciar com todas as colunas e depois remover colunas por nome ou tipo.
Se você escolher a opção NENHUMA COLUNA, a lista de colunas começará vazia. Em seguida, especifique as condições para adicionar colunas à lista.
Ao aplicar várias regras, cada condição será aditiva. Por exemplo, você pode iniciar sem colunas e, em seguida, adicionar uma regra para obter todas as colunas numéricas. No conjunto de linhas de preço de automóveis, o resultado são 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione incluir todos os recursos. O conjunto de resultados resultante contém todas as colunas numéricas, além de todas as colunas de recurso, incluindo algumas de cadeia de caracteres.
Escolher por índice de coluna
O índice de coluna se refere à ordem da coluna dentro do conjunto de dados original.
- As colunas são numeradas em sequência, iniciando pelo 1.
- Para obter um intervalo de colunas, use um hífen.
- Especificações abertas como
1-
ou-3
não são permitidas. - Valores de índice duplicados (ou nomes de coluna) não são permitidos e podem resultar em erro.
Por exemplo, supondo que o conjunto tenha pelo menos oito colunas, você pode colar um destes exemplos para retornar várias colunas não contíguas:
8,1-4,6
1,3-8
1,3-6,4
o exemplo final não resulta em erro. No entanto, ele retorna uma única instância da coluna 4
.
Para obter dicas adicionais sobre como trabalhar com índices de coluna, consulte a seção exemplos .
Mudar ordem das colunas
A opção Permitir duplicatas e preservar a ordem de coluna na seleção começa com uma lista vazia e adiciona colunas especificadas pelo nome ou pelo índice. Ao contrário de outras opções, que sempre retornam colunas na "ordem natural", essa opção retorna as colunas na ordem em que você as nomeia ou lista.
Por exemplo, em um conjunto de dados com as colunas Col1, Col2, Col3 e Col4, você pode inverter a ordem das colunas e excluir a coluna 2, especificando uma das seguintes listas:
Col4, Col3, Col1
4,3,1
Exemplos
Para obter exemplos de como usar colunas SELECT no conjuntode testes, consulte estes experimentos de exemplo na Galeria de modelos:
O exemplo de detecção de câncer de mama usa selecionar colunas no conjunto de dados para remover uma coluna vazia à direita, remover uma coluna com um dado duplicado e os conjuntos de treinamento e teste do projeto.
No exemplo de previsão de atraso de voo , selecionar colunas no conjunto de texto é usado para excluir todas as colunas de cadeia de caracteres e para excluir colunas por nome.
No exemplo de desempenho de previsão do aluno , selecionar colunas no conjunto de um é usado para obter todos os recursos temporais e excluir várias colunas.
No exemplo de comparar regressores , Selecione colunas no conjunto de dados é usado para excluir a coluna, número de portas, porque é o tipo de dado incorreto para a operação matemática a seguir.
Cenários comuns para seleção de coluna
Os exemplos a seguir descrevem algumas maneiras típicas de os usuários aplicarem colunas SELECT no conjunto de informações no Machine Learning e fornece algumas dicas sobre como selecionar as colunas:
Quero remover colunas de texto do conjunto de valores para que eu possa aplicar uma operação matemática a todas as colunas numéricas.
Muitas operações exigem que apenas colunas numéricas estejam presentes no conjunto de linhas. Você pode remover temporariamente as colunas que causaram um erro, excluindo texto e excluindo colunas categóricas (números que representam categorias discretas).
Clique em Iniciar seletor de coluna.
Para começar com, selecione todas as colunas.
Selecione a opção excluir , selecione tipo de colunae, em seguida, selecione cadeia de caracteres.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção excluir , selecione tipo de colunae, em seguida, selecione categórico.
Preciso aplicar a seleção de recursos somente às colunas de recursos categóricos.
Se você precisar separar colunas de um tipo semelhante, poderá aplicar várias condições. Por exemplo, os recursos podem ser categóricos ou numéricos, mas alguns módulos de seleção de recursos não permitem campos não numéricos, portanto, primeiro você precisa obter recursos e, em seguida, adicionar uma condição para obter apenas os recursos numéricos.
Clique em Iniciar seletor de coluna.
Para começar com, selecione nenhuma coluna.
Selecione a opção incluir e selecione todos os recursos.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção incluir , selecione tipo de colunae, em seguida, selecione categórico.
Preciso aplicar uma operação de normalização diferente a diferentes colunas numéricas.
Antes de aplicar operações matemáticas, talvez seja necessário separar os inteiros dos números de ponto flutuante e assim por diante. Para fazer isso, use os tipos de dados e aplique várias condições.
Clique em Iniciar seletor de coluna.
Para começar com, selecione nenhuma coluna.
Selecione a opção incluir , selecione tipo de colunae, em seguida, selecione numérica.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção incluir , selecione tipo de colunae, em seguida, selecione o tipo numérico que é incompatível com a operação de downstream.
Há muitas colunas para escolher usando o seletor.
Geralmente, depois de importar um conjunto de um DataSet, você descobre que ele tem muitas colunas que não são necessárias para modelagem. No entanto, você deseja preservá-los para saída mais tarde ou para identificar casos. Você pode fazer isso dividindo o conjunto de um em duas partes (metadados e colunas usadas para modelagem) e, posteriormente, recombinar colunas conforme necessário, usando adicionar colunas.
Clique em Iniciar seletor de coluna.
Para começar com, selecione nenhuma coluna.
Selecione a opção incluir , selecione tipo de colunae, em seguida, selecione recurso.
Clique no sinal de mais (+) para adicionar uma nova condição.
Selecione a opção incluir , selecione tipo de colunae, em seguida, selecione rótulo.
Repita essas etapas, mas inicie com todas as colunas e, em seguida, exclua as colunas de recurso e rótulo para criar um conjunto de apenas os metadados.
Não sei os valores de índice das colunas de que preciso.
Se houver apenas algumas colunas em seu conjunto de registros, você poderá usar a opção Visualizar para ver as primeiras 100 linhas e, em seguida, descobrir qual coluna é o índice 1, 2 e assim por diante.
os índices no Machine Learning começam em 1, portanto, a primeira coluna é sempre 1.
Para obter o índice da última coluna, examine as duas listas de colunas no seletor de coluna: colunas disponíveis e colunas selecionadas. A barra cinza abaixo da lista de colunas exibe a contagem de colunas em cada lista. Assim, se 24 colunas estiverem disponíveis e duas colunas forem selecionadas, haverá um total de 26 colunas e o índice da coluna final será 26.
Outra opção para extrair o esquema de seu conjunto de seus conjuntos de módulos é usar o módulo Executar script R para obter os nomes de coluna com números de índice.
Conexão seu conjunto de módulos para o módulo executar Script R .
No módulo, digite um script como o seguinte para gerar os nomes de coluna. A linha que começa com
myindex
gera uma sequência que representa os índices na ordem.dataset1 <- maml.mapInputPort(1) # class: data.frame mycolnames <-names(dataset1); myindex <- seq(from = 1, to = length(mycolnames), by=1); outdata <- as.data.frame(cbind(myindex, mycolnames)); maml.mapOutputPort("outdata");
Resultados no conjunto de conjuntos de preços de automóvel
MyIndex mycolnames 1 simbologia 2 normalizadas-perdas 3 Make
Observações técnicas
Se você estiver familiarizado com bancos de dados relacionais, esse módulo criará uma projeção dos mesmos. portanto, o nome original, Project colunas. em termos de banco de dados, uma projeção é uma função, como uma instrução Transact-SQL ou LINQ, que usa dados em formato tabular como entrada e produz uma saída relacionada.
Em Algebra relacional, uma projeção é uma operação unário, que é gravada como um conjunto de nomes de atributo. O resultado de uma projeção é o conjunto desses atributos, com outros atributos descartados.
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Selecionar colunas | any | ColumnSelection | Seleciona as colunas para manter no conjunto de dados projetado. |
Saídas
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de saída |
Exceções
Exceção | Descrição |
---|---|
Erro 0001 | Ocorre uma exceção se uma ou mais colunas especificadas do conjunto de dados não podem ser encontradas. |
Erro 0003 | Ocorrerá uma exceção se um ou mais conjuntos de dados de entrada for nulo ou estiver vazio. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.