Selecionar colunas no componente Conjunto de dados
Este artigo descreve um componente no designer do Azure Machine Learning.
Use este componente para escolher um subconjunto de colunas para usar em operações a jusante. O componente não remove fisicamente as colunas do conjunto de dados de origem; em vez disso, ele cria um subconjunto de colunas, muito parecido com uma exibição ou projeção de banco de dados.
Esse componente é útil quando você precisa limitar as colunas disponíveis para uma operação downstream ou se deseja reduzir o tamanho do conjunto de dados removendo colunas desnecessárias.
As colunas no conjunto de dados são saídas na mesma ordem que nos dados originais, mesmo que você as especifique em uma ordem diferente.
Como utilizar
Este componente não tem parâmetros. Use o seletor de colunas para escolher as colunas a serem incluídas ou excluídas.
Escolher colunas por nome
Há várias opções no componente para escolher colunas por nome:
Filtrar e pesquisar
Clique na opção BY NAME .
Se você conectou um conjunto de dados que já está preenchido, uma lista de colunas disponíveis deve aparecer. Se nenhuma coluna aparecer, talvez seja necessário executar componentes upstream para exibir a lista de colunas.
Para filtrar a lista, digite na caixa de pesquisa. Por exemplo, se você digitar a letra
w
na caixa de pesquisa, a lista será filtrada para mostrar os nomes das colunas que contêm a letraw
.Selecione colunas e clique no botão de seta para a direita para mover as colunas selecionadas para a lista no painel direito.
- Para selecionar um intervalo contínuo de nomes de colunas, pressione Shift + Click.
- Para adicionar colunas individuais à seleção, pressione Ctrl + Click.
Clique no botão de marca de seleção para salvar e fechar.
Usar nomes em combinação com outras regras
Clique na opção WITH RULES .
Escolha uma regra, como mostrar colunas de um tipo de dados específico.
Em seguida, clique em colunas individuais desse tipo por nome para adicioná-las à lista de seleção.
Digite ou cole uma lista separada por vírgulas de nomes de colunas
Se o conjunto de dados for amplo, talvez seja mais fácil usar índices ou listas de nomes geradas, em vez de selecionar colunas individualmente. Supondo que você tenha preparado a lista com antecedência:
- Clique na opção WITH RULES .
- Selecione Sem colunas, selecione Incluir e clique dentro da caixa de texto com o ponto de exclamação vermelho.
- Cole ou digite uma lista separada por vírgulas de nomes de colunas validados anteriormente. Não é possível salvar o componente se qualquer coluna tiver um nome inválido, portanto, certifique-se de verificar os nomes com antecedência.
Você também pode usar esse método para especificar uma lista de colunas usando seus valores de índice.
Escolha por tipo
Se você usar a opção WITH RULES , poderá aplicar várias condições nas seleções de coluna. Por exemplo, talvez seja necessário obter apenas colunas de recursos de um tipo de dados numérico.
A opção COMEÇAR COM determina o seu ponto de partida e é importante para compreender os resultados.
Se você selecionar a opção TODAS as COLUNAS , todas as colunas serão adicionadas à lista. Em seguida, você deve usar a opção Excluir para remover colunas que atendem a determinadas condições.
Por exemplo, você pode começar com todas as colunas e, em seguida, remover colunas por nome ou por tipo.
Se você selecionar a opção SEM COLUNAS , a lista de colunas começará vazia. Em seguida, especifique as condições para adicionar colunas à lista.
Se você aplicar várias regras, cada condição será aditiva. Por exemplo, digamos que você comece sem colunas e, em seguida, adicione uma regra para obter todas as colunas numéricas. No conjunto de dados de preços de automóveis, isso resulta em 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione Incluir todos os recursos. O conjunto de dados resultante inclui todas as colunas numéricas, além de todas as colunas de feição, incluindo algumas colunas de recurso de cadeia de caracteres.
Escolher por índice de coluna
O índice da coluna refere-se à ordem da coluna dentro do conjunto de dados original.
- As colunas são numeradas sequencialmente a partir de 1.
- Para obter um intervalo de colunas, use um hífen.
- Especificações abertas, tais como
1-
ou-3
não são permitidas. - Valores de índice duplicados (ou nomes de coluna) não são permitidos e podem resultar em um erro.
Por exemplo, supondo que seu conjunto de dados tenha pelo menos oito colunas, você pode colar em qualquer um dos exemplos a seguir para retornar várias colunas não contíguas:
8,1-4,6
1,3-8
1,3-6,4
o exemplo final não resulta num erro; no entanto, ele retorna uma única instância da coluna 4
.
Alterar a ordem das colunas
A opção Permitir duplicatas e preservar a ordem das colunas na seleção começa com uma lista vazia e adiciona colunas especificadas por nome ou por índice. Ao contrário de outras opções, que sempre retornam colunas em sua "ordem natural", esta opção produz as colunas na ordem em que você as nomeia ou lista.
Por exemplo, em um conjunto de dados com as colunas Col1, Col2, Col3 e Col4, você pode inverter a ordem das colunas e deixar de fora a coluna 2, especificando uma das seguintes listas:
Col4, Col3, Col1
4,3,1
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.