Criar estrutura de mineração (Suplementos de Mineração de Dados do SQL Server)
Use a opção Avançado no grupo Modelagem de Dados quando quiser criar um conjunto de dados usado para análise sem necessariamente criar um modelo. Isso é útil quando você deseja testar algoritmos diferentes.
Depois de criar a estrutura de mineração, use o assistente Adicionar Modelo à Estrutura para criar um modelo com base nessa estrutura. Você também pode criar novos modelos usando o Editor de Consultas Avançado de Mineração de Dados.
Você também pode usar essa opção quando pretende criar modelos usando um dos algoritmos avançados, que têm suporte do Analysis Services, mas não estão disponíveis por meio de um assistente, como regressão linear ou sequência clustering ou se você estiver usando um algoritmo personalizado.
Observação
Quando você cria a estrutura de mineração, também pode estabelecer um conjunto de dados de teste selecionado aleatoriamente a ser usado para validar todos os seus modelos. Isso é útil porque você pode facilmente comparar a precisão do modelo em um conjunto de dados comum. Basta selecionar a opção Dividir dados em conjuntos de treinamento e teste e especificar uma porcentagem apropriada de dados a serem reservados para teste, geralmente em torno de 30%.
Usar o assistente para criar uma estrutura de mineração
Na faixa de opções Mineração de Dados , clique em Avançado e selecione Criar Estrutura.
Na caixa de diálogo Selecionar dados de origem , especifique o intervalo do Excel, a tabela de dados do Excel ou a fonte de dados externa que contém os dados que você deseja usar para análise.
Clique em Próximo.
Na caixa de diálogo Selecionar Colunas , examine a lista de colunas disponíveis na fonte de dados selecionada.
Clique na seta à direita do nome da coluna para alterar o uso da coluna, escolhendo entre estes valores:
Key. Cada modelo exige pelo menos uma chave.
Hora-chave. Essa opção só está disponível para modelos de previsão, onde ela é necessária.
Inclua. Indica que a coluna deve ser disponibilizada na estrutura de mineração, mas ela não é uma coluna de chave.
Não use. Indica que a coluna não deve ser incluída na estrutura de mineração.
Lembre-se de que sempre é possível ignorar colunas quando você cria o modelo, mas, para adicionar colunas posteriormente, você precisa reprocessar a estrutura e o modelo.
Clique no botão Procurar (...) para definir o tipo de conteúdo, o tipo de dados e os sinalizadores de modelagem.
Observação
Se a coluna contiver dados numéricos, procure sempre abrir esta caixa de diálogo para garantir que o tipo de dados correto seja escolhido. Em alguns casos, mesmo se os dados de entrada forem um número, você desejará tratá-los como uma variável categórica, ou um valor discreto, e não como um número contínuo.
Por exemplo, uma coluna de CEP pode ser listada por padrão como um tipo de dados longo contínuo, mas, para obter resultados melhores, especifique que ela será tratada como um valor de texto discreto.
Para obter mais informações, consulte a seção sobre tipos de conteúdo em Escolhendo dados para mineração de dados.
Clique em OK para fechar a caixa de diálogo.
Clique em Próximo.
Dependendo do tipo de dados utilizado, você poderá concluir o assistente após essa etapa. Nesse caso, vá para a página Concluir para nomear sua estrutura de mineração.
Para outros modelos, você tem a opção adicional de criar um conjunto de dados de teste.
Na caixa de diálogo Dividir dados em conjuntos de dados de treinamento e teste , especifique como deseja que os dados sejam particionados. Por padrão, 30% dos dados são usados para teste.
Se desejar, digite o número máximo de linhas a serem usadas para teste.
Clique em Próximo.
Na caixa de diálogo Concluir , digite um nome e uma descrição para a nova estrutura de mineração.
Clique em Concluir.
Opções relacionadas
Opção | Comentários |
---|---|
Caixa de diálogo Selecionar Dados de Origem | Quando você seleciona uma tabela do Excel, deve indicar se os dados já têm cabeçalhos. Se você ignorar isso, a primeira linha de dados será usada como o nome da coluna. Se você usar a opção Fonte de dados externa, poderá usar qualquer tipo de dados que possa ser definido em uma fonte de dados do Analysis Services. No entanto, a caixa de diálogo no suplemento para criar novas fontes de dados não inclui a gama completa de fontes de dados compatíveis com o Analysis Services, portanto, recomendamos que você crie as fontes de dados no servidor do Analysis Services com antecedência e, em seguida, conecte-se usando os suplementos. |
Caixa de diálogo Editor de Consultas da Fonte de Dados | Após se conectar à fonte de dados especificada, você pode adicionar colunas, ou criar uma consulta personalizada para gerar colunas personalizadas. |
Dividir dados em conjuntos de treinamento e de teste | Um valor recomendado para treinamento versus conjuntos de testes é 70% para treinamento e 30% para teste; no entanto, se você tiver muitos dados, poderá especificar um número máximo de linhas para teste. |
Caixa de diálogo Concluir | As opções para detalhamento estão disponíveis em alguns tipos de modelo e são muito úteis se você incluiu colunas de detalhes na estrutura de mineração. Por exemplo, se você criar um modelo de clustering, poderá incluir detalhes como o nome ou o endereço de email para o detalhamento, mas não a análise, para facilitar o contato com clientes em um cluster específico. |
Definindo o uso das colunas no Assistente para Criar Estrutura de Mineração
Ao criar uma nova estrutura de mineração, você pode especificar quais colunas da fonte de dados deverão ser incluídas na estrutura de mineração e como essas colunas deverão ser usadas. Lembre-se de que uma estrutura de mineração pode oferecer suporte a vários modelos de mineração.
Valores | Descrição |
---|---|
Incluir | Especifica que a coluna contém dados que podem ser usados para análise ou previsão. |
Chave | Especifica que a coluna contém uma ID de transação, uma ID de série ou outra chave necessária para processamento. Todos os algoritmos requerem uma coluna Key. Porém, alguns algoritmos permitem apenas uma única chave, enquanto outros permitem várias chaves. Se a coluna contiver uma chave, mas não for necessária para processamento, selecione Não Usar. |
Key Time | Especifica que a coluna contém uma data ou outro valor numérico que pode ser usado para identificar os itens de uma série temporal de maneira exclusiva. |
Não Usar | Especifica que a coluna deve ser ignorada. Os dados na coluna não serão processados. |
Para processar corretamente um modelo, o algoritmo precisará saber quais colunas são a coluna de chave que identifica exclusivamente cada uma das linhas; qual coluna é a coluna de destino para a criação de previsões, caso se esteja criando um modelo previsível, e quais colunas usar como colunas de entrada para criar relações que preveem a coluna de destino.
As colunas especificadas como Não usar não estarão presentes na estrutura de mineração.
Se você adicionar colunas desnecessárias ou com valores inválidos, isso poderá prejudicar os resultados da análise. Portanto, assegure-se de incluir apenas as colunas que sejam relevantes. Contudo, lembre-se de que as colunas não utilizadas na estrutura de mineração não estarão disponíveis para consultas.
As colunas especificadas como o tipo Include serão incluídas na estrutura de mineração e posteriormente poderão ser usadas para análise ou previsão nos modelos de mineração.
Caso não tenha certeza se precisará usar a coluna, você sempre poderá incluí-la na estrutura de mineração e depois criar um modelo de mineração que não utilize a coluna. Por exemplo, é possível incluir uma coluna de número de telefone nos dados para referência posterior, mas criar um modelo de clustering que ignore números de telefone. Após a criação dos clusters, você pode criar uma consulta que retorne os números de telefone das pessoas que pertençam a um cluster específico.
Todos os algoritmos exigem uma coluna Chave . Os valores na coluna Key devem ser exclusivos. Uma coluna Key Time é necessária apenas para modelos de previsão ou de série temporal. .
Requisitos
Para criar uma estrutura de mineração de dados, você deve ter uma conexão com uma instância do Analysis Services. Uma conexão será necessária mesmo que você esteja trabalhando com estruturas temporárias. Para obter mais informações sobre como criar ou alterar uma conexão, consulte Conectar-se aos dados de origem (Cliente de Mineração de Dados para Excel).