Partilhar via


Sinalizadores de modelagem (Mineração de Dados)

Use sinalizadores de modelagem no SQL Server 2008 Analysis Services (SSAS) para fornecer informações adicionais para um algoritmo de mineração de dados sobre os dados definidos em uma tabela de casos. O algoritmo pode usar essas informações para criar um modelo de mineração de dados mais preciso.

Você pode usar o Data Mining Extensions (DMX) para definir sinalizadores de modelagem programaticamente ou pode defini-los no Designer de Mineração de Dados no Business Intelligence Development Studio. Para obter mais informações sobre como definir esses sinalizadores, consulte Colunas do modelo de mineração.

Alguns sinalizadores de modelagem são definidos no nível da estrutura de mineração, enquanto outros são definidos no nível de coluna do modelo de mineração. Por exemplo, o sinalizador de modelagem NOT NULL é usado com colunas da estrutura de mineração. Você pode definir sinalizadores de modelagem adicionais na coluna do modelo de mineração.

A lista a seguir descreve os sinalizadores de modelagem suportados no Analysis Services. Para obter informações sobre como os sinalizadores de modelagem são suportados por algoritmos específicos, consulte o tópico de referência técnica do algoritmo.

  • NOT NULL
    Indica que os valores da coluna de atributo não devem jamais conter um valor nulo. Ocorrerá um erro se o Analysis Services encontrar um valor nulo nessa coluna de atributo durante o processo de treinamento do modelo.

  • MODEL_EXISTENCE_ONLY
    Indica que a coluna será tratada como se tivesse dois estados: Missing e Existing. Se o valor for NULL, será tratado como Missing.

    ObservaçãoObservação

    Missing é um estado especial usado pelo algoritmo e difere do valor de texto "Missing" em uma coluna. Para obter mais informações, consulte Valores ausentes (Analysis Services - Mineração de dados).

    Um uso comum desse sinalizador de modelagem é para indicar atributos em que o estado NULL tem um significado implícito e o valor explícito do estado NOT NULL pode não ser tão importante quanto o fato de que a coluna possui algum valor. Por exemplo, uma coluna [DateContractSigned] pode ser NULL se nunca houve um contrato assinado e NOT NULL se o contrato foi assinado. Portanto, se o objetivo do modelo é prever se um contrato será assinado, você pode usar o sinalizador MODEL_EXISTENCE_ONLY para ignorar o valor da data exata dos casos NOT NULL e distinguir somente os casos em que o valor seja Missing ou Existing.

  • REGRESSOR
    Os valores da coluna de atributo são menos importantes que a presença do atributo. Este sinalizador é definido em uma coluna de modelo de mineração.

ObservaçãoObservação

Plug-ins de terceiros podem ter outros sinalizadores de modelagem, além daqueles predefinidos pelo Analysis Services.

Exibindo e alterando sinalizadores de modelagem

No Designer de Mineração de Dados, é possível exibir e modificar os sinalizadores de modelagem associados a uma estrutura ou a uma coluna de mineração ao exibir as propriedades do modelo ou da estrutura de mineração.

Exibir ou alterar o sinalizador de modelagem de uma coluna de estrutura ou de modelo

  1. No BI Development Studio, no Gerenciador de Soluções, clique duas vezes na estrutura de mineração.

  2. Para definir o sinalizador de modelagem NOT NULL, clique na guia Estrutura de Mineração.

    Para definir os sinalizadores REGRESSOR ou MODEL_EXISTENCE_ONLY, clique na guia Modelo de Mineração.

  3. Clique com o botão direito do mouse na coluna que você deseja exibir ou alterar e selecione Propriedades.

  4. Para adicionar um novo sinalizador de modelagem, clique na caixa de texto próxima de propriedade ModelingFlags e marque as caixas de seleção referentes aos sinalizadores de modelagem que você deseja usar.

    Serão exibidos apenas os sinalizadores de modelagem apropriados para o tipo de dados da coluna.

    ObservaçãoObservação

    Depois de alterar um sinalizador de modelagem, processe novamente o modelo.

Não é possível alterar os sinalizadores de modelagem usados em um modelo e em uma estrutura de mineração existentes com o uso de DMX. Você deve criar um novo modelo de mineração usando a sintaxe ALTER MINING STRUCTURE….ADD MINING MODEL.

Se você não tiver certeza sobre quais sinalizadores de modelagem estão em uso na estrutura atual, pode criar uma consulta que retornará os sinalizadores de modelagem usando a seguinte sintaxe:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS
WHERE STRUCTURE_NAME = '<structure name>'

Usando o sinalizador de modelagem REGRESSOR

Ao definir o sinalizador de modelagem REGRESSOR em uma coluna, você está indicando ao algoritmo que essa coluna contém possíveis regressores. Os regressores reais usados no modelo são determinados pelo algoritmo. Um regressor potencial poderá ser descartado se não modelar o atributo previsível.

Quando você construir um modelo usando o Assistente de Mineração de Dados, todas as colunas de entrada contínuas serão sinalizadas como possíveis regressores. Portanto, mesmo que você não defina explicitamente um sinalizador REGRESSOR em uma coluna, ela poderá ser usada como regressor no modelo final.

Você pode determinar os regressores que foram realmente usados no modelo final executando uma consulta em um conjunto de linhas do esquema do modelo de mineração, como mostra este exemplo:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_columnS
WHERE MODEL_NAME = '<model name>'

Observação   Se você modificar um modelo de mineração e alterar o tipo de conteúdo de uma coluna de contínuo para discreto, terá que alterar manualmente o sinalizador da coluna de mineração e, em seguida, processar novamente o modelo.

Regressor em modelos de regressão lineares

Os modelos de regressão lineares baseiam-se no algoritmo Árvores de Decisão da Microsoft. Mesmo que você não use o algoritmo Regressão Linear da Microsoft, todo modelo de árvore de decisão poderá conter uma árvore ou nós que representam uma regressão em um atributo contínuo.

Não é necessário especificar que uma coluna contínua representa um regressor. O algoritmo Árvores de Decisão da Microsoft particionará o conjunto de dados em regiões com padrões significativos mesmo que você não defina o sinalizador REGRESSOR na coluna. A diferença é que, quando você define o sinalizador de modelagem, o algoritmo tentará encontrar equações de regressão no formato a*C1 + b*C2 + ... de acordo com os padrões dos nós da árvore. A soma dos restos é calculada e, se o desvio for muito grande, será forçada uma divisão da árvore.

Por exemplo, se você estiver prevendo o comportamento de compra dos clientes usando Renda como um atributo e definir o sinalizador de modelagem REGRESSOR na coluna, o algoritmo primeiro tentará adequar-se aos valores de Renda usando uma fórmula de regressão padrão. Se o desvio for muito grande, a fórmula de regressão será abandonada e a árvore será dividida em algum outro atributo. O algoritmo árvore de decisão tentará então ajustar um regressor para income em cada uma das ramificações após a divisão.

Você pode usar o parâmetro FORCED_REGRESSOR para garantir que o algoritmo usará um determinado regressor. Esse parâmetro pode ser usado com o algoritmo Árvores de Decisão e com o algoritmo Regressão Linear.