Previsões de série temporal usando dados de substituição (Tutorial de mineração de dados intermediário)
Nesta tarefa, você criará um novo modelo com base em dados de vendas mundiais. Depois, você criará uma consulta de previsão que aplica o modelo de vendas mundial a uma das regiões individuais.
Criando um modelo geral
Lembre-se de que sua análise dos resultados do modelo de mineração original revelaram grandes diferenças entre as regiões e as linhas de produtos. Por exemplo, as vendas na América do Norte eram fortes para o modelo M200, enquanto que as vendas do modelo de T1000 não iam tão bem. Porém, a análise é complicada pelo fato de que algumas séries não tinham muitos dados, ou os dados iniciavam em um ponto no tempo diferente. Alguns dados também estavam faltando.
Para solucionar alguns dos problemas de qualidade de dados, você decide mesclar os dados de vendas do mundo todo e usar esse conjunto de tendências geral de vendas para criar um modelo que possa ser aplicado à previsão de vendas futuras em qualquer região.
Quando você for criar as previsões, usará o padrão gerado pelo treinamento sobre dados de vendas mundiais, mas substituirá os pontos de dados históricos pelos dados de vendas de cada região. Dessa maneira, a forma da tendência é preservada mas os valores previstos ficam alinhados com os números de vendas históricos de cada região e modelo.
Fazendo uma previsão cruzada com um modelo de série temporal
O processo de usar dados de uma série para prever tendências em outra série é chamado previsão cruzada. Você pode usar a previsão cruzada em muitos cenários: por exemplo, você poderia decidir que vendas de televisão são uma profeta boa de atividade econômica global, e aplicar um modelo treinou vendas na televisão a dados econômicos gerais.
Na Mineração de Dados do SQL Server, você faz previsão cruzada usando o parâmetro REPLACE_MODEL_CASES nos argumentos da função, PredictTimeSeries (DMX).
Na próxima tarefa, você aprenderá a usar REPLACE_MODEL_CASES. Você usará os dados de vendas mundiais mesclados para criar um modelo e depois criará uma consulta de previsão que mapeia o modelo geral nos dados de substituição.
Estamos partindo do princípio de que você está familiarizado com o método de criação de modelos de mineração de dados agora e, portanto, as instruções para criar o modelo foram simplificadas.
Para criar uma estrutura de mineração e um modelo de mineração usando os dados agregados
No Gerenciador de Soluções, clique com o botão direito do mouse em Estruturas de Mineração e, em seguida, selecione Nova Estrutura de Mineração para iniciar o Assistente de Mineração de Dados.
No Assistente de Mineração de Dados, faça as seguintes seleções:
Algoritmo: Microsoft Time Series
Use a fonte de dados que você criou anteriormente nesta lição avançada como a origem do modelo. Consulte Previsões de série temporal avançadas (Tutorial de mineração de dados intermediário).
Exibição da fonte de dados: AllRegions
Escolha as seguintes colunas para a chave de série e chave de tempo:
Chave de tempo: ReportingDate
Chave: Region
Escolha as seguintes colunas para Input e Predict:
SumQty
SumAmt
AvgAmt
AvgQty
Em Nome da estrutura de mineração, digite: All Regions
Em Nome do modelo de mineração, digite: All Regions
Processe a nova estrutura e o novo modelo.
Para criar a consulta de previsão e mapear os dados de substituição
Se o modelo ainda não estiver aberto, clique duas vezes na estrutura AllRegions e, no Designer de Mineração de Dados, clique na guia Previsão de Modelo de Mineração.
No painel Modelo de Mineração, o modelo AllRegions já deverá estar selecionado. Se ele não estiver selecionado, clique em Selecionar Modelo e selecione o modelo AllRegions.
No painel Selecionar Tabela(s) de Entrada, clique em Selecionar Tabela de Casos.
Na caixa de diálogo Selecionar Tabela, altere a fonte de dados para T1000 Pacific Region e clique em OK.
Clique com o botão direito do mouse na linha de junção entre o modelo de mineração e os dados de entrada e selecione Modificar Conexões. Mapeie os dados na exibição da fonte de dados do modelo como segue:
Verifique se a coluna ReportingDate no modelo de mineração está mapeada para a coluna ReportingDate nos dados de entrada.
Na caixa de diálogo Modificar Mapeamento, na linha da coluna do modelo AvgQty, clique em Coluna da Tabela e selecione T1000 Pacific.Quantity. Clique em OK.
Esta etapa mapeia a coluna que você criou no modelo para prever a quantidade média para os dados reais da série T1000 em relação à quantidade de vendas.
Não mapeie a coluna Region no modelo para nenhuma coluna de entrada.
Como o modelo agregou os dados em todas as séries, não há nenhuma correspondência para os valores de séries como T1000 Pacífico e um erro é gerado quando as consultas de previsão são executadas.
Agora você criará a consulta de previsão.
Primeiramente, adicione uma coluna aos resultados gerados em AllRegions do modelo junto com as previsões. Desse modo, você saberá que os resultados foram baseados no modelo geral.
Na grade, clique na primeira linha em branco, em Origem, e selecione AllRegions mining model.
Em Campo, selecione Region.
Em Alias, digite Modelo Usado.
Em seguida, adicione um rótulo aos resultados para que seja possível ver a que série a previsão se destina.
Clique em uma linha vazia e, em Origem, selecione Expressão Personalizada.
Na coluna Alias, digite ModelRegion.
Na coluna Critérios/Argumento, digite 'T1000 Pacific'.
Agora você configurará a função da previsão cruzada.
Clique em uma linha vazia e, em Origem, selecione Função de Previsão.
Na coluna Campo, selecione PredictTimeSeries.
Em Alias, digite Valores Previstos.
Arraste o campo AvgQty do painel Modelo de Mineração para a coluna Critérios/Argumento com o uso da operação arrastar e soltar.
Na coluna Critérios/Argumento, após o nome do campo, digite o seguinte texto: ,5, REPLACE_MODEL_CASES
O texto completo da caixa Critérios/Argumento deve ser: [AllRegions].[AvgQty],5,REPLACE_MODEL_CASES
Clique em Resultados.
Criando a consulta da previsão cruzada em DMX
Você deve ter notado um problema com a previsão cruzada: isto é, para aplicar o modelo geral a uma série de dados diferente, como o modelo de produto T1000 na região de América do Norte, você deve criar uma consulta diferente para cada série, de forma que você possa mapear cada conjunto de entradas para o modelo.
Porém, em vez de criar a consulta no designer, você pode mudar para exibição DMX e editar a instrução DMX que você criou. Por exemplo, a seguinte instrução DMX representa a consulta recém-criada:
SELECT
([All Regions].[Region]) as [Model Used],
('T-1000 Pacific') as [ModelRegion],
(PredictTimeSeries([All Regions].[Avg Qty],5, REPLACE_MODEL_CASES)) as [Predicted Quantity]
FROM [All Regions]
PREDICTION JOIN
OPENQUERY([Adventure Works DW2003R2], 'SELECT [ReportingDate] FROM
(
SELECT ReportingDate, ModelRegion, Quantity, Amount
FROM dbo.vTimeSeries
WHERE (ModelRegion = N''T1000 Pacific'')
) as [T1000 Pacific] ')
AS t
ON
[All Regions].[Reporting Date] = t.[ReportingDate]
AND
[All Regions].[Avg Qty] = t.[Quantity]
Para aplicá-la a um modelo diferente, basta editar a instrução da consulta para substituir a condição do filtro e atualizar os rótulos associados a cada resultado.
Por exemplo, se você alterar as condições do filtro e os rótulos de coluna substituindo 'Pacífico' por 'América do Norte', obterá previsões para o produto T1000 na América do Norte, com base nos padrões do modelo geral.
Próxima tarefa na lição
Comparando previsões para modelos de previsão (Tutorial de mineração de dados intermediário)