Compreendendo os requisitos para um modelo de série temporal (Tutorial de mineração de dados intermediário)
Quando você estiver preparando dados para usá-los em um modelo de previsão, deverá garantir que eles contenham uma única coluna que possa ser usada na identificação das etapas de uma série temporal. Essa coluna será usada como a coluna Key Time e deverá conter valores numéricos exclusivos. Se houver lacunas nos dados em locais diferentes do início ou do final de uma série, você poderá usar o parâmetro MISSING_VALUE_SUBSTITUTION para preenchê-la. O Analysis Services oferece diversas opções para a substituição de dados ausentes por valores, como o uso de médias ou de constantes.
Se você planeja analisar várias séries de dados, garanta que todas elas iniciem ou terminem na mesma data.
Nesta tarefa, você irá explorar os dados da série temporal criando uma tabela dinâmica simples no Business Intelligence Development Studio. Aprenderá também algumas formas de localizar lacunas nos dados e de lidar com elas.
Para identificar a chave de tempo para o modelo de previsão
No painel SalesByRegion.dsv [Design], clique com o botão direito do mouse na tabela vTimeSeries e selecione Explorar Dados.
Uma nova guia será aberta, chamada Explorar Tabela vTimeSeries. Essa guia contém quatro guias: Tabela, Tabela Dinâmica, Gráfico e Gráfico Dinâmico.
Na guia Tabela, clique no botão Opções de amostragem à direita das guias.
Na caixa de diálogo Opções de Explorações, observe que o método de amostragem padrão, sob Métodos de amostragem, é usar a opção Contagem superior e usar como amostragem as 5000 primeiras linhas.
Altere Métodos de amostragem para Exemplo aleatório e altere Contagem de exemplo para 1000 e clique em OK.
Observação A alteração das opções de amostragem não afeta os dados usados para mineração de dados. Os gráficos e tabelas são somente ferramentas para ajudá-lo a navegar e a compreender os dados.
Na guia Tabela, revise os dados usados nas colunas TimeIndex e Reporting Date.
Ambas são sequências com valores exclusivos; no entanto, é melhor verificar o tipo de dados das colunas.
Observação Se você não conseguir ver a coluna Reporting Date, provavelmente tem uma versão mais antiga do banco de dados AdventureWorksDW. Este tutorial exige o banco de dados AdventureWorksDW2008R2 para usufruir as vantagens da nova funcionalidade de data e hora do SQL Server 2008. Para obter mais informações sobre as alterações em datas e horas, consulte Alterações de quebra em recursos do Mecanismo de Banco de Dados no SQL Server 2008 R2.
Clique na guia SalesByRegion.dsv [Design].
Selecione a coluna Reporting Date.
A janela Propriedades indica que o campo TimeIndex tem o tipo de dados System.Int32, enquanto que o campo Reporting Date tem o tipo de dados System.DateTime. O algoritmo MTS não requer um tipo de dados datetime, somente que os valores sejam diferentes e ordenados. Dessa forma, cada coluna pode ser usada como a chave de tempo para o modelo de previsão. No entanto, como você deseja representar sua previsão de dados de vendas usando datas de calendário, usará a coluna Reporting Date como o identificador de série exclusivo.
Para definir a chave na exibição da fonte de dados.
No painel SalesByRegion.dsv, selecione a tabela vTimeSeries.
Clique com o botão direito do mouse na coluna, Reporting Date, e selecione Definir Chave Primária Lógica.
Para procurar por lacunas na série de dados usando um gráfico dinâmico
No painel SalesByRegion.dsv [Design], clique com o botão direito do mouse na tabela vTimeSeries e selecione Explorar Dados.
Clique na guia Tabela Dinâmica.
Na caixa de diálogo Lista de Campos da Tabela Dinâmica, selecione os campos Quantidade e Valor e arraste-os para a área Soltar Campos de Totais ou Detalhes Aqui da tabela.
De modo similar, arraste o campo TimeIndex até a caixa Solte Campos de Coluna Aqui.
Observação O campo TimeIndex não está no campo que será usado na representação da série temporal, mas é fornecido para a compatibilidade com versões anteriores. Além disso, o campo TimeIndex oferece uma exibição mais simples da série que pode ser usada durante a navegação dos dados no gráfico dinâmico.
Arraste o campo ModelRegion até a caixa Solte Campos de Linha Aqui.
A tabela dinâmica criada mostrará a lista de produtos e de regiões na coluna esquerda, seguida por colunas com a quantidade e os valores de vendas para cada mês e ano do calendário.
Use a barra de rolagem à direita para ver a data inicial de dados de vendas para a série T1000.
Você pode ver, a partir desta tabela, que não há dados para a linha de produtos T1000 até julho de 2003. Um requisito importante do algoritmo MTS do SQL Server 2008 é que qualquer série incluída em um único modelo deverá ter o mesmo ponto final. Como o modelo de bicicleta T1000 foi apresentado em 2003, os dados dessa série começam depois de outros modelos de bicicleta, mas a série termina na mesma data e, portanto, os dados são aceitáveis.
Altere o campo usado para representar a série temporal arrastando TimeIndex para fora da tabela.
Arraste um dos campos a seguir da Lista de Campos da Tabela Dinâmica para a caixa Solte Campos de Coluna Aqui. Tente visualizar a série temporal de formas diferentes, arrastando colunas para fora da tabela ou selecionando agregações diferentes, como trimestre ou mês.
ReportingDate
ReportingDate por Semana
ReportingDate por Mês
Manipulando dados ausentes (opcional)
Se qualquer série tiver dados ausentes, talvez você obtenha um erro ao tentar processar o modelo. Existem diversas maneiras de contornar dados ausentes:
Deixar que o Analysis Services preencha os valores ausentes, por meio do cálculo de uma média ou usando um valor anterior. Você faz isso ao definir um parâmetro ao criar o modelo de mineração. Para obter mais informações, consulte Referência técnica do algoritmo MTS.
Alterando a fonte de dados ou filtrando a exibição subjacente para eliminar a série ou para substituir valores. Você pode fazer isso na fonte de dados relacional ou pode modificar a exibição da fonte de dados criando consultas nomeadas ou cálculos nomeados de cliente. Para obter mais informações, consulte Projetando exibições da fonte de dados (Analysis Services). Uma tarefa posterior nesta lição oferecerá um exemplo de como construir uma consulta nomeada e um cálculo personalizado.
Para este cenário, alguns dados estão ausentes no início de uma das séries, mas todas elas terminam na mesma data e não há valores ausentes. Dessa forma, não é necessário fazer qualquer alteração adicional, já que os dados atendem aos requisitos de um modelo de série temporal.
Para fechar o designer da exibição da fonte de dados
- Clique com o botão direito do mouse na guia Explorar Tabela vTimeSeries e selecione Fechar.
Próxima tarefa na lição
Criando uma estrutura e um modelo de previsão (Tutorial de mineração de dados intermediário)