Partilhar via


Compreendendo os requisitos para um modelo de série temporal (Tutorial de mineração de dados intermediário)

Quando for preparar os dados para usá-los em um modelo de previsão, você deverá garantir que eles contenham uma coluna que possa ser usada na identificação das etapas da série temporal. Essa coluna será designada como a coluna Key Time. Como é uma chave, a coluna deve conter valores numéricos exclusivos.

Escolher a unidade certa para a coluna Key Time é uma parte importante da análise. Por exemplo, suponha que seus dados de vendas sejam atualizados a cada minuto. Você não precisa necessariamente usar minutos como a unidade para a série temporal; você pode achar mais significativo acumular os dados de vendas por dia, semana ou mês. Se você não tiver certeza sobre qual unidade de tempo usar, poderá criar uma nova exibição da fonte de dados para cada agregação e criar modelos relacionados, para ver se tendências diferentes emergem a cada nível de agregação.

Neste tutorial, os dados de vendas são coletados diariamente no banco de dados de vendas transacional, mas para a mineração de dados, os dados foram pré-agregados por mês, usando uma exibição.

Além disso, é recomendável para a análise que os dados tenham o mínimo possível de lacunas. Se você planeja analisar várias séries de dados, todas as séries devem iniciar ou terminar preferencialmente na mesma data. Se houver lacunas nos dados, mas não no início ou no final de uma série, você poderá usar o parâmetro MISSING_VALUE_SUBSTITUTION para preenchê-la. O Analysis Services também fornece várias opções para substituir dados ausentes por valores, como usar meios ou constantes.

Aviso

As ferramentas Gráfico Dinâmico e Tabela Dinâmica que eram fornecidas em versões anteriores do designer de exibição da fonte de dados não são mais fornecidas. Recomendamos que você identifique lacunas nos dados de série temporal com antecedência usando ferramentas como o Data Profiler incluído no Integration Services.

Para identificar a chave de tempo para o modelo de previsão

  1. No painel , SalesByRegion.dsv [Design], clique com o botão direito do mouse na tabela vTimeSeries e selecione Explorar Dados.

    Uma nova guia é aberta, intitulada Explorar vTimeSeries Table.

  2. Na guia Tabela , examine os dados usados nas colunas TimeIndex e Data de Relatório.

    Ambos são sequências com valores exclusivos e podem ser usados como a chave de série temporal; porém, os tipos de dados das colunas são diferentes. O algoritmo MTS não requer um tipo de dados datetime, apenas que os valores sejam distintos e ordenados. Dessa forma, cada coluna pode ser usada como a chave de tempo para o modelo de previsão.

  3. Na superfície de design da exibição da fonte de dados, selecione a coluna Data do Relatório e selecione Propriedades. Em seguida, clique na coluna TimeIndex e selecione Propriedades.

    O campo TimeIndex tem o tipo de dados System.Int32, enquanto o campo Data de Relatório tem o tipo de dados System.DateTime. Muitos data warehouses convertem valores de data/hora em inteiros e usam a coluna de inteiros como chave, para melhorar desempenho da indexação. No entanto, se você usar essa coluna, o algoritmo MTS fará previsões usando valores futuros como 201014, 201014 e assim sucessivamente. Como você deseja representar sua previsão de dados de vendas usando datas de calendário, você usará a coluna Data do Relatório como o identificador de série exclusivo.

Para definir a chave na exibição da fonte de dados.

  1. No painel SalesByRegion.dsv, selecione a tabela vTimeSeries.

  2. Clique com o botão direito do mouse na coluna Data do Relatório e selecione Definir Chave Primária Lógica.

Manipulando dados ausentes (opcional)

Se qualquer série tiver dados ausentes, talvez você obtenha um erro ao tentar processar o modelo. Existem diversas maneiras de contornar dados ausentes:

  • Você pode deixar que o Analysis Services preencha os valores ausentes, por meio do cálculo de uma média ou usando um valor anterior. Você faz isso ao definir o parâmetro MISSING_VALUE_SUBSTITUTION no modelo de mineração. Para obter mais informações sobre esse parâmetro, consulte Referência técnica do algoritmo de série temporal da Microsoft. Para obter informações sobre como alterar parâmetros em um modelo de mineração existente, consulte Exibir ou alterar parâmetros de algoritmo.

  • Você pode alterar a fonte de dados ou filtrar a exibição subjacente para eliminar a série irregular ou substituir valores. Você pode fazer isso na fonte de dados relacional ou pode modificar a exibição da fonte de dados criando consultas nomeadas ou cálculos nomeados personalizados. Para obter mais informações, consulte Exibições de fontes de dados em modelos multidimensionais. Uma tarefa posterior nesta lição oferecerá um exemplo de como construir uma consulta nomeada e um cálculo personalizado.

Para este cenário, alguns dados estão faltando no início de uma série: ou seja, não há dados para a linha de produto T1000 até julho de 2007. Caso contrário, todas as séries terminariam na mesma data e não haveria valores ausentes.

O requisito do algoritmo microsoft time series é que qualquer série que você incluir em um único modelo deve ter o mesmo ponto final . Como o modelo de bicicleta T1000 foi apresentado em 2007, os dados dessa série começam depois de outros modelos de bicicleta, mas a série termina na mesma data e, portanto, os dados são usáveis.

Para fechar o designer da exibição da fonte de dados

  • Clique com o botão direito do mouse na guia Explore vTimeSeries Table e selecione Fechar.

Próxima tarefa da lição

Criando uma estrutura e um modelo de previsão (Tutorial de mineração de dados intermediário)

Consulte Também

Algoritmo MTS