Configurar modelo Comprados frequentemente em conjunto (pré-visualização)
Importante
Algumas ou todas estas funcionalidades estão disponíveis como parte de uma versão de pré-visualização. O conteúdo e a funcionalidade estão sujeitos a alterações.
Depois de implementar com êxito os Comprados frequentemente em conjunto, precisará de configurar o modelo para gerar informações sobre os dados disponíveis no Lakehouse.
Pré-requisitos
Necessita da permissão de Administrador do Fabric (Contribuidor da Área de Trabalho) para configurar os Frequentemente comprados em conjunto.
Configurar modelo para gerar informações
O bloco de notas consiste nas seguintes células que contam a história de como os dados são processados para fornecer a saída necessária.
Atenção
As células seguinte são utilizadas na sequência específica recomendada. Se forem utilizadas numa sequência diferente, o bloco de notas irá falhar.
Passo 1. Importar bibliotecas
Este passo importa as bibliotecas necessárias para o bloco de notas. Não é necessário fazer nenhuma alteração neste passo.
Passo 2. Inicializar configurações, logger e agente de verificação de pontos do Spark
Este passo inicializa as configurações, o logger e os objetos do agente de verificação de pontos do Spark que são utilizados para a execução do bloco de notas.
Pode inicializar o logger de duas formas diferentes:
Configurar para escrever registos nas saídas das células do bloco de notas. Este é o comportamento predefinido.
Configurar para escrever registos numa área de trabalho do Microsoft Azure Application Insights. Para esta abordagem, precisa do connection_string da área de trabalho do Application Insights. O sistema gera um ID de Execução e, em seguida, mostra-o na saída da célula. Pode utilizar o ID de Execução para consultar registos na área de trabalho do Application Insights.
Pode utilizar o ponto de verificação para sincronizar a implementação do Spark e para evitar a potencial geração de chaves duplicadas. Tem de fornecer um caminho que planeie utilizar como um diretório de trabalho. O nome da variável é checkpoint_dir. O diretório tem de estar dentro da secção de ficheiros do Lakehouse, ou seja, precisa de começar com "Ficheiros/".
Passo 3. Ligar ao Lakehouse e ler as tabelas de entrada
Este passo efetua a ligação ao Lakehouse e lê as tabelas de entrada necessárias para o modelo. Pode ler as tabelas de entrada a partir de uma das seguintes três opções:
O Lakehouse afixado do bloco de notas, que contém os dados de amostra. Esta é a opção predefinida.
Lakehouses que estão ligados ao blocos de notas. Pode selecionar o Lakehouse num menu pendente.
Outro Lakehouse que não esteja ligado ao bloco de notas. Deve fornecer o caminho completo para o Lakehouse.
Para obter detalhes sobre tabelas de entrada, consulte Dados de entrada para Comprados frequentemente em conjunto.
Passo 4. Definir períodos de análise para o modelo
O bloco de notas permite executar o modelo em múltiplos períodos de tempo, o que pode ajudar a capturar a sazonalidade e as mudanças no comportamento do cliente, no portefólio de produtos e no posicionamento do produto ao longo do tempo. Também pode comparar os resultados de diferentes períodos utilizando o dashboard de configuração inicial.
Para definir um período de tempo, utilize a função add_analysis_period
. Certifique-se de que define os períodos de análise dentro da duração dos dados de entrada. A duração dos dados de entrada (carimbo de data e hora máximo e mínimo das transações) é registada na saída da célula. Pode definir até cinco períodos de tempo. As chaves de referência dos períodos são armazenadas na tabela TimePeriods.
Passo 5. Pré-processar os dados de entrada
Este passo une as frames de dados de entrada para criar um conjunto de dados do POS, que é utilizado pelo modelo para gerar as informações. Não é necessário fazer nenhuma alteração neste passo.
A saída deste passo inclui os seguintes dataframes:
purchases — O dataframe do POS purchases contém informações sobre as compras que os clientes fazem, tais como o ID da entidade de retalho, o ID do produto, o valor do preço da lista de produtos, a quantidade e o carimbo de data/hora da visita. Pode criar este dataframe aderindo às tabelas Visit, ShopperSession, ShopperSessionTransaction e TransactionLineItem.
time_periods — Este dataframe contém os períodos de análise que define no passo anterior. Pode utilizar estes períodos para dividir os dados e executar o modelo em cada período.
retail_entities — este dataframe contém os IDs das entidades de retalho e as respetivas informações. Uma entidade de retalho pode ser uma loja individual ou um revendedor. Pode utilizar estas entidades para executar o modelo ao nível da loja ou ao nível do revendedor.
Passo 6. Definir os parâmetros do modelo e executar o modelo
Os seguintes parâmetros do modelo podem ser definidos para ajustar os resultados do modelo:
Nome do parâmetro: min_itemset_frequency
Descrição: número mínimo de compras de conjuntos de itens (conjunto de dois produtos comprados em conjunto) a ser considerado na análise do modelo.
Tipo de valor: número inteiro
Valor predefinido: 3
Obrigatório: verdadeiro.
Valores permitidos: >=1
Nome do parâmetro: max_basket_size
Descrição: número máximo de itens num cesto. Se o número de itens no cesto exceder o valor predefinido, haverá cortes no cesto. O produto com as vendas mais baixas no conjunto de dados será cortado primeiro.
Tipo de valor: número inteiro
Valor predefinido: 20
Obrigatório: verdadeiro.
Valores permitidos: >=1
Nome do parâmetro: chi_2_alpha
Descrição: parâmetro de significância estatística. Utilizado para determinar se um par de produtos associados é significativo e estatisticamente significativo. Se um par de produtos tiver pontuação inferior ao valor do parâmetro, será sinalizado no campo Chi2IsSignificant na tabela RuleAttributes.
Tipo de valor: flutuante
Obrigatório: false
Valor predefinido: percentil 0,05
Intervalo de valores permitidos: 0 a 1
Na execução, os dados são escritos nas tabelas de saída. Tem três opções para definir em qual Lakehouse deve escrever.
Passo 7: criar tabelas do dashboard do Power BI
Neste passo, cria tabelas do dashboard do Power BI. Semelhante à secção Ligar-se ao Lakehouse e ler as tabelas de entrada, existem três métodos para escrever as saídas no Fabric.
Depois de concluir a criação das tabelas do dashboard do Power BI, o sistema escreve dados no Lakehouse. Para mais informações, consulte tabelas de dados de saída
Passo 8: criar uma vista apenas com "Associação excelente"
"Associação Excelente" é uma classificação que sugere uma relação forte e estatisticamente significativa entre os produtos com base nos critérios definidos no código SQL. "Associação Excelente" é derivada da coluna StrengthOfAssociation que é preenchida com base em instruções condicionais no código SQL. Esta lógica categoriza a força da associação entre produtos com base nos valores das colunas RuleQualityCategoryId e IsSignificant na tabela FBT.
"Associação Excelente" refere-se aos casos em que RuleQualityCategoryId é 2 (o que pode significar uma regra de associação de alta qualidade) e IsSignificant é 1 (o que pode indicar que a associação é estatisticamente significativa).
Se IsSignificant for 0, significa que, embora a categoria da regra possa ser considerada excelente, a significância poderá estar limitada devido a dados insuficientes.
Neste passo, pode criar uma vista apenas com "Associação excelente". Este passo torna os produtos simétricos. Essencialmente, se Produto1=A e Produto2=B, tem de criar um registo simétrico como Produto1=B e Produto2=A. Deve consultar A e B separadamente.
Passo 9: parâmetros da tabela do dashboard do Power BI
Pode utilizar o parâmetro num_top_associated_products para configurar o número de produtos associados principais a apresentar no dashboard do Power BI de cada produto.
Descrição — número máximo de produtos associados para cada produto a ser apresentado no dashboard do Power BI. Devolve os produtos principais ordenados pelo campo Classificação da Combinação.
Tipo de valor — número inteiro
Obrigatório — false
Valor predefinido — 5
Intervalo de valores permitidos — 1 a 10
Passo 10: criar vistas
Pode criar vistas a partir das informações anteriores, onde calcula os montantes de compra e as quantidades como médias semanais.
Este passo replica os dados para cada critério/grupo de produtos que pretende ver separadamente. Pode concluir este passo ao classificar cada loja/revendedor, período de tempo e moeda.
Todos os itens (se Comprados frequentemente em conjunto estiver com outro item)
10 receitas mais altas de Comprados frequentemente em conjunto (principal + Comprados frequentemente em conjunto)
10 receitas mais baixas de Comprados frequentemente em conjunto (principal + Comprados frequentemente em conjunto)
Mais vendido na receita de item principal
Menos vendido na receita de item principal
A vista representa os itens principais (Produto1) para cada loja/revendedor, período de tempo, moeda e critérios de produto com a respetiva receita semanal, quantidade e soma de toda a receita dos produtos Comprados frequentemente em conjunto.
Passo 11: criar uma tabela que o dashboard do Power BI consome
A tabela que criar neste último passo é diretamente consumível, sem a necessidade de criar outras medidas ou colunas calculadas do Power BI.
Existem três tipos de registos, de acordo com TableColProductGroupType:
Type=1: TableColProductGroup="Group N" — Este registo representa o item principal que faz parte da tabela do dashboard de Comprados frequentemente em conjunto.
Type=2: TableColProductGroup="Main product" — Este registo também representa o item principal que faz parte da tabela do dashboard de Comprados frequentemente em conjunto como outro registo.
Type=3: TableColProductGroup="FBT product" — Este registo representa o item associado ao produto principal.
Concluiu agora a limpeza dos dados e criou o relatório do Power BI com os filtros adequados utilizando o bloco de notas. Também pode utilizar este relatório para derivar informações acionáveis.