Configurar modelo Frequentemente comprado junto (versão preliminar)
Importante
Algumas ou todas estas funcionalidades estão disponíveis como parte de uma versão preliminar. O conteúdo e a funcionalidade estão sujeitos a alterações.
Depois de implantar com êxito o modelo Frequentemente comprados juntos, você deverá configurar o modelo para gerar insights sobre os dados disponíveis no Lakehouse.
Pré-requisitos
Você precisa da permissão de Administrador do Fabric (Colaborador do Espaço de Trabalho) para configurar Frequentemente comprados juntos.
Configurar o modelo para gerar insights
O notebook consiste nas seguintes células que contam a história de como os dados são processados para fornecer a saída necessária.
Cuidado
As células a seguir são usadas na sequência específica recomendada. Se eles forem usados em uma sequência diferente, haverá falha no notebook.
Etapa 1. Importar bibliotecas
Esta etapa importa as bibliotecas necessárias para o notebook. Não é necessário fazer nenhuma alteração nesta etapa.
Etapa 2. Inicializar configurações, agente de log e ponto de verificação do Spark
Esta etapa inicializa as configurações e os objetos agente de log e de checkpoint do Spark que são usados para a execução do notebook.
Você pode inicializar o agente de log de duas maneiras diferentes:
Configure para gravar logs nas saídas das células do notebook. Esse é o comportamento padrão.
Configure para gravar logs em um espaço de trabalho do Microsoft Azure Application Insights. Nessa abordagem, você precisa de connection_string do espaço de trabalho do Application Insights. O sistema gera uma ID de execução e a mostra na saída da célula. Você pode usar a ID de execução para consultar logs no espaço de trabalho do Application Insights.
Você pode usar o ponto de verificação para sincronizar a implementação do Spark e evitar geração em potencial de chaves duplicadas. Você deve oferecer um caminho que pretende usar como um diretório de trabalho. O nome da variável é checkpoint_dir. O diretório deve estar dentro da seção files do Lakehouse, ou seja, ele precisa começar com "Files/".
Etapa 3. Conectar-se ao Lakehouse e ler tabelas de entrada
Esta etapa se conecta ao Lakehouse e lê as tabelas de entrada necessárias para o modelo. Você pode ler as tabelas de entrada de uma destas três opções:
O Lakehouse fixado do notebook, que contém os dados de exemplo. Esta opção é o padrão.
Lakehouses conectados ao notebook. Você pode selecionar o Lakehouse em um menu suspenso.
Outro Lakehouse que não esteja conectado ao notebook. Você deve fornecer o caminho completo para o Lakehouse.
Para obter detalhes sobre tabelas de entrada, consulte Dados de entrada para Frequentemente comprados juntos.
Etapa 4. Definir períodos de análise para o modelo
O notebook permite executar o modelo em vários períodos de tempo, o que pode ajudar você a capturar a sazonalidade e as mudanças no comportamento do cliente, no portfólio de produtos e no posicionamento do produto ao longo do tempo. Você também pode comparar os resultados de diferentes períodos usando o painel pronto para uso.
Para definir um período de tempo, use a função add_analysis_period
. Certifique-se de definir os períodos de análise dentro da duração dos dados de entrada. A duração dos dados de entrada (carimbo de data e hora máximo e mínimo das transações) é registrada na saída da célula. Você pode definir até cinco períodos de tempo. As chaves de referência dos períodos são armazenadas na tabela TimePeriods.
Etapa 5. Pré-processar dados de entrada
Esta etapa une os dataframes de entrada para criar um conjunto de dados de PDV, usado pelo modelo para gerar os insights. Não é necessário fazer nenhuma alteração nesta etapa.
A saída desta etapa inclui os seguintes dataframes:
purchases - O dataframe de PDV purchases contém informações sobre as compras feitas pelos clientes, como ID da entidade de varejo, ID do produto (product ID), valor do preço da lista de produtos, quantidade e carimbo de data/hora da visita. Você pode criar esse dataframe unindo as tabelas Visit, ShopperSession, ShopperSessionTransaction e TransactionLineItem.
time_periods - Este dataframe contém os períodos de análise definidos por você na etapa anterior. Você pode usar esses períodos para dividir os dados e executar o modelo em cada período.
retail_entities - Este dataframe contém as IDs de entidade de varejo e as informações. Uma entidade de varejo pode ser uma loja individual ou um varejista. Você pode usar essas entidades para executar o modelo em um nível de loja ou varejista.
Etapa 6. Definir parâmetros de modelo e executar modelo
Os seguintes parâmetros do modelo podem ser definidos para ajustar os resultados do modelo:
Nome do parâmetro: min_itemset_frequency
Descrição: número mínimo de compras de conjuntos de itens (conjunto de dois produtos comprados juntos) a ser considerado na análise do modelo.
Tipo de valor: inteiro
Valor padrão: 3
Obrigatório: verdadeiro.
Valores permitidos: >=1
Nome do parâmetro: max_basket_size
Descrição: número máximo de itens em uma cesta. Se o número de itens na cesta exceder o valor padrão, haverá cortes na cesta. O produto com as vendas mais baixas no conjunto de dados será cortado primeiro.
Tipo de valor: inteiro
Valor padrão: 20
Obrigatório: verdadeiro.
Valores permitidos: >=1
Nome do parâmetro: chi_2_alpha
Descrição: parâmetro de significância estatística. Usado para determinar se um par de produtos associados é significativo e estatisticamente significativo. Se um par de produtos tiver pontuação inferior ao valor do parâmetro, eles serão sinalizados no campo Chi2IsSignificant na tabela RuleAttributes.
Tipo de valor: float
Obrigatório: falso
Valor padrão: 0,05 percentil
Faixa de valores permitidos: 0 a 1
Na execução, os dados são gravados nas tabelas de saída. Você tem três opções para definir em qual Lakehouse gravar.
Etapa 7: Criar tabelas de painel do Power BI
Nesta etapa, você cria tabelas de painel do Power BI. Semelhante à seção Conectar-se ao Lakehouse e ler as tabelas de entrada, existem três métodos para gravar saídas no Fabric.
Depois que você termina de criar as tabelas de painel do Power BI, o sistema grava dados no Lakehouse. Para obter mais informações, consulte tabelas de dados de saída
Etapa 8: Criar uma exibição apenas com "Associação excelente"
"Associação excelente" é uma classificação que sugere um relacionamento forte e significativo estatisticamente entre os produtos com base nos critérios definidos no código SQL. "Associação excelente" deriva da coluna StrengthOfAssociation populada com base em instruções condicionais no código SQL. Essa lógica categoriza a intensidade da associação entre produtos com base nos valores das colunas RuleQualityCategoryId e IsSignificant na tabela FBT.
"Associação excelente" se refere a casos nos quais RuleQualityCategoryId seja 2 (o que pode significar uma regra de associação de alta qualidade) e IsSignificant seja 1 (o que pode indicar que a associação é significativa estatisticamente).
Se IsSignificant for 0, isso indicará que, embora a categoria de regra possa ser considerada excelente, a importância pode ser limitada por causa de dados insuficientes.
Nesta etapa, você cria uma exibição apenas com "Associação excelente". Esta etapa deixa os produtos simétricos. Essencialmente, se Product1=A e Product2=B, você precisará criar um registro simétrico como Product1=B e Product2=A. Você deve consultar A e B separadamente.
Etapa 9: Parâmetros da tabela de painel do Power BI
Você pode usar o parâmetro num_top_associated_products para configurar o número dos principais produtos associados a serem exibidos no painel do Power BI para cada produto.
Descrição - Número máximo de produtos associados para cada produto a ser exibido no painel do Power BI. Retorna os principais produtos classificados pelo campo Classificação Combinada.
Tipo de valor - inteiro
Obrigatório - falso
Valor padrão - 5
Faixa de valores permitidos - de 1 a 10
Etapa 10: Criar exibições
Você pode criar exibições com base nas informações anteriores, nas quais você calcula valores e quantidades de compra como médias semanais.
Esta etapa replica dados para cada critério/grupo de produtos que você deseja exibir separadamente. Você pode concluir essa etapa classificando cada loja/varejista, período e moeda.
Todos os itens (se Modelo frequentemente comprado junto estiver com outro item)
Dez maiores receitas do Modelo frequentemente comprado junto (principal + Modelo frequentemente comprado junto)
Dez menores receitas do Modelo frequentemente comprado junto (principal + Modelo frequentemente comprado junto)
Melhor vendedor em receita do item principal
Pior vendedor em receita do item principal
A exibição representa os itens principais (Product1) para cada loja/varejista, período, moeda e critérios de produto com a receita semanal, quantidade e soma de toda a receita de Modelo frequentemente comprado junto do produto.
Etapa 11: Criar uma tabela consumida pelo painel do Power BI
A tabela criada por você nesta última etapa é diretamente consumível sem a necessidade de criar outras medidas do Power BI ou colunas calculadas.
Existem três tipos de registros de acordo com TableColProductGroupType:
Type=1: TableColProductGroup="Group N" - Este registro representa o item principal que faz parte da tabela Modelo frequentemente comprado junto do produto.
Type=2: TableColProductGroup="Main product" - Este registro também representa o item principal que faz parte da tabela Modelo frequentemente comprado junto como outro registro.
Type=3: TableColProductGroup="FBT product" - Este registro representa o item associado ao produto principal.
Agora você concluiu a limpeza de dados e criou o relatório do Power BI com os filtros indicados usando o notebook. Você também pode usar este relatório para gerar insights acionáveis.