設定「經常一起購買」模型 (預覽版)
重要
這其中部分或所有的功能會做為預覽版本的一部分來提供。 內容和功能隨時可能變更。
成功部署「經常一起購買」後,您必須設定模型才能根據 Lakehouse 中提供的資料產生見解。
先決條件
您需要 Fabric 管理員 (工作區參與者) 權限,才能設定「經常一起購買」。
設定模型以產生見解
此筆記本由下列儲存格組成,這些儲存格講述如何處理資料以提供所需的輸出。
注意
下列儲存格是依照建議的特定順序來使用。 如果依照不同的順序來使用,筆記本就會失敗。
步驟 1: 匯入文件庫
此步驟匯入筆記本所需的文件庫。 不一定要在此步驟中進行任何變更。
步驟 2: 初始化 Spark 設定、記錄器和檢查指標
此步驟初始化執行筆記本所用的 Spark 設定、記錄器和檢查指標物件。
您可以透過兩種不同方式初始化記錄器:
設定為將記錄寫入筆記本儲存格輸出。 這是預設行為。
設定為將記錄寫入 Microsoft Azure Application Insights 工作區。 使用此方法時,需要 Application Insights 工作區的 connection_string。 系統會產生執行識別碼,然後將其顯示在儲存格的輸出中。 您可以使用執行識別碼來查詢 Application Insights 工作區中的記錄。
您可以使用檢查指標來同步 Spark 實作,並避免可能產生重複的索引鍵。 您必須提供要用來做為工作目錄的路徑。 變數的名稱為 checkpoint_dir。 此目錄必須是在 Lakehouse 的檔案區段中,也就是必須以 “Files/” 開頭。
步驟 3: 連接至 Lakehouse 並讀取輸入資料表
此步驟會連接至 Lakehouse,並讀取模型所需的輸入資料表。 您可以從以下三個之一的選項讀取輸入資料表:
筆記本的已釘選 Lakehouse,其中包含範例資料。 這是預設選項。
已連接至筆記本的 Lakehouse。 您可以從下拉式功能表選取 Lakehouse。
其他未連接至筆記本的 Lakehouse。 您必須提供 Lakehouse 的完整路徑。
如需輸入資料表的詳細資訊,請參閱經常一起購買輸入資料。
步驟 4. 定義模型的分析週期
筆記本可讓您對多個時間週期執行模型,這有助於擷取客戶行為、產品組合和產品定位隨時間進展的季節性和變化。 您也可以使用現成可用的儀表板來比較不同時間週期的結果。
若要定義時間週期,請使用 add_analysis_period
函式。 請務必在輸入資料的期間內定義分析週期。 輸入資料的期間 (最大和最小交易時間戳記) 會記錄在儲存格的輸出中。 您最多可以定義五個時間期間。 週期的參考索引鍵儲存在 TimePeriods 資料表中。
步驟 5: 預先處理輸入資料
此步驟聯結輸入資料框以建立 POS 資料集,模型會使用此資料集來產生見解。 不一定要在此步驟中進行任何變更。
此步驟的輸出包含下列資料框:
購買 - 購買 POS 資料框包含包含客戶的購買資訊,例如零售實體識別碼、產品識別碼、產品定價金額、數量和造訪時間戳記。 您可以聯結 Visit、ShopperSession、ShopperSessionTransaction 與 TransactionLineItem 資料表來建立此資料框。
time_periods - 此資料框包含您在上一個步驟中定義的分析週期。 您可以使用這些週期來分割資料並對每個週期執行模型。
retail_entities - 此資料框包含零售實體識別碼及其資訊。 零售實體可以是個別商店或零售商。 您可以使用這些實體在商店層級或零售商層級執行模型。
步驟 6。 定義模型參數並執行模型
您可以設定下列模型參數來微調模型結果:
參數名稱:min_itemset_frequency
描述:模型分析中要考量的品項集 (一起購買的兩種產品的集合) 的最小購買數量。
值類型:整數
預設值:3
必要:是。
允許值:>=1
參數名稱:max_basket_size
描述:一個購物籃中的最大品項數量。 如果購物籃中的品項數量超過預設值,則會修剪購物籃。 首先修剪資料集中銷售額最低的產品。
值類型:整數
預設值:20
必要:是。
允許值:>=1
參數名稱:chi_2_alpha
描述:統計顯著性參數。 用於判斷關聯在一起的成對產品是否有意義且具有統計顯著性。 如果一對產品的分數低於參數值,則在 RuleAttributes 資料表的 Chi2IsSignificant 欄位中標幟這些產品。
值類型:浮點數
必要:否
預設值:0.05 百分位數
允許值範圍:0-1
執行時,資料會寫入輸出資料表。 您有三個用於定義要寫入之 Lakehouse 的選項。
步驟 7:建立 Power BI 儀表板資料表
在此步驟中,您會建立 Power BI 儀表板資料表。 與<連接至 Lakehouse 並讀取輸入資料表>一節相仿,有三種將輸出寫入 Fabric 的方法。
完成 Power BI 儀表板資料表的建立後,系統會將資料寫入 Lakehouse。 如需詳細資訊,請參閱輸入資料表
步驟 8:建立僅含「高超關聯」的檢視表
「高超關聯」是一種分類,根據 SQL 程式碼中設定的準則指示產品之間存在明確且具統計意義的關聯性。 「高超關聯」衍生自根據 SQL 程式碼中條件陳述式填入的 StrengthOfAssociation 資料行。 此邏輯根據 FBT 資料表中 RuleQualityCategoryId 和 IsSignificant 資料行的值,對產品之間的關聯強度進行分類。
「高超關聯」指的是 RuleQualityCategoryId 為 2 (可能表示高品質關聯規則) 且 IsSignificant 為 1 (可能表示關聯在統計上且顯著性) 的情況。
如果 IsSignificant 為 0,則表示儘管可能會將規則類別視為有高超關聯,但由於資料不足,其顯著性可能有限。
在此步驟中,您會建立僅含「高超關聯」的檢視表。 此步驟使產品對稱。 基本上,如果 Product1=A 和 Product2=B,就必須建立一個對稱的記錄,即 Product1=B 和 Product2=A。 您應該分別查詢 A 和 B。
步驟 9:Power BI 儀表板資料表參數
您可以使用 num_top_associated_products 參數來設定要在每項產品的 Power BI 儀表板中顯示的關聯性排名靠前產品數量。
描述 - 每個產品要顯示在 Power BI 儀表板中的關聯產品最大數量。 傳回組合排名欄位排序的熱門產品。
值類型 - 整數
必要 - 否
預設值 - 5
允許值範圍 - 1-10
步驟 10:建立檢視表
您可以根據先前的資訊建立檢視表,在其中計算購買金額和數量的每週平均值。
此步驟會複製每個要單獨查看的產品準則/群組的資料。 您可以對每個商店/零售商、時間週期和貨幣進行排名來完成此步驟。
所有品項 (如果「經常一起購買」是與其他品項一起購買)
10 筆最高「經常一起購買」營收 (主要 +「經常一起購買」)
10 筆最低「經常一起購買」營收 (主要 +「經常一起購買」)
主要品項營收中的最暢銷產品
主要品項營收中的最不暢銷產品
此檢視表顯示每個商店/零售商的主要品項 (Product1)、時間週期、貨幣和產品準則,以及其每週營收、數量和所有「經常一起購買」產品的營收總和。
步驟 11:建立 Power BI 儀表板使用的資料表
在這最後一個步驟中建立的資料表可直接使用,無需建立其他 Power BI 量值或計算結果欄。
根據 TableColProductGroupType,有三種類型的記錄:
Type=1: TableColProductGroup="Group N" - 此記錄表示屬於「經常一起購買」儀表板資料表一部分的主要品項。
Type=2: TableColProductGroup="Main product" - 此記錄也會將屬於「經常一起購買」儀表板資料表一部分的主要品項表示為另一個記錄。
Type=3: TableColProductGroup="FBT product" - 此記錄表示與主要產品的關聯品項。
現在,您已完成資料清理,並已使用筆記本建立包含適當篩選條件的 Power BI 報表。 您可以使用此報表來取得可操作的見解。