Поделиться через


Пример навыка ИИ с набором данных AdventureWorks (предварительная версия)

В этой статье показано, как настроить навык ИИ в наборе данных AdventureWorks.

Внимание

Эта функция доступна в предварительной версии.

Необходимые компоненты

Создание озера с помощью AdventureWorksDW

Сначала создайте озеро и заполните его необходимыми данными.

Если у вас уже есть экземпляр AdventureWorksDW в складе или озерном доме, этот шаг можно пропустить. Если нет, создайте lakehouse из записной книжки. Используйте записную книжку для заполнения lakehouse данными.

  1. Создайте записную книжку в рабочей области, в которой вы хотите создать навык искусственного интеллекта.

  2. В левой части области обозревателя выберите +Источники данных. Этот параметр добавляет существующий lakehouse или создает новый лейкхаус.

  3. В верхней ячейке добавьте следующий фрагмент кода:

    import pandas as pd
    from tqdm.auto import tqdm
    base = "https://synapseaisolutionsa.blob.core.windows.net/public/AdventureWorks"
    
    # load list of tables
    df_tables = pd.read_csv(f"{base}/adventureworks.csv", names=["table"])
    
    for table in (pbar := tqdm(df_tables['table'].values)):
        pbar.set_description(f"Uploading {table} to lakehouse")
    
        # download
        df = pd.read_parquet(f"{base}/{table}.parquet")
    
        # save as lakehouse table
        spark.createDataFrame(df).write.mode('overwrite').saveAsTable(table)
    
  4. Выберите элемент Запустить все.

    Снимок экрана: записная книжка с кодом отправки AdventureWorks.

Через несколько минут озеро заполняется необходимыми данными.

Создание навыка искусственного интеллекта

  1. Чтобы создать новый навык ИИ, перейдите к интерфейсу Обработка и анализ данных и выберите навык ИИ.

    Снимок экрана: место создания навыков искусственного интеллекта.

  2. Введите имя для создания навыка искусственного интеллекта.

Выбор данных

Выберите созданное озеро и нажмите кнопку "Подключиться". Затем необходимо выбрать таблицы, для которых должен быть доступен навык искусственного интеллекта.

В этом упражнении используются следующие таблицы:

  • DimCustomer
  • DimDate
  • DimGeography
  • DimProduct
  • DimProductCategory
  • DimPromotion
  • DimReseller
  • DimSalesTerritory
  • FactInternetSales
  • FactResellerSales

Укажите инструкции

Когда вы сначала задаете вопросы о навыке ИИ с выбранными таблицами, навык искусственного интеллекта отвечает на них довольно хорошо. Например, для вопроса , что является наиболее продаваемым продуктом?, навык ИИ возвращает:

  • Long-Sleeve Logo Jersey, L

Однако sql-запросу требуется некоторое улучшение. Во-первых, он смотрит только на таблицу FactResellerSales . Она игнорирует таблицу FactInternetSales . Во-вторых, он заказывает продукты по количеству заказов, когда общий доход от продаж, связанный с продуктом, является наиболее важным фактором, как показано на этом снимке экрана:

Снимок экрана: первый пример вопроса о продукте с наибольшим уровнем продаж ИИ.

Чтобы улучшить создание запросов, укажите некоторые инструкции, как показано в следующих примерах:

  • Всякий раз, когда я спрашиваю о "наиболее проданных" продуктах или товарах, метрика интереса является общим доходом от продаж, а не количеством заказов.
  • Основная таблица, используемая, — FactInternetSalesэто . Используется FactResellerSales только в том случае, если явно спросили о перепродаже или когда его спросили об общем объеме продаж.

Запрос вопроса снова возвращает другой ответ, Mountain-200 Black, 46как показано на снимке экрана:

Снимок экрана: второй пример вопроса о продукте с наибольшим уровнем продаж ИИ.

Соответствующий SQL извлекает из FactInternetSales таблицы и сортирует по сумме суммы продаж. ИИ последовал за инструкциями.

Продолжая экспериментировать с запросами, необходимо добавить дополнительные инструкции.

В этом сценарии используется следующий набор инструкций:

  • Всякий раз, когда я спрашиваю о "наиболее проданных" продуктах или товарах, метрика интереса — выручка от продаж, а не количество заказов.
  • Основная таблица, используемая, — FactInternetSalesэто . Используется FactResellerSales только в том случае, если явно спросили о перепродаже или когда его спросили об общем объеме продаж.
  • Отвечая на вопрос о влиянии рекламных акций, сделайте это на увеличение доходов от продаж, а не только количество проданных единиц.
  • Для аналитики клиентов сосредоточьтесь на общем объеме продаж на каждого клиента, а не на количестве заказов.
  • Используется DimDate для извлечения определенных периодов времени (например, года, месяца) при выполнении анализа на основе времени.
  • При анализе географических данных определите общий доход от продаж и средний объем продаж для каждого региона.
  • Для аналитики категорий продуктов всегда используйте DimProductCategory для группирования продуктов соответствующим образом.
  • При сравнении продаж между регионами используйте DimSalesTerritory точные сведения о территории.
  • Используется DimCurrency для нормализации данных о продажах при анализе продаж в разных валютах.
  • Для получения подробных сведений о продукте всегда присоединяйтесь FactInternetSales к DimProduct.
  • Используется DimPromotion для анализа эффективности различных рекламных кампаний.
  • Для повышения производительности торгового посредника сосредоточьтесь на общем объеме продаж, а не только на количестве проданных продуктов.
  • При анализе тенденций с течением времени используйте и присоединитесь FactInternetSales к DimDate группе данных по месяцам, кварталам или годам.
  • Всегда проверяйте согласованность данных, присоединяясь FactInternetSales к соответствующим таблицам измерений.
  • Используйте SUM для агрегирования данных о продажах, чтобы обеспечить точное получение общих значений.
  • Определите приоритеты метрик доходов от продаж по количеству заказов, чтобы точно оценить финансовое влияние.
  • Всегда группировать по соответствующим измерениям (например, продукту, клиенту, дате) для получения подробных сведений.
  • Отвечая на вопрос о демографических данных клиентов, присоединяйтесь DimCustomer к соответствующим таблицам фактов.
  • Для продаж по продвижению, присоединяйтесь FactInternetSales к DimPromotion группе и группу по имени промоушена.
  • Нормализованные показатели продаж, использующие для сравнения с DimCurrency различными валютами.
  • Используйте ORDER BY предложения для сортировки результатов по метрикам интереса (например, выручка от продаж, общий объем заказов).
  • ListPrice в DimProduct предлагаемой цене продажи, в то время как UnitPrice в FactInternetSales и FactResellerSales является фактической ценой, по которой каждая единица была продана. В большинстве случаев использования по доходу следует использовать цену единицы.
  • Ранжирование лучших торговых посредников по сумме продаж.

При копировании этого текста в заметки для текстового поля модели ИИ ссылается на эти инструкции при создании запросов SQL.

Укажите примеры

Помимо инструкций, примеры служат еще одним эффективным способом руководства по ИИ. Если у вас есть вопросы, которые навык ИИ часто получает, или вопросы, требующие сложных соединений, рассмотрите возможность добавления примеров для них.

Например, вопрос о том, сколько активных клиентов у нас есть 1 июня 2013 г., создает некоторые допустимые SQL, как показано на этом снимке экрана:

Снимок экрана: первый пример вопроса о активном подсчете навыков ИИ.

Однако это не хороший ответ.

Часть проблемы заключается в том, что "активный клиент" не имеет формального определения. Дополнительные инструкции в примечаниях к текстовому поле модели могут помочь, но пользователи могут часто задавать этот вопрос. Необходимо убедиться, что ИИ правильно обрабатывает вопрос. Соответствующий запрос является умеренно сложным, поэтому укажите пример, нажав кнопку редактирования.

Снимок экрана, на котором показано, где можно изменить примеры, предоставляемые ВИ.

Затем можно отправить пример.

Снимок экрана: пример запроса SQL навыка ИИ.

Повтор вопроса возвращает улучшенный ответ.

Снимок экрана, показывающий второй пример вопроса о активном подсчете клиентов СИ.

Вы можете вручную добавить примеры, но их также можно отправить из JSON-файла. Предоставление примеров из файла полезно при наличии нескольких запросов SQL, которые вы хотите отправить одновременно, а не вручную отправлять запросы по одному. В этом упражнении используйте следующие примеры:

{
    "how many active customers did we have June 1st, 2010?": "SELECT COUNT(DISTINCT fis.CustomerKey) AS ActiveCustomerCount FROM factinternetsales fis JOIN dimdate dd ON fis.OrderDateKey = dd.DateKey WHERE dd.FullDateAlternateKey BETWEEN DATEADD(MONTH, -6, '2010-06-01') AND '2010-06-01' GROUP BY fis.CustomerKey HAVING COUNT(fis.SalesOrderNumber) >= 2;",
    "which promotion was the most impactful?": "SELECT dp.EnglishPromotionName, SUM(fis.SalesAmount) AS PromotionRevenue FROM factinternetsales fis JOIN dimpromotion dp ON fis.PromotionKey = dp.PromotionKey GROUP BY dp.EnglishPromotionName ORDER BY PromotionRevenue DESC;",
    "who are the top 5 customers by total sales amount?": "SELECT TOP 5 CONCAT(dc.FirstName, ' ', dc.LastName) AS CustomerName, SUM(fis.SalesAmount) AS TotalSpent FROM factinternetsales fis JOIN dimcustomer dc ON fis.CustomerKey = dc.CustomerKey GROUP BY CONCAT(dc.FirstName, ' ', dc.LastName) ORDER BY TotalSpent DESC;",
    "what is the total sales amount by year?": "SELECT dd.CalendarYear, SUM(fis.SalesAmount) AS TotalSales FROM factinternetsales fis JOIN dimdate dd ON fis.OrderDateKey = dd.DateKey GROUP BY dd.CalendarYear ORDER BY dd.CalendarYear;",
    "which product category generated the highest revenue?": "SELECT dpc.EnglishProductCategoryName, SUM(fis.SalesAmount) AS CategoryRevenue FROM factinternetsales fis JOIN dimproduct dp ON fis.ProductKey = dp.ProductKey JOIN dimproductcategory dpc ON dp.ProductSubcategoryKey = dpc.ProductCategoryKey GROUP BY dpc.EnglishProductCategoryName ORDER BY CategoryRevenue DESC;",
    "what is the average sales amount per order by territory?": "SELECT dst.SalesTerritoryRegion, AVG(fis.SalesAmount) AS AvgOrderValue FROM factinternetsales fis JOIN dimsalesterritory dst ON fis.SalesTerritoryKey = dst.SalesTerritoryKey GROUP BY dst.SalesTerritoryRegion ORDER BY AvgOrderValue DESC;",
    "what is the total sales amount by currency?": "SELECT dc.CurrencyName, SUM(fis.SalesAmount) AS TotalSales FROM factinternetsales fis JOIN dimcurrency dc ON fis.CurrencyKey = dc.CurrencyKey GROUP BY dc.CurrencyName ORDER BY TotalSales DESC;",
    "which product had the highest sales revenue last year?": "SELECT dp.EnglishProductName, SUM(fis.SalesAmount) AS TotalRevenue FROM factinternetsales fis JOIN dimproduct dp ON fis.ProductKey = dp.ProductKey JOIN dimdate dd ON fis.ShipDateKey = dd.DateKey WHERE dd.CalendarYear = YEAR(GETDATE()) - 1 GROUP BY dp.EnglishProductName ORDER BY TotalRevenue DESC;",
    "what are the monthly sales trends for the last year?": "SELECT dd.CalendarYear, dd.MonthNumberOfYear, SUM(fis.SalesAmount) AS TotalSales FROM factinternetsales fis JOIN dimdate dd ON fis.ShipDateKey = dd.DateKey WHERE dd.CalendarYear = YEAR(GETDATE()) - 1 GROUP BY dd.CalendarYear, dd.MonthNumberOfYear ORDER BY dd.CalendarYear, dd.MonthNumberOfYear;",
    "how did the latest promotion affect sales revenue?": "SELECT dp.EnglishPromotionName, SUM(fis.SalesAmount) AS PromotionRevenue FROM factinternetsales fis JOIN dimpromotion dp ON fis.PromotionKey = dp.PromotionKey WHERE dp.StartDate >= DATEADD(MONTH, 0, GETDATE()) GROUP BY dp.EnglishPromotionName ORDER BY PromotionRevenue DESC;",
    "which territory had the highest sales revenue?": "SELECT dst.SalesTerritoryRegion, SUM(fis.SalesAmount) AS TotalSales FROM factinternetsales fis JOIN dimsalesterritory dst ON fis.SalesTerritoryKey = dst.SalesTerritoryKey GROUP BY dst.SalesTerritoryRegion ORDER BY TotalSales DESC;",
    "who are the top 5 resellers by total sales amount?": "SELECT TOP 5 dr.ResellerName, SUM(frs.SalesAmount) AS TotalSales FROM factresellersales frs JOIN dimreseller dr ON frs.ResellerKey = dr.ResellerKey GROUP BY dr.ResellerName ORDER BY TotalSales DESC;",
    "what is the total sales amount by customer region?": "SELECT dg.EnglishCountryRegionName, SUM(fis.SalesAmount) AS TotalSales FROM factinternetsales fis JOIN dimcustomer dc ON fis.CustomerKey = dc.CustomerKey JOIN dimgeography dg ON dc.GeographyKey = dg.GeographyKey GROUP BY dg.EnglishCountryRegionName ORDER BY TotalSales DESC;",
    "which product category had the highest average sales price?": "SELECT dpc.EnglishProductCategoryName, AVG(fis.UnitPrice) AS AvgPrice FROM factinternetsales fis JOIN dimproduct dp ON fis.ProductKey = dp.ProductKey JOIN dimproductcategory dpc ON dp.ProductSubcategoryKey = dpc.ProductCategoryKey GROUP BY dpc.EnglishProductCategoryName ORDER BY AvgPrice DESC;"
}

Тестирование и изменение навыка искусственного интеллекта

В навык искусственного интеллекта добавлены инструкции и примеры. По мере того как тестирование продолжается, дополнительные примеры и инструкции могут еще больше улучшить навык ИИ. Обратитесь к коллегам, чтобы узнать, приведены ли примеры и инструкции, которые охватывают типы вопросов, которые они хотят задать.

Использование навыка искусственного интеллекта программным способом

Навык искусственного интеллекта можно использовать программным способом в записной книжке Fabric. Чтобы определить, имеет ли навык ИИ значение опубликованного URL-адреса, выберите "Параметры", как показано на снимке экрана:

Снимок экрана: выбор параметров навыков ИИ.

Перед публикацией навыка ИИ он не имеет опубликованного ЗНАЧЕНИЯ URL-адреса, как показано на этом снимке экрана:

Снимок экрана: навык ИИ не имеет опубликованного ЗНАЧЕНИЯ URL-адреса перед публикацией.

После проверки производительности навыка искусственного интеллекта его можно опубликовать. В этом случае выберите "Опубликовать", как показано на снимке экрана:

Снимок экрана: выбор параметра

Появится опубликованный URL-адрес для навыка искусственного интеллекта, как показано на этом снимке экрана:

Снимок экрана: опубликованный URL-адрес.

Затем вы можете скопировать опубликованный URL-адрес и использовать его в записной книжке Fabric. Таким образом, вы можете запросить навык ИИ, выполнив вызовы API навыков ИИ в записной книжке Fabric. Вставьте скопированный URL-адрес в фрагмент кода. Затем замените вопрос любым запросом, соответствующим навыку ИИ. Этот пример используется \<generic published URL value\> в качестве URL-адреса.

import requests
import json
import pprint
from synapse.ml.mlflow import get_mlflow_env_config


# the URL could change if the workspace is assigned to a different capacity
url = "https://<generic published URL value>"

configs = get_mlflow_env_config()

headers = {
    "Authorization": f"Bearer {configs.driver_aad_token}",
    "Content-Type": "application/json; charset=utf-8"
}

question = "{userQuestion: \"what is an example product?\"}"

response = requests.post(url, headers=headers, data = question)

print("RESPONSE: ", response)

print("")

response = json.loads(response.content)

print(response["result"])