Sdílet prostřednictvím


Analýza dat pomocí Azure Machine Learning

Tento kurz používá návrháře služby Azure Machine Learning k vytvoření prediktivního modelu strojového učení. Model je založený na datech uložených v Azure Synapse. Scénář kurzu je předpovědět, jestli si zákazník pravděpodobně koupí kolo nebo ne, aby společnost Adventure Works, obchod s koly, mohla sestavit cílovou marketingovou kampaň.

Požadavky

Pro jednotlivé kroky v tomto kurzu budete potřebovat:

  • Předem načtený fond SQL s ukázkovými daty AdventureWorksDW. Pokud chcete zřídit tento fond SQL, přečtěte si téma Vytvoření fondu SQL a výběr načtení ukázkových dat. Pokud už máte datový sklad, ale nemáte ukázková data, můžete ukázková data načíst ručně.
  • pracovní prostor Azure Machine Learning. Podle tohoto kurzu vytvořte nový.

Získání dat

Použitá data jsou v zobrazení dbo.vTargetMail v AdventureWorksDW. Pokud chcete použít úložiště dat v tomto kurzu, data se nejprve exportují do účtu Azure Data Lake Storage, protože Azure Synapse v současné době nepodporuje datové sady. Azure Data Factory se dá použít k exportu dat z datového skladu do Azure Data Lake Storage pomocí aktivity kopírování. K importu použijte následující dotaz:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Jakmile jsou data dostupná ve službě Azure Data Lake Storage, úložiště dat ve službě Azure Machine Learning se použijí k připojení ke službám úložiště Azure. Následujícím postupem vytvořte úložiště dat a odpovídající datovou sadu:

  1. Spusťte studio Azure Machine Learning z webu Azure Portal nebo se přihlaste na studio Azure Machine Learning.

  2. V části Spravovat klikněte na Úložiště dat v levém podokně a potom klikněte na Nový úložiště dat.

    Snímek obrazovky s levým podoknem rozhraní služby Azure Machine Learning

  3. Zadejte název úložiště dat, vyberte typ jako Azure Blob Storage, zadejte umístění a přihlašovací údaje. Poté klikněte na možnost Vytvořit.

  4. Dále v části Prostředky klikněte na Datové sady v levém podokně. Vyberte Vytvořit datovou sadu s možností Z úložiště dat.

  5. Zadejte název datové sady a vyberte typ, který má být tabulkový. Potom klikněte na Další a přesuňte se dopředu.

  6. V části Vybrat nebo vytvořit úložiště dat vyberte možnost Dříve vytvořené úložiště dat. Vyberte úložiště dat, které bylo vytvořeno dříve. Klepněte na tlačítko Další a zadejte cestu a nastavení souboru. Pokud soubory obsahují záhlaví sloupce, nezapomeňte zadat záhlaví sloupce.

  7. Nakonec kliknutím na Vytvořit vytvořte datovou sadu.

Konfigurace experimentu návrháře

Dále postupujte podle následujících kroků pro konfiguraci návrháře:

  1. V části Autor klikněte na kartu Návrhář v levém podokně.

  2. Vyberte snadno použitelné předem připravené komponenty pro sestavení nového kanálu.

  3. V podokně nastavení napravo zadejte název kanálu.

  4. Vyberte také cílový výpočetní cluster pro celý experiment v tlačítku nastavení na dříve zřízený cluster. Zavřete podokno Nastavení.

Import dat

  1. V levém podokně pod vyhledávacím polem vyberte podtábku Datové sady.

  2. Přetáhněte datovou sadu, kterou jste vytvořili dříve, na plátno.

    Snímek obrazovky komponenty datové sady na plátně

Vyčištění dat

Pokud chcete data vyčistit, odstraňte sloupce, které nejsou pro model relevantní. Postupujte následovně:

  1. V levém podokně vyberte podtabu Součásti .

  2. Přetáhněte položku Vybrat sloupce v datové sadě v části Manipulace s transformací < dat na plátno. Připojte tuto komponentu ke komponentě Dataset .

    Snímek obrazovky s komponentou výběru sloupce na plátně

  3. Kliknutím na komponentu otevřete podokno vlastností. Klikněte na Upravit sloupec a určete sloupce, které chcete vypustit.

  4. Vylučte dva sloupce: CustomerAlternateKey a GeographyKey. Klikněte na Uložit.

    Snímek obrazovky znázorňující sloupce, které jsou vyřazeny

Vytvoření modelu

Data jsou rozdělená na 80–20: 80 % na trénování modelu strojového učení a 20 % k otestování modelu. Algoritmy se dvěma třídami se používají v tomto problému s binární klasifikací.

  1. Přetáhněte komponentu Rozdělit data na plátno.

  2. V podokně vlastností zadejte 0,8 pro zlomek řádků v první výstupní datové sadě.

    Snímek obrazovky znázorňující poměr rozdělení 0,8

  3. Přetáhněte komponentu rozhodovacího stromu se dvěma třídami na plátno.

  4. Přetáhněte komponentu Train Model na plátno. Zadejte vstupy tak, že je propojíte s komponentami dvoutřídového rozhodovacího stromu (algoritmus ML) a rozdělíte data (data pro trénování algoritmu).

  5. V části Trénování modelu vyberte v části Sloupec Popisek v podokně Vlastnosti možnost Upravit sloupec. Vyberte sloupec BikeBuyer jako sloupec, který chcete předpovědět, a vyberte Uložit.

    Snímek obrazovky zobrazující sloupec popisku, vybraný BikeBuyer

    Snímek obrazovky znázorňující komponentu Train Model připojenou k rozhodovacímu stromu se dvěma třídami a rozdělení datových komponent

Určení skóre modelu

Teď otestujte, jak model funguje s testovacími daty. Ve srovnání se dvěma různými algoritmy zjistíte, který z nich funguje lépe. Postupujte následovně:

  1. Přetáhněte komponentu Score Model na plátno a připojte ji k komponentám Trénování modelu a Rozdělení dat .

  2. Přetáhněte perceptron se dvěma třídami na plátno experimentu. Porovnáte, jak tento algoritmus funguje ve srovnání s rozhodovacím stromem se dvěma třídami.

  3. Zkopírujte a vložte komponenty trénování modelu a určení skóre modelu na plátně.

  4. Přetáhněte komponentu Vyhodnotit model na plátno a porovnejte dva algoritmy.

  5. Kliknutím na odeslat nastavíte spuštění kanálu.

    Snímek obrazovky se všemi zbývajícími komponentami na plátně

  6. Po dokončení spuštění klikněte pravým tlačítkem myši na komponentu Vyhodnotit model a klikněte na Vizualizovat výsledky vyhodnocení.

    Snímek obrazovky s výsledky

Poskytované metriky jsou křivka ROC, diagram přesnosti a křivka lift. Podívejte se na tyto metriky a podívejte se, že první model fungoval lépe než druhý. Pokud se chcete podívat na to, co první model predikoval, klikněte pravým tlačítkem myši na komponentu Určení skóre modelu a klikněte na Vizualizovat datovou sadu skóre, abyste viděli predikované výsledky.

Do testovací datové sady se přidají dva další sloupce.

  • Scored Probabilities (Vyhodnocené pravděpodobnosti): Pravděpodobnost, že si zákazník koupí kolo.
  • Scored Labels (Popisky vyhodnocení): Klasifikace prováděná modelem – kupující (1) nebo nekupující (0) kolo. Tato prahová hodnota pravděpodobnosti pro popisky je nastavena na 50 % a je možné ji upravit.

Porovnejte sloupec BikeBuyer (skutečný) s popisky skóre (předpověď), abyste viděli, jak dobře model provedl. V dalším kroku můžete pomocí tohoto modelu vytvářet předpovědi pro nové zákazníky. Tento model můžete publikovat jako webovou službu nebo zapisovat výsledky zpět do Azure Synapse.

Další kroky

Další informace o službě Azure Machine Learning najdete v tématu Úvod do služby Machine Learning v Azure.

Tady se dozvíte o integrovaném bodování v datovém skladu.