Sdílet prostřednictvím


Seskupit kategorické hodnoty

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Seskupí data z více kategorií do nové kategorie.

Kategorie: Transformace a manipulace s daty

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Skupinové kategorické hodnoty v Machine Learning Studiu (klasickém) vytvořit místní vyhledávací tabulku.

Při seskupování hodnot kategorií se obvykle používá sloučení více řetězcových hodnot do jedné nové úrovně. Můžete například přiřadit jednotlivá PSČ v oblasti jednomu regionálnímu kódu nebo seskupit více produktů do jedné kategorie.

Pokud chcete použít tento modul, zadejte vyhledávací hodnoty, které chcete použít, a namapování existujících hodnot na náhradní hodnoty. Seskupení můžete vytvořit pouze pro sloupce kategorií, nikoli pro sloupce číselného typu nebo sloupce označené jako popisky nebo funkce.

Všechny hodnoty sloupců, které nejsou explicitně mapovány na novou úroveň, jsou přiřazeny k výchozí úrovni. Pokud byste například nenamapovat všechny jednotlivé PSČ, byly by seskupeny na úrovni pro nenamapované hodnoty, kterou můžete nazýtovat Neznámé.

Poznámka

Je možné vytvořit maximálně 20 nových úrovní, včetně výchozí úrovně. Pokud potřebujete více hodnot nebo potřebujete dynamicky definovat mapování, doporučujeme použít vlastní skript R v modulu Spuštění skriptu jazyka R . Nebo můžete použít SQL příkazy v modulu Apply SQL Transformation.

Použití skupinových hodnot kategorií

Doporučujeme předem připravit seznam existujících hodnot a nových kategorií. Pro každou kategorii byste měli připravit nový název kategorie a čárkami oddělený seznam hodnot, které se zahrnou do kategorie.

  1. Přidejte do experimentu modul Group Categorical Values (Hodnoty kategorií skupin). Modul najdete v části Transformace dat, Manipulace.

  2. Připojení datovou sadu s hodnotami, které chcete transformovat.

  3. V podokně Vlastnosti v části Seskupit kategorické hodnoty pomocí selektoru sloupců zvolte sloupec s úrovněmi, které chcete snížit.

    • Doporučujeme, abyste začali kliknutím na ZAČÍT S A ŽÁDNÉ SLOUPCE a pak sloupce přidávají podle názvu. V opačném případě může být jako kandidátů přidáno příliš mnoho sloupců, což vede k chybě.

    • Sloupec musí být sloupec kategorií. Pokud není, přidejte možnost Upravit metadata upstream a změňte typ sloupce.

    • Nezapomeňte ze vstupu odebrat všechny sloupce, u kterých by se nemělo nahrazování řetězce použít.

  4. V části Režim výstupu určete, jestli chcete zobrazit výstup pouze nových úrovní, nebo připojte změny, abyste viděli původní sloupec, spolu s nahrazeními vedle sebe.

    Výchozí hodnota ResultOnly zobrazuje pouze nové hodnoty. Možnost Na místě nahradí existující hodnoty sloupců novými úrovněmi.

  5. Jako Výchozí název úrovně zadejte řetězcovou hodnotu, která se použije jako náhrada všech hodnot, které nejsou explicitně namapované. Můžete použít něco jako "Neznámý" nebo "Výchozí".

    Poznámka

    Tato výchozí hodnota úrovně se použije pro všechny hodnoty, které nelze namapovat. Pokud jste omylem zahrnou sloupce, které jste nechtěli mapovat, použije se tato hodnota na všechny hodnoty ve sloupcích. Proto před zpracováním zkontrolujte, že je výběr sloupce přesný.

  6. Do pole Nový počet úrovní zadejte číslo, které určuje celkový počet nových kategorií (úrovní), včetně výchozí úrovně pro nenačtené hodnoty.

  7. Do pole Název nové úrovně 1 zadejte název nové skupiny pro první kategorii.

  8. Do textového pole, které následuje bezprostředně po, čárkami oddělený seznam starých úrovní pro mapování na novou úroveň 1 zadejte nebo vložte úplný seznam všech hodnot, které chcete namapovat na novou úroveň. Zástupné znaky a regulární výrazy nejsou povolené.

  9. Pokračujte v psaní nových názvů úrovní a zadejte nebo vložte hodnoty, které by se měly mapovat na novou úroveň.

    Při práci doporučujeme uložit seznam hodnot do samostatného souboru. Pokud změníte počet úrovní, budou odebrány všechny řetězce, které jste dříve zadala, a musíte začít znovu.

    Pokud ale upravujete dříve uložený modul, můžete se vrátit k původnímu nastavení.

  10. Spusťte experiment.

Výsledky

Pokud chcete zobrazit výsledky, klikněte pravým tlačítkem na modul Skupinové hodnoty kategorií, vyberte Datová sada výsledků a klikněte na Vizualizovat.

Příklady

Příklady strojového učení v akci najdete na Azure AI Gallery.

Tento modul si můžete vyzkoušet také sami pomocí malé datové sady s řetězcovou proměnnou, kterou můžete snadno seskupit, například datovou sadu Automobile price (Cena automobilu), která je k dispozici v Machine Learning Studiu (klasickém).

Předpokládejme, že chcete seskupit auta v datové sadě Automobile price podle velikosti motoru pomocí počtu cylindrů. Místo mnoha různých velikostí motoru vytvoříte nové úrovně , "velké", "malé" a "jiné", a to následujícím způsobem:

  • Velké motory: šest cylindrů nebo větší
  • Malé motory: dva nebo čtyři cylindry
  • Jiné: cokoli jiného
  1. Přidejte modul Výběr sloupců v datové sadě a vyberte pouze num-of-cylinders sloupec.
  2. Přidejte modul Upravit metadata a změňte sloupec num-of-cylinders na Kategorický.
  3. Přidejte modul Group Categorical Values a propojte upravenou datovou sadu.
  4. Jako Výchozí název úrovně zadejte other. Pro tuto úroveň nemusíte zazadat hodnoty.
  5. Do pole Název nové úrovně 1 zadejte big. V seznamu starých úrovní pro mapování na úroveň 1 vložte six, eight, twelve.
  6. Do pole Název nové úrovně 2 zadejte small. Pro mapované hodnoty vložte two, four.
  7. Spusťte experiment.
  8. Při vizualizaci výsledků zjistíte, že původní datová sada měla nějaké liché velikosti modulu, které jste nezohlednit, například five a three. Všechny tyto položky jsou mapovány na other úroveň .

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

  • Může se zobrazit chybová zpráva Sloupec s názvem název_<>sloupce není v povolené kategorii.

    Tato zpráva znamená, že sloupec, který jste vybrali, není sloupec kategorií. Sloupec můžete označit jako Categorical pomocí možnosti Upravit metadata nebo vybrat jiný sloupec, který obsahuje příslušné hodnoty kategorií.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Data, která se seskupí

Parametry modulu

Name Rozsah Typ Výchozí Description
Vybrané sloupce Libovolný ColumnSelection CategoricalAll Vyberte sloupce, které budou seskupeny.
Režim výstupu Libovolný Výstup ResultOnly Určete, jak mají být popisky kategorií výstupní.
Název výchozí úrovně Libovolný Řetězec Určuje výchozí úroveň, která se má použít, pokud se neshodují žádné mapování.
Nový počet úrovní Seznam Počet skupin Zadejte počet úrovní po seskupení hodnot, včetně výchozí úrovně.

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Seskupená data

Viz také

Úkon
Transformace dat
Seznam modulů a-Z