Součást Oddíly a Ukázka

Článek
09/01/2024

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Pomocí komponenty Partition a Sample můžete provádět vzorkování datové sady nebo vytvářet oddíly z datové sady.

Vzorkování je důležitým nástrojem ve strojovém učení, protože umožňuje zmenšit velikost datové sady a současně zachovat stejný poměr hodnot. Tato komponenta podporuje několik souvisejících úloh, které jsou důležité ve strojovém učení:

Rozdělení dat do několika pododdílů stejné velikosti

Oddíly můžete použít k křížovému ověření nebo k přiřazení případů náhodným skupinám.
Oddělení dat do skupin a následná práce s daty od konkrétní skupiny

Po náhodném přiřazení případů různým skupinám může být potřeba upravit funkce, které jsou přidružené pouze k jedné skupině.
Vzorkování.

Můžete extrahovat procento dat, použít náhodné vzorkování nebo zvolit sloupec, který se má použít pro vyrovnávání datové sady a provést stratifikované vzorkování s jeho hodnotami.
Vytvoření menší datové sady pro testování

Pokud máte hodně dat, můžete při nastavování kanálu použít pouze prvních n řádků a pak při sestavování modelu přepnout na použití úplné datové sady. Vzorkování můžete použít také k vytvoření menší datové sady pro použití při vývoji.

Konfigurace komponenty

Tato komponenta podporuje následující metody rozdělení dat do oddílů nebo vzorkování. Nejprve zvolte metodu a pak nastavte další možnosti, které metoda vyžaduje.

Head
Vzorkování
Přiřaďte ke složeným záhybům
Vybrat přeložení

Získání prvních N řádků z datové sady

Tento režim slouží k získání pouze prvních n řádků. Tato možnost je užitečná, pokud chcete kanál otestovat na malém počtu řádků a nepotřebujete, aby data byla vyvážená nebo vzorkována žádným způsobem.

Přidejte do kanálu v rozhraní komponentu Partition a Sample a připojte datovou sadu.
Režim oddílu nebo ukázky: Nastavte tuto možnost na Head (Hlava).
Počet řádků, které chcete vybrat: Zadejte počet řádků, které se mají vrátit.

Počet řádků musí být nezáporné celé číslo. Pokud je počet vybraných řádků větší než počet řádků v datové sadě, vrátí se celá datová sada.
Odešlete kanál.

Komponenta vypíše jednu datovou sadu, která obsahuje pouze zadaný počet řádků. Řádky se vždy čtou z horní části datové sady.

Vytvoření ukázky dat

Tato možnost podporuje jednoduché náhodné vzorkování nebo stratifikované náhodné vzorkování. Je užitečné, pokud chcete vytvořit menší reprezentativní ukázkovou datovou sadu pro testování.

Přidejte do kanálu komponentu Partition a Sample a připojte datovou sadu.
Režim dělení nebo ukázky: Nastavte tuto možnost na vzorkování.
Rychlost vzorkování: Zadejte hodnotu mezi 0 a 1. tato hodnota určuje procento řádků ze zdrojové datové sady, které by měly být zahrnuty do výstupní datové sady.

Pokud například chcete jenom polovinu původní datové sady, zadejte 0.5 , že vzorkovací frekvence by měla být 50 procent.

Řádky vstupní datové sady se prohazují a selektivně umístí do výstupní datové sady podle zadaného poměru.
Náhodné počáteční hodnoty pro vzorkování: Volitelně zadejte celé číslo, které se má použít jako počáteční hodnota.

Tato možnost je důležitá, pokud chcete, aby se řádky pokaždé rozdělily stejným způsobem. Výchozí hodnota je 0, což znamená, že počáteční počáteční počáteční hodnota je generována na základě systémových hodin. Tato hodnota může vést k mírně odlišným výsledkům při každém spuštění kanálu.
Stratifikované rozdělení pro vzorkování: Tuto možnost vyberte, pokud je důležité, aby se řádky v datové sadě před vzorkováním vydělily rovnoměrně podle některého klíčového sloupce.

V případě klíčového sloupce Stratification pro vzorkování vyberte jeden sloupec vrstvy, který se má použít při dělení datové sady. Řádky v datové sadě se pak rozdělí takto:
1. Všechny vstupní řádky jsou seskupené (stratifikované) podle hodnot v zadaném sloupci strata.
2. Řádky se prohazují v rámci každé skupiny.
3. Každá skupina se selektivně přidá do výstupní datové sady, aby splňovala zadaný poměr.
Odešlete kanál.

Pomocí této možnosti komponenta vypíše jednu datovou sadu, která obsahuje reprezentativní vzorkování dat. Zbývající nezavzorkovaná část datové sady není výstupem.

Rozdělení dat do oddílů

Tuto možnost použijte, pokud chcete datovou sadu rozdělit na podmnožinu dat. Tato možnost je užitečná také v případě, že chcete vytvořit vlastní počet záhybů pro křížové ověření nebo rozdělit řádky do několika skupin.

Přidejte do kanálu komponentu Partition a Sample a připojte datovou sadu.
V případě oddílu nebo ukázkového režimu vyberte Přiřadit ke skládacím souborům.
Použijte náhradu v dělení: Tuto možnost vyberte, pokud chcete, aby se vzorek řádku vložil zpět do fondu řádků pro potenciální opakované použití. V důsledku toho může být stejný řádek přiřazen k několika přeložením.

Pokud nepoužíváte náhradu (výchozí možnost), ukázkový řádek se nevloží zpět do fondu řádků, aby bylo možné ho znovu použít. V důsledku toho může být každý řádek přiřazen pouze k jednomu přeložení.
Náhodné rozdělení: Tuto možnost vyberte, pokud chcete, aby se řádky náhodně přiřadily ke skládání.

Pokud tuto možnost nevyberete, přiřadí se řádky složené metodou kruhového dotazování.
Náhodné počáteční hodnoty: Volitelně zadejte celé číslo, které se má použít jako počáteční hodnota. Tato možnost je důležitá, pokud chcete, aby se řádky pokaždé rozdělily stejným způsobem. V opačném případě výchozí hodnota 0 znamená, že bude použita náhodná počáteční počáteční počáteční hodnota.
Zadejte metodu partitioneru: Určete, jak se mají data přidělovat ke každému oddílu pomocí těchto možností:
- Rovnoměrně dělit: Tuto možnost použijte k umístění stejného počtu řádků v každém oddílu. Pokud chcete zadat počet výstupních oddílů, zadejte celé číslo do pole Zadat počet přeložení, které chcete rovnoměrně rozdělit do pole.
- Oddíl s přizpůsobenými proporcemi: Tuto možnost použijte k určení velikosti každého oddílu jako seznamu oddělených čárkami.
  
  Předpokládejme například, že chcete vytvořit tři oddíly. První oddíl bude obsahovat 50 procent dat. Zbývající dva oddíly budou obsahovat 25 procent dat. Do pole Seznam poměrů oddělených čárkami zadejte tato čísla: 0,5, 25, 0,25.
  
  Součet všech velikostí oddílů musí být součet přesně 1.
  
  Pokud zadáte čísla, která sečtou až 1, vytvoří se další oddíl pro uložení zbývajících řádků. Pokud například zadáte hodnoty 0,2 a .3, vytvoří se třetí oddíl, který bude obsahovat zbývajících 50 procent všech řádků.
  
  Pokud zadáte čísla, která sečtou na více než 1, při spuštění kanálu se vyvolá chyba.
Stratifikované rozdělení: Tuto možnost vyberte, pokud chcete, aby byly řádky při rozdělení stratifikované, a pak zvolte sloupec strata.
Odešlete kanál.

Pomocí této možnosti komponenta vypíše více datových sad. Datové sady jsou rozdělené podle vámi zadaných pravidel.

Použití dat z předdefinovaného oddílu

Tuto možnost použijte, když jste datovou sadu rozdělili na několik oddílů a teď chcete načíst každý oddíl, aby bylo možné provádět další analýzu nebo zpracování.

Přidejte do kanálu komponentu Partition a Sample .
Připojte komponentu k výstupu předchozí instance oddílu a ukázky. Tato instance musí použít možnost Assign to Folds k vygenerování určitého počtu oddílů.
Režim oddílu nebo ukázky: Vyberte Vybrat přeložení.
Určete, ze kterého záhyby se mají vzorkovat: Zadáním indexu vyberte oddíl, který chcete použít. Indexy oddílů jsou založené na 1. Pokud například datovou sadu rozdělíte na tři části, oddíly budou mít indexy 1, 2 a 3.

Pokud zadáte neplatnou hodnotu indexu, vyvolá se chyba v době návrhu: Chyba 0018: Datová sada obsahuje neplatná data.

Kromě seskupování datové sady podle složených záhybů můžete datovou sadu oddělit do dvou skupin: cílové přeložení a všechno ostatní. Uděláte to tak, že zadáte index jednoho přeložení a pak vyberete možnost Vybrat doplněk vybraného přeložení , abyste získali vše kromě dat v zadaném přeložení.
Pokud pracujete s více oddíly, musíte přidat další instance komponenty Partition a Sample, abyste mohli zpracovávat jednotlivé oddíly.

Například část Oddíl a Ukázka ve druhém řádku je nastavena na Přiřadit k přeložení a komponenta ve třetím řádku je nastavena na Vybrat přeložení.
Odešlete kanál.

Pomocí této možnosti komponenta vypíše jednu datovou sadu, která obsahuje pouze řádky přiřazené k tomuto přeložení.

Poznámka:

Označení přeložení nemůžete zobrazit přímo. Nacházejí se jenom v metadatech.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.

Sdílet prostřednictvím