Transformace dat – ukázka a rozdělení
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
tento článek popisuje moduly v aplikaci Machine Learning Studio (classic), které můžete použít k vytvoření oddílů nebo vzorových dat.
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Dělení a vzorkování datových sad jsou důležité úkoly ve strojovém učení. Jedná se například o běžný postup, jak rozdělit data na sady pro školení a testování, které vám pomůžou vyhodnotit model pro datovou sadu pro podržení. Vzorkování je také stále důležitější v oblasti velkých objemů dat, aby bylo zajištěno, že je v školicích datech korektní distribuce tříd. Vzorkování také pomáhá zajistit, že nezpracováváte více dat, než je potřeba.
pomocí modulů Machine Learning Studio (classic) můžete přizpůsobit způsob, jakým jsou rozdělené nebo ukázkové datové sady:
- Filtrovat školicí data na základě atributu v datech.
- Proveďte vzorkování stratified a rozdělte proměnnou třídy rovnoměrně mezi n počet skupin.
- Rozdělte zdrojová data na školicí a testovací sadu dat pomocí vlastního poměru.
- Použijte regulární výrazy na data pro odfiltrování neplatných hodnot.
Výběr správné operace: rozdělení nebo vzorkování
Machine Learning Studio (classic) poskytuje dva moduly, které zapouzdřují úlohy. Podobné zvukové moduly, ale mají různé použití a poskytují doplňkové funkce. Je možné, že použijete oba moduly v experimentu, získáte správné množství a pravou kombinaci dat.
V dalším kroku porovnáme modul rozdělení dat a oddíl a vzorový modul tím, že zjistíte, na kterých úlohách se každý modul běžně používá.
Použití modulu rozdělit data
- Rozdělí data do dvou skupin. Použijte modul rozdělit data . Modul vytváří přesně dvě rozdělení dat. Můžete určit podmínku, na které jsou data rozdělena, a podíl dat, která mají být do každé podmnožiny vložena. Rozdělení dat vždy ukládá podmnožinu dat, která nesplňuje podmínky.
- Přidělte hodnoty popisku rovnoměrně k datovým sadám. Možnost stratify v zadaném sloupci je podporována oběma moduly. Pokud ale chcete vytvořit dvě datové sady a většinou se zajímá do sloupce popisek, je modul rozdělení dat rychlým řešením.
Příklad použití modulu rozdělit data
Předpokládejme, že jste importovali velmi velkou datovou sadu ze souboru CSV. Datová sada obsahuje demografické údaje o zákaznících. Chcete vytvořit různé modely pro zákazníky v různých zemích, takže se rozhodnete rozdělit data pomocí hodnoty Country-Region
sloupce. Tento úkol můžete provést v těchto krocích:
- Přidejte modul Split data a pak zadejte výraz do
Country-Region
pole. Zbývající data jsou k dispozici v sekundárním výstupu. - Přidejte další instanci modulu rozdělit data .
- Opakujte kroky 1 a 2. Ve výrazu pro každou iteraci zadejte jinou zemi.
Modul Split data podporuje regulární výrazy, pro textová data a relativní výrazypro číselná data.
Modul rozdělení dat také poskytuje sofistikované funkce, které lze použít k dělení speciálních datových sad. Využijte funkci k vytvoření modelů doporučení a k vygenerování předpovědi.
Použití oddílu a vzorového modulu
- Vzorkování. Vždy používejte oddíl a vzorový modul. Modul poskytuje několik přizpůsobitelných metod vzorkování, včetně několika možností pro vzorkování stratified.
- Přiřaďte případy více skupinám. V oddílu a vzorovém modulu použijte možnosti přiřadit k přeložení nebo Vybrat skládání .
- Vrátí pouze podmnožinu dat. Použijte oddíl a vzorový modul. Modul poskytuje zadanou podmnožinu pro primární výstup. Zbývající data jsou k dispozici v sekundárním výstupu.
- Získá jenom prvních 2 000 řádků datové sady. Použijte oddíl a vzorový modul. Vyberte možnost head . To je užitečné zejména při testování nového experimentu a chcete spustit krátká zkušební verze pracovního postupu.
Příklad použití oddílu a vzorového modulu
Oddíl a vzorový modul mohou generovat více oddílů dat, nikoli pouze dvě. Ve stejnou dobu může provádět různé operace vzorkování.
Předpokládejme například, že potřebujete získat pouze 10 procent vašich dat, a přitom zajistěte, aby distribuce cílového atributu byla stejná jako ve zdrojových datech. Tento úkol můžete provést v těchto krocích:
- Přidejte oddíl a vzorový modul.
- Zvolte režim vzorkování a pak zadejte 10%.
- Vyberte možnost vzorkování stratified a pak vyberte sloupec, který obsahuje atribut target.
Pokud nepotřebujete uchovávat všechna data, použijte oddíl a vzorový modul. Zbývající data jsou stále k dispozici v pracovním prostoru, ale v rámci experimentu nemusí být dále zpracována.
Související úlohy
- Zvyšte počet vzácných případů v ukázce nebo můžete v případě cílové hodnoty znovu vyvážit tyto případy: použijte modul SMOTE .
- Zmenšení dimenzionálního omezení zjištěním kombinace funkcí, které nejlépe představují datový prostor: použijte modul analýzy hlavních komponent .
- vytváření kompaktních funkcí na základě analýzy funkcí a počtů: použijte modul Učení s počty .
- Vytvoření zobrazení nebo projekce pomocí pouze zadaných sloupců; odebrání nebo skrytí sloupců v datové sadě: použijte možnost vybrat sloupce v datové sadě a použít SQL transformační moduly.
- použití složitějších filtrů dat, seskupení nebo transformací: použijte skript spouštěný R a použijte SQL transformační moduly.
Seznam modulů
Tato kategorie zahrnuje následující moduly:
- Oddíl a ukázka: vytvoří více oddílů datové sady na základě vzorkování.
- Rozdělení dat: rozdělí řádky datové sady do dvou různých sad.