Transformace dat – manipulace
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
tento článek popisuje moduly v aplikaci Machine Learning Studio (classic), které můžete použít pro základní manipulaci s daty.
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Machine Learning Studio (classic) podporuje úlohy, které jsou specifické pro strojové učení, jako je například normalizace nebo výběr funkcí. Moduly v této kategorii jsou určené pro obecnější úlohy.
Úlohy manipulace s daty
moduly v této kategorii jsou určené k podpoře základních úloh správy dat, které můžou být potřeba provést v Machine Learning studiu (classic). Následující úkoly jsou příklady základních úloh správy dat:
- Kombinací dvou datových sad můžete buď pomocí spojení, nebo sloučením sloupců nebo řádků.
- Vytvořte nové kategorie pro použití při seskupování dat.
- Úprava záhlaví sloupců, Změna datových typů sloupce nebo označení sloupců jako funkcí nebo popisků.
- Zkontrolujte chybějící hodnoty a pak je nahraďte odpovídajícími hodnotami.
Související úlohy
- Proveďte vzorkování nebo rozdělte datovou sadu do školicích a testovacích sad: použijte moduly transformace dat-Sample a Split .
- Škálujte čísla, Normalizujte data nebo vložte číselné hodnoty do přihrádek: použijte transformaci a zmenšení dat a snižte počet modulů.
- Provádění výpočtů s číselnými datovými poli nebo generování běžně používaných statistik: použijte nástroje ve statistických funkcích.
Příklady
Příklady, jak pracovat se složitými daty v experimentech Machine Learning, najdete v následujících ukázkách Azure AI Gallery:
- Zpracování a analýza dat: demonstruje klíčové nástroje a procesy.
- Detekce prsních rakoviny: ukazuje, jak vytvořit oddíly datových sad a pak pro každý oddíl použít speciální zpracování.
Moduly v této kategorii
Kategorie manipulace transformace dat zahrnuje následující moduly:
- Přidat sloupce: přidá sadu sloupců z jedné datové sady do druhé.
- Přidat řádky: připojí sadu řádků ze vstupní datové sady na konec jiné datové sady.
- použít transformaci SQL: spustí dotaz SQLite na vstupních datových sadách pro transformaci dat.
- Vyčistit chybějící data: Určuje, jak se mají zpracovat hodnoty, které chybí v datové sadě. Tento modul nahrazuje modul čištění chybějících hodnot, který je zastaralý.
- Převést na hodnoty indikátoru: převede hodnoty kategorií ve sloupcích na hodnoty indikátoru.
- Upravit metadata: upraví metadata, která jsou přidružená ke sloupcům v datové sadě.
- Kategorií Group Values: seskupuje data z více kategorií do nové kategorie.
- Join data: spojí dvě datové sady.
- Odebrat duplicitní řádky: Odebere z datové sady duplicitní řádky.
- Vybrat sloupce v datové sadě: vybere sloupce, které se mají zahrnout do datové sady, nebo je z datové sady v operaci vyloučit.
- Vybrat sloupce transformace: Vytvoří transformaci, která vybere stejnou podmnožinu sloupců jako v zadané datové sadě.
- SMOTE: zvýší počet příkladů s nízkým dopadem v datové sadě pomocí syntetického náhodného vzorkování.