Moduly strojového učení v ML Studio (klasické)
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
- Další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Typický pracovní postup pro strojové učení zahrnuje mnoho fází:
Identifikace problému, který se má vyřešit, a metriky pro měření výsledků
Vyhledání, čištění a příprava vhodných dat
Identifikace nejlepších funkcí a technických nových funkcí
Sestavování, vyhodnocování a ladění modelů
Použití modelů ke generování předpovědí, doporučení a dalších výsledků
Moduly v této části poskytují nástroje pro poslední fáze strojového učení, ve kterých použijete algoritmus na data pro trénování modelu. V těchto závěrečných fázích také vygenerujete skóre a pak vyhodnotíte přesnost a užitečnost modelu.
Poznámka
Platí pro: Machine Learning Studio (classic)
Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.
Seznam úloh strojového učení podle kategorie
-
Můžete si vybrat z řady přizpůsobitelných algoritmů strojového učení, včetně clusteringu, regrese, klasifikace a modelů detekce anomálií.
-
Poskytněte nakonfigurovaného modelu data, abyste se mohli učit ze vzorů a vytvářet statistiky, které lze použít pro předpovědi.
-
Vytváření předpovědí pomocí natrénovaných modelů
-
Změřte přesnost natrénovaných modelů nebo porovnejte více modelů.
Podrobný popis tohoto experimentálního pracovního postupu najdete v návodu k řešení úvěrového rizika.
Požadavky
Než se dostanete k zábavné části vytváření modelu, obvykle je potřeba hodně přípravy. Tato část obsahuje odkazy na nástroje v Machine Learning Studiu (klasickém), které vám pomůžou vyčistit data, zlepšit kvalitu vstupu a zabránit chybám za běhu.
Zkoumání dat a kvalita dat
Zajistěte, aby vaše data byla správným druhem dat, správným množstvím a správnou kvalitou pro algoritmus, který jste zvolili. Porozuměli jste tomu, kolik dat máte a jak se distribuují. Existují odlehlé hodnoty? Jak byly tyto vygenerované a co znamenají? Existují nějaké duplicitní záznamy?
Zpracování chybějících hodnot
Chybějící hodnoty mohou mít vliv na vaše výsledky mnoha způsoby. Například téměř všechny statistické metody zahodí případy s chybějícími hodnotami. Ve výchozím nastavení se Machine Learning pravidla, když narazí na řádky s chybějícími hodnotami:
Pokud v datech použitých k trénování modelu chybí hodnoty, všechny řádky s chybějícími hodnotami se přeskočí.
Pokud data použitá jako vstup při bodování proti modelu mají chybějící hodnoty, používají se chybějící hodnoty jako vstupy, ale hodnoty null se šíří. Obvykle to znamená, že místo platné předpovědi se do výsledků vloží hodnota null.
Před trénováním modelu nezapomeňte zkontrolovat data. Pokud chcete napravit chybějící hodnoty nebo opravit data, použijte tento modul:
Výběr funkcí a omezení počtu dimenzí
Machine Learning Studio (classic) vám může pomoct procházet data a najít nejužitečnější atributy.
Pomocí nástrojů, jako je Fisher Linear Discriminant Analysis nebo Filter Based Feature Selection , můžete určit, které sloupce dat mají největší prediktivní výkon. Tyto nástroje mohou také identifikovat sloupce, které by se měly odebrat z důvodu úniku dat.
Vytváření nebo inženýrování funkcí z existujících dat Normalizujte data nebo seskupte data do přihrádek, aby se nová seskupení dat nebo aby se standardizoval rozsah číselných hodnot před analýzou.
Zmenšete dimenzionálnost seskupením hodnot kategorií, pomocí analýzy hlavních komponent nebo vzorkováním.
Příklady
Příklady strojového učení v akci najdete na Azure AI Gallery.
Tipy a názorný postup některých typických úloh přípravy dat najdete v tématu Návody ke spuštění vědeckého zpracování týmových dat.