Rozdělení datové sady pomocí relativního výrazu
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Přečtěte si informace o přesunu projektů strojového učení z nástroje ML Studio (classic) do služby Azure Machine Learning.
- Přečtěte si další informace o službě Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Tento článek popisuje, jak používat možnost Relativní rozdělení výrazu v modulu Rozdělení dat nástroje Machine Learning Studio (classic). Tato možnost je užitečná, když potřebujete datovou sadu rozdělit na trénovací a testovací datové sady pomocí číselného výrazu. Příklad:
- Věk nad 40 vs. 40 nebo mladší
- Skóre testu 60 nebo vyšší vs. méně než 60
- Hodnota pořadí 1 vs. všechny ostatní hodnoty
Poznámka
Platí pro: Pouze Machine Learning Studio (classic)
Podobné moduly pro přetahování jsou k dispozici v návrháři služby Azure Machine Learning.
Pokud chcete data rozdělit, zvolíte v datech jeden číselný sloupec a definujete výraz, který se použije při vyhodnocování každého řádku. Relativní výraz musí obsahovat název sloupce, hodnotu a operátor, například větší než a menší než, rovná se a nerovná se.
Tato možnost rozdělí datovou sadu do dvou skupin.
Obecné informace o dělení dat pro experimenty strojového učení najdete v tématu Rozdělení dat a dělení a rozdělení.
Související úlohy
Další možnosti modulu Rozdělení dat :
Rozdělení dat pomocí regulárních výrazů: Použití regulárního výrazu na jeden textový sloupec a rozdělení datové sady na základě výsledků
Rozdělení doporučených datových sad: Rozdělte datové sady, které se používají v modelech doporučení. Datová sada by měla mít tři sloupce: položky, uživatele a hodnocení.
Rozdělení datové sady pomocí relativního výrazu
Do experimentu v aplikaci Stuio přidejte modul Rozdělení dat a připojte ho jako vstup k datové sadě, kterou chcete rozdělit.
V části Režim rozdělení vyberte rozdělení relativního výrazu.
Do textového pole Relační výraz zadejte výraz, který provede operaci číselného porovnání v jednom sloupci:
Sloupec obsahuje čísla libovolného číselného datového typu, včetně datových typů data a času.
Výraz může odkazovat maximálně na jeden název sloupce.
Pro operaci AND použijte znak ampersandu (&) a znak svislé čáry (|) pro operaci OR.
Podporují se následující operátory:
<
,>
,<=
,>=
, , ,==
!=
Operace nelze seskupit pomocí
(
a)
.
Nápady najdete v části Příklady .
Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.
Výraz rozdělí datovou sadu na dvě sady řádků: řádky s hodnotami, které splňují podmínku, a všechny zbývající řádky.
Pokud potřebujete provést další operace rozdělení, můžete buď přidat druhou instanci *Rozdělení dat, nebo použít modul Použít transformaci SQL a definovat příkaz CASE.
Příklady relatve výrazů
Následující příklady ukazují, jak rozdělit datovou sadu pomocí možnosti Relativní výraz v modulu Rozdělení dat :
Použití kalendářního roku
Běžným scénářem je vydělit datovou sadu roky. Následující výraz vybere všechny řádky, ve kterých jsou hodnoty ve sloupci Year
větší než 2010
.
\"Year" > 2010
Výraz data musí zohlednit všechny části kalendářního data, které jsou zahrnuty ve sloupci dat, a formát kalendářních dat ve sloupci dat musí být konzistentní.
Například ve sloupci kalendářního data s formátem mmddyyyy
by výraz měl vypadat přibližně takto:
\"Date" > 1/1/2010
Použití indexů sloupců
Následující výraz ukazuje, jak můžete pomocí indexu sloupce vybrat všechny řádky v prvním sloupci datové sady, které obsahují hodnoty menší než nebo rovné 30, ale ne rovno 20.
(\0)<=30 & !=20
Složená operace s časovými hodnotami pomocí více rozdělení
Předpokládejme, že chcete rozdělit tabulku dat protokolu, abyste seskupily dotazy, které běží příliš dlouho. Pomocí následujícího relativního výrazu ve sloupci Elapsed
můžete získat dotazy, které běžely více než 1 minutu.
\"Elapsed" >00:01:00
Pokud chcete získat dotazy s dobou odezvy kratší než jedna minuta, ale delší než 30 sekund, přidejte do výstupu vpravo další instanci Rozdělení dat a použijte výraz podobný tomuto:
\"Elapsed" <:00:01:00 & >00:00:30
Rozdělení datové sady podle hodnot kalendářních dat
Následující relativní výraz rozdělí datovou sadu pomocí hodnot data ve sloupci dt1
.
\"dt1" > 10-08-2015
Řádky s datem větším než 10-08-2015 se přidají do první (vlevo) výstupní datové sady.
Řádky s datem 10-08-2015 nebo starším se přidají do druhé (vpravo) výstupní datové sady.
Technické poznámky
Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.
Omezení
Následující omezení platí pro relativní výrazy v datové sadě:
- Relativní výrazy lze použít pouze u číselných datových typů a datových typů data a času.
- Relativní výrazy můžou odkazovat maximálně na jeden název sloupce.
- Pro operaci AND použijte ampersandový znak (&) a znak svislé čáry (|) pro operaci OR.
- Pro relativní výrazy jsou povoleny následující operátory:
<
,>
,<=
,>=
, ,==
,!=
- Seskupování operací pomocí závorek se nepodporuje.