Rozdělení datové sady pomocí relativního výrazu

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Přečtěte si informace o přesunu projektů strojového učení z nástroje ML Studio (classic) do služby Azure Machine Learning.
Přečtěte si další informace o službě Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Tento článek popisuje, jak používat možnost Relativní rozdělení výrazu v modulu Rozdělení dat nástroje Machine Learning Studio (classic). Tato možnost je užitečná, když potřebujete datovou sadu rozdělit na trénovací a testovací datové sady pomocí číselného výrazu. Příklad:

Věk nad 40 vs. 40 nebo mladší
Skóre testu 60 nebo vyšší vs. méně než 60
Hodnota pořadí 1 vs. všechny ostatní hodnoty

Poznámka

Platí pro: Pouze Machine Learning Studio (classic)

Podobné moduly pro přetahování jsou k dispozici v návrháři služby Azure Machine Learning.

Pokud chcete data rozdělit, zvolíte v datech jeden číselný sloupec a definujete výraz, který se použije při vyhodnocování každého řádku. Relativní výraz musí obsahovat název sloupce, hodnotu a operátor, například větší než a menší než, rovná se a nerovná se.

Tato možnost rozdělí datovou sadu do dvou skupin.

Obecné informace o dělení dat pro experimenty strojového učení najdete v tématu Rozdělení dat a dělení a rozdělení.

Další možnosti modulu Rozdělení dat :

Rozdělení dat pomocí regulárních výrazů: Použití regulárního výrazu na jeden textový sloupec a rozdělení datové sady na základě výsledků
Rozdělení doporučených datových sad: Rozdělte datové sady, které se používají v modelech doporučení. Datová sada by měla mít tři sloupce: položky, uživatele a hodnocení.
Rozdělení podle procenta datové sady

Rozdělení datové sady pomocí relativního výrazu

Do experimentu v aplikaci Stuio přidejte modul Rozdělení dat a připojte ho jako vstup k datové sadě, kterou chcete rozdělit.
V části Režim rozdělení vyberte rozdělení relativního výrazu.
Do textového pole Relační výraz zadejte výraz, který provede operaci číselného porovnání v jednom sloupci:
- Sloupec obsahuje čísla libovolného číselného datového typu, včetně datových typů data a času.
- Výraz může odkazovat maximálně na jeden název sloupce.
- Pro operaci AND použijte znak ampersandu (&) a znak svislé čáry (|) pro operaci OR.
- Podporují se následující operátory: <, >, <=, >=, , , ==!=
- Operace nelze seskupit pomocí ( a ).
Nápady najdete v části Příklady .
Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.

Výraz rozdělí datovou sadu na dvě sady řádků: řádky s hodnotami, které splňují podmínku, a všechny zbývající řádky.

Pokud potřebujete provést další operace rozdělení, můžete buď přidat druhou instanci *Rozdělení dat, nebo použít modul Použít transformaci SQL a definovat příkaz CASE.

Příklady relatve výrazů

Následující příklady ukazují, jak rozdělit datovou sadu pomocí možnosti Relativní výraz v modulu Rozdělení dat :

Použití kalendářního roku

Běžným scénářem je vydělit datovou sadu roky. Následující výraz vybere všechny řádky, ve kterých jsou hodnoty ve sloupci Year větší než 2010.

\"Year" > 2010

Výraz data musí zohlednit všechny části kalendářního data, které jsou zahrnuty ve sloupci dat, a formát kalendářních dat ve sloupci dat musí být konzistentní.

Například ve sloupci kalendářního data s formátem mmddyyyyby výraz měl vypadat přibližně takto:

\"Date" > 1/1/2010

Použití indexů sloupců

Následující výraz ukazuje, jak můžete pomocí indexu sloupce vybrat všechny řádky v prvním sloupci datové sady, které obsahují hodnoty menší než nebo rovné 30, ale ne rovno 20.

(\0)<=30 & !=20

Složená operace s časovými hodnotami pomocí více rozdělení

Předpokládejme, že chcete rozdělit tabulku dat protokolu, abyste seskupily dotazy, které běží příliš dlouho. Pomocí následujícího relativního výrazu ve sloupci Elapsedmůžete získat dotazy, které běžely více než 1 minutu.

\"Elapsed" >00:01:00

Pokud chcete získat dotazy s dobou odezvy kratší než jedna minuta, ale delší než 30 sekund, přidejte do výstupu vpravo další instanci Rozdělení dat a použijte výraz podobný tomuto:

\"Elapsed" <:00:01:00 & >00:00:30

Rozdělení datové sady podle hodnot kalendářních dat

Následující relativní výraz rozdělí datovou sadu pomocí hodnot data ve sloupci dt1.

\"dt1" > 10-08-2015

Řádky s datem větším než 10-08-2015 se přidají do první (vlevo) výstupní datové sady.

Řádky s datem 10-08-2015 nebo starším se přidají do druhé (vpravo) výstupní datové sady.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Omezení

Následující omezení platí pro relativní výrazy v datové sadě:

Relativní výrazy lze použít pouze u číselných datových typů a datových typů data a času.
Relativní výrazy můžou odkazovat maximálně na jeden název sloupce.
Pro operaci AND použijte ampersandový znak (&) a znak svislé čáry (|) pro operaci OR.
Pro relativní výrazy jsou povoleny následující operátory: <, >, <=, >=, , ==, !=
Seskupování operací pomocí závorek se nepodporuje.

Viz také

Ukázka a rozdělení
Rozdělení a ukázky

Sdílet prostřednictvím

Rozdělení datové sady pomocí relativního výrazu

Rozdělení datové sady pomocí relativního výrazu

Příklady relatve výrazů

Použití kalendářního roku

Použití indexů sloupců

Složená operace s časovými hodnotami pomocí více rozdělení

Rozdělení datové sady podle hodnot kalendářních dat

Technické poznámky

Omezení

Viz také

Další materiály

Sdílet prostřednictvím

Rozdělení datové sady pomocí relativního výrazu

Související úlohy

Rozdělení datové sady pomocí relativního výrazu

Příklady relatve výrazů

Použití kalendářního roku

Použití indexů sloupců

Složená operace s časovými hodnotami pomocí více rozdělení

Rozdělení datové sady podle hodnot kalendářních dat

Technické poznámky

Omezení

Viz také

Další materiály