Rozdělení dat pomocí regulárního výrazu
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
- Další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Tento článek popisuje, jak používat možnost Rozdělení regulárního výrazu v modulu Rozdělit data v Machine Learning Studiu (klasickém). Tato možnost je užitečná, když potřebujete u textového sloupce použít kritéria filtru. Datovou sadu můžete například rozdělit podle toho, jestli je zmíněn konkrétní produkt.
Poznámka
Platí pro: Machine Learning Studio (classic)
Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.
Můžete použít regulární výraz rozdělený na jeden textový sloupec. Definujete regulární výraz, který obsahuje název textového sloupce, a potom nastavíte podmínky, které se na sloupec vztahují, například "začíná na", ""obsahuje" nebo "neobsahuje".
Obecné informace o dělení dat pro experimenty strojového učení najdete v tématu Rozdělení dat a Rozdělení.
Související úlohy
Další možnosti v modulu Rozdělit data:
Rozdělení dat pomocí relativních výrazů: Použije výraz na číselná data.
Rozdělit doporučené datové sady: Rozdělte datové sady, které se používají v modelech doporučení. Datová sada by měla mít tři sloupce: položky, uživatelé a hodnocení.
Rozdělení datové sady pomocí regulárního výrazu
Přidejte do experimentu modul Rozdělit data a připojte ho jako vstup k datové sadě, kterou chcete rozdělit.
V části Režim rozdělení vyberte Rozdělení regulárního výrazu.
Do pole Regulární výraz zadejte platný regulární výraz. Tady najdete několik příkladů.
Regulární výraz se použije pouze na zadaný sloupec, který musí být řetězcový datový typ.
Nápovědu k vytváření regulárních výrazů najdete v tématu Jazyk regulárních výrazů – stručná referenční příručka.
Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.
Na základě regulárního výrazu, který poskytnete, se datová sada rozdělí do dvou sad řádků: řádků s hodnotami, které odpovídají výrazu a všem zbývajícím řádkům.
Příklady
Následující příklady ukazují, jak rozdělit datovou sadu pomocí možnosti Regulární výraz .
Jedno celé slovo
V tomto příkladu se do první datové sady zavedou všechny řádky, které obsahují text Gryphon
Text
ve sloupci , a ostatní řádky se převedou do druhého výstupu funkce Rozdělit data:
\"Text" Gryphon
Podřetězec
Tento příklad hledá zadaný řetězec na libovolné pozici ve druhém sloupci datové sady, který je zde označen hodnotou indexu 1. Shoda rozlišuje velká a malá písmena.
(\1) ^[a-f]
První výsledná datová sada obsahuje všechny řádky, kde indexový sloupec začíná jedním z těchto znaků: a
, b
, c
, d
, , e
, . f
Všechny ostatní řádky se směrují na druhý výstup.
Shoda řetězců na IP adresách
Tento příklad rozděluje některá data protokolu serveru do dvou kategorií pro analýzu: připojení za bránou firewall a připojení s IP adresami mimo bránu firewall. Regulární výraz se použije na pole IP_Address
(datový typ řetězce).
(\IP_Address) ^[10]
První výstup obsahuje všechny adresy, které začínají na 10
.