Převody formátu dat
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
v tomto článku jsou uvedené moduly poskytované v Machine Learning studiu (classic) pro převod dat mezi různými formáty souborů používanými ve službě Machine Learning.
Mezi podporované formáty patří:
- Formát datové sady , který se používá v celém Machine Learning.
- Formát arff , který používá weka. Weka je open source Sada algoritmů strojového učení založených na jazyce Java.
- Formát SVMLight . Formát SVMLight byl vyvinut pro SVMLight Framework pro strojové učení. Dá se použít taky pro dostupné.
- Formáty TSV (tabulátor-Odděl) a oddělených čárkami (CSV) , které jsou podporovány většinou relačních databází. Tyto formáty jsou taky široce podporované R a Pythonem.
Při převodu dat do těchto formátů můžete snadněji přesouvat výsledky a data mezi různými architekturami strojového učení nebo úložnými mechanismy.
Poznámka
Tyto moduly převodu dat převádějí pouze kompletní datovou sadu do určeného formátu. Pokud potřebujete provést přetypování, zkrácení, převod formátů data a času nebo jinou manipulaci s hodnotami, použijte moduly v transformaci datnebo zobrazte seznam souvisejících úloh.
Běžné scénáře převodu dat
moduly pro převod dat se obvykle používají, pokud potřebujete přesunout data z Machine Learning experiment do jiného nástroje Machine Learning nebo platformy. moduly můžete také použít k exportu dat z Machine Learning ve formátu, který může používat databáze nebo jiné nástroje. Například:
Úkol | Použijte toto |
---|---|
je nutné uložit zprostředkující datovou sadu pro použití v Excel nebo pro import do databáze. | K přípravě dat ve správném formátu použijte modul CSV nebo modul TSV . Pak buď Stáhněte data, nebo je uložte do Azure Storage. |
Data z experimentu budete chtít znovu použít v kódu R nebo Pythonu. | K přípravě dat použijte modul CSV nebo modul TSV . Potom klikněte pravým tlačítkem na převedený objekt DataSet a získejte kód Pythonu, který potřebujete pro přístup k datové sadě. |
Provádíte přenos experimentu a dat mezi weka a Machine Learning. | K přípravě dat použijte modul arff . Pak stáhněte výsledky. |
Je nutné připravit data v rozhraní SVMlight Framework. | K přípravě dat použijte modul převést do SVMLight . Pak stáhněte výsledná data. |
Vytvořte data pro použití s pro dostupné. | Použijte formát SVMLight . Pak upravte soubory, jak je popsáno v článku. Uložte soubor v úložišti objektů BLOB v Azure pro použití s modulem pro dostupné v Machine Learning. |
Data nejsou v tabulkovém formátu. | Převede ho na formát DataSet pomocí modulu převést na datovou sadu . |
Související úlohy
pokud potřebujete importovat data do Machine Learning nebo transformovat data v jednotlivých sloupcích, použijte tyto moduly před provedením převodu dat:
Úkol | Použijte toto |
---|---|
Importuje data z počítače do Machine Learning. | Upload datové sady ve formátu CSV, jak je popsáno v tématu Import vašich školicích dat do Machine Learning studia (classic). |
Importuje data z cloudového zdroje dat, včetně Hadoop nebo Azure. | Použijte modul Import dat . |
Datové sady Machine Learning můžete ukládat do Azure Blob Storage, clusteru Hadoop nebo jiného cloudového úložiště. | Použijte modul exportovat data . |
Změňte datový typ sloupců nebo přetypování na jiný formát nebo typ. | v Machine Learning použijte modul upravit Metadata nebo použít moduly transformace SQL . Pokud jste zdatní pomocí jazyka R nebo Pythonu, zkuste Spustit skript jazyka Python nebo Spustit moduly skriptu jazyka r . |
Číselná data zaokrouhlit, seskupovat nebo normalizovat. | Použijte příkaz použít matematickou operaci, Seskupit data do přihrádeknebo Normalizujte datové moduly. |
Seznam modulů
Kategorie převody formátů dat zahrnuje tyto moduly:
- Převést na arff: převede vstup dat do formátu souboru relace atributu, který je používán sadou nástrojů weka.
- Převést na sdílený svazek clusteru: převede datovou sadu na formát hodnot oddělených čárkami.
- Převést na datovou sadu: převede datové vstupy na formát interní datové sady, který je používán Machine Learning.
- Převést na SVMLight: převede vstup dat na formát, který používá architektura SVMLight.
- Převést na TSV: převede datové vstupy na formát oddělený tabulátorem.