Připojení k datům pomocí studia Azure Machine Learning
Tento článek ukazuje, jak získat přístup k datům pomocí studio Azure Machine Learning. Připojte se ke svým datům ve službách úložiště Azure pomocí úložišť dat Azure Machine Learning. Potom tato data zabalte pro úlohy pracovního postupu ML pomocí datových sad Azure Machine Learning.
Tato tabulka definuje a shrnuje výhody úložišť dat a datových sad.
Objekt | Popis | Zaměstnanecké výhody |
---|---|---|
Úložiště dat | Pokud se chcete bezpečně připojit ke službě Úložiště v Azure, uložte informace o připojení (ID předplatného, autorizace tokenu atd.) ve službě Key Vault přidružené k pracovnímu prostoru. | Vzhledem k tomu, že jsou vaše informace bezpečně uložené, nezařaďte ověřovací přihlašovací údaje ani původní zdroje dat do rizika a tyto hodnoty už nemusíte pevně kódovat ve skriptech. |
Datové sady | Vytvoření datové sady také vytvoří odkaz na umístění zdroje dat spolu s kopií jeho metadat. S datovými sadami můžete přistupovat k datům během trénování modelu, sdílet data a spolupracovat s ostatními uživateli a používat opensourcové knihovny, jako je pandas, pro zkoumání dat. | Vzhledem k tomu, že se datové sady lazily vyhodnocují a data zůstávají v existujícím umístění, uchováváte v úložišti jednu kopii dat. Navíc se vám neúčtují žádné další náklady na úložiště, abyste se vyhnuli neúmyslným změnám původních zdrojů dat a zlepšili rychlost výkonu pracovního postupu ML. |
Informace o tom, kde se úložiště dat a datové sady vejdou do celkového pracovního postupu přístupu k datům služby Azure Machine Learning, najdete v tématu Zabezpečený přístup k datům.
Další informace o sadě Azure Machine Learning Python SDK a prostředí s kódem najdete tady:
- Připojení ke službám Úložiště Azure pomocí úložišť dat
- Vytváření datových sad služby Azure Machine Learning
Požadavky
Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet. Vyzkoušejte bezplatnou nebo placenou verzi služby Azure Machine Learning.
Přístup k studio Azure Machine Learning
Pracovní prostor služby Azure Machine Learning. Vytvoření prostředků pracovního prostoru
- Při vytváření pracovního prostoru se kontejner objektů blob Azure a sdílená složka Azure automaticky zaregistrují do pracovního prostoru jako úložiště dat. Pojmenují
workspaceblobstore
se aworkspacefilestore
v uvedeném pořadí. Pro dostatečné prostředkyworkspaceblobstore
úložiště objektů blob se nastaví jako výchozí úložiště dat, které už je nakonfigurované pro použití. Pokud potřebujete více prostředků úložiště objektů blob, potřebujete účet úložiště Azure s podporovaným typem úložiště.
- Při vytváření pracovního prostoru se kontejner objektů blob Azure a sdílená složka Azure automaticky zaregistrují do pracovního prostoru jako úložiště dat. Pojmenují
Vytváření úložišť dat
Úložiště dat můžete vytvářet z těchto řešení úložiště Azure. U nepodporovaných řešení úložiště a ukládání nákladů na výchozí přenos dat během experimentů ML je nutné přesunout data do podporovaného řešení úložiště Azure. Další informace o úložištích dat najdete v tomto prostředku.
Úložiště dat můžete vytvářet pomocí přístupu na základě přihlašovacích údajů nebo přístupu na základě identity.
Vytvořte nové úložiště dat pomocí studio Azure Machine Learning.
Důležité
Pokud se váš účet úložiště dat nachází ve virtuální síti, je potřeba provést další kroky konfigurace, které zajistí, že studio bude mít přístup k vašim datům. Další informace o příslušných krocích konfigurace najdete v části Izolace sítě a ochrana osobních údajů.
- Přihlaste se k studio Azure Machine Learning.
- V levém podokně v části Prostředky vyberte Data.
- Nahoře vyberte Úložiště dat.
- Vyberte +Vytvořit.
- Vyplňte formulář pro vytvoření a registraci nového úložiště dat. Formulář se inteligentně aktualizuje na základě vašich výběrů pro typ úložiště Azure a typ ověřování. Další informace o tom, kde najít přihlašovací údaje pro ověřování potřebné k naplnění tohoto formuláře, najdete v části Přístup k úložišti a oprávnění.
Tento snímek obrazovky ukazuje panel pro vytvoření úložiště dat objektů blob v Azure:
Vytváření datových prostředků
Po vytvoření úložiště dat vytvořte datovou sadu pro interakci s daty. Datové sady zabalí vaše data do lazily vyhodnoceného spotřebního objektu pro úlohy strojového učení – například trénování. Další informace o datových sadách najdete v tématu Vytvoření datových sad Azure Machine Learning.
Datové sady mají dva typy: FileDataset a TabularDataset. FileDatasets vytváří odkazy na jeden nebo více souborů nebo veřejné adresy URL. TabularDatasets představují data v tabulkovém formátu. Tabulkové datové sady můžete vytvořit z
- .csv
- .tsv
- .parkety
- .json soubory a výsledky dotazu SQL.
Následující kroky popisují, jak vytvořit datovou sadu v studio Azure Machine Learning.
Poznámka:
Datové sady vytvořené prostřednictvím studio Azure Machine Learning se automaticky zaregistrují do pracovního prostoru.
Přejděte na studio Azure Machine Learning
V části Prostředky v levém navigačním panelu vyberte Data. Na kartě Datové prostředky vyberte Vytvořit.
Zadejte název datového prostředku a volitelný popis. Potom v části Typ vyberte typ datové sady, a to buď Soubor , nebo Tabulkový.
Otevře se další podokno Zdroj dat, jak je znázorněno na tomto snímku obrazovky:
Pro zdroj dat máte různé možnosti. U dat, která jsou už uložená v Azure, zvolte Z úložiště Azure. Pokud chcete nahrát data z místního disku, zvolte "Z místních souborů". Pro data uložená ve veřejném webovém umístění zvolte "Z webových souborů". Můžete také vytvořit datový asset z databáze SQL nebo z Azure Open Datasets.
V kroku výběru souboru vyberte umístění, kam má Azure ukládat vaše data, a datové soubory, které chcete použít.
- Pokud jsou vaše data ve virtuální síti, povolte ověření přeskočením. Přečtěte si další informace o izolaci virtuální sítě a ochraně osobních údajů.
Podle pokynů nastavte nastavení analýzy dat a schéma datového assetu. Nastavení se předem naplní na základě typu souboru a před vytvořením datového prostředku můžete nastavení dále nakonfigurovat.
Jakmile se dostanete ke kroku Revize, vyberte Vytvořit na poslední stránce.
Náhled dat a profil
Po vytvoření datové sady ověřte, že můžete zobrazit náhled a profil v sadě Studio:
- Přihlaste se k studio Azure Machine Learning
- V části Prostředky v levém navigačním panelu vyberte Data.
- Vyberte název datové sady, kterou chcete zobrazit.
- Vyberte kartu Prozkoumat.
- Vyberte kartu Náhled.
- Vyberte kartu Profil.
Pomocí souhrnných statistik v datové sadě můžete ověřit, jestli je vaše datová sada připravená. U nečíselných sloupců zahrnují tyto statistiky pouze základní statistiky – například minimální, maximální a počet chyb. Číselné sloupce nabízejí statistické momenty a odhadované quantily.
Profil dat datové sady Azure Machine Learning zahrnuje:
Poznámka:
Prázdné položky se zobrazují pro funkce s irelevantními typy.
Statistický údaj | Popis |
---|---|
Funkce | Název souhrnného sloupce |
Profil | Vložená vizualizace založená na odvozeného typu Řetězce, logické hodnoty a kalendářní data mají počty hodnot. Desetinná čísla mají přibližné histogramy. Tyto vizualizace nabízejí rychlý přehled o distribuci dat. |
Distribuce typů | Počet hodnot v řádku v rámci sloupce Hodnoty Null jsou vlastní typ, takže tato vizualizace dokáže rozpoznat liché nebo chybějící hodnoty. |
Typ | Odvozený typ sloupce Mezi možné hodnoty patří: řetězce, logické hodnoty, kalendářní data a desetinná místa. |
Min. | Minimální hodnota sloupce. Zobrazí se prázdné položky pro funkce, jejichž typ nemá vlastní řazení (například logické hodnoty). |
Maximum | Maximální hodnota sloupce |
Počet | Celkový počet chybějících a nemissing položek ve sloupci |
Chybějící počet | Počet položek ve sloupci, který chybí Prázdné řetězce a chyby se považují za hodnoty, takže nepřispívají do chybějícího počtu. |
Kvantily | Přibližné hodnoty v každém quantile, které poskytují představu o distribuci dat |
Střední hodnota | Aritmetický průměr nebo průměr sloupce |
Směrodatná odchylka | Míra množství rozptylu nebo variace pro data tohoto sloupce |
Odchylka | Míra toho, jak daleko se data tohoto sloupce rozprostírají od průměrné hodnoty |
Šikmost | Měří rozdíl dat tohoto sloupce od normálního rozdělení. |
Kurtóza | Měří stupeň "chvostu" dat tohoto sloupce v porovnání s normálním rozdělením. |
Přístup k úložišti a oprávnění
Aby se služba Azure Machine Learning bezpečně připojila ke službě Azure Storage, vyžaduje, abyste měli oprávnění pro přístup k odpovídajícímu úložišti dat. Tento přístup závisí na přihlašovacích údajích ověřování použitých k registraci úložiště dat.
Virtuální síť
Pokud je váš účet úložiště dat ve virtuální síti, je potřeba provést další kroky konfigurace, aby služba Azure Machine Learning získala přístup k vašim datům. Informace o použití studio Azure Machine Learning ve virtuální síti zajistěte, aby se při vytváření a registraci úložiště dat použily příslušné kroky konfigurace.
Ověření přístupu
Upozorňující
Přístup k účtům úložiště mezi tenanty se nepodporuje. Pokud váš scénář potřebuje přístup mezi tenanty, spojte se s aliasem týmu podpory dat služby Azure Machine Learning a amldatasupport@microsoft.com požádejte ho o pomoc s vlastním řešením kódu.
V rámci počátečního procesu vytváření a registrace úložiště dat Azure Machine Learning automaticky ověří, že základní služba úložiště existuje a že k zadanému úložišti má přístup zadaný objekt zabezpečení (uživatelské jméno, instanční objekt nebo token SAS).
Po vytvoření úložiště dat se toto ověření provádí pouze u metod, které vyžadují přístup k podkladovému kontejneru úložiště. Ověření se neprovádí při každém načtení objektů úložiště dat. K ověření dojde například při stahování souborů z úložiště dat. Pokud ale chcete změnit výchozí úložiště dat, neproběhne ověření.
Pokud chcete ověřit přístup k podkladové službě úložiště, zadejte klíč účtu, tokeny sdíleného přístupového podpisu (SAS) nebo instanční objekt podle typu úložiště dat, který chcete vytvořit. Matice typů úložiště obsahuje seznam podporovaných typů ověřování, které odpovídají jednotlivým typům úložiště dat.
Klíč účtu, token SAS a informace o instančním objektu najdete na webu Azure Portal.
Pokud chcete získat klíč účtu pro ověřování, vyberte v levém podokně účty úložiště a zvolte účet úložiště, který chcete zaregistrovat.
- Na stránce Přehled najdete informace, jako je název účtu, kontejner a název sdílené složky.
- Rozbalte uzel Zabezpečení a sítě v levém navigačním panelu.
- Vyberte Přístupové klíče.
- Dostupné hodnoty klíče slouží jako hodnoty klíče účtu.
Pokud chcete získat token SAS pro ověřování, vyberte v levém podokně účty úložiště a zvolte požadovaný účet úložiště.
- Pokud chcete získat hodnotu přístupového klíče , rozbalte v levém navigačním panelu uzel Zabezpečení a sítě .
- Výběr sdíleného přístupového podpisu
- Dokončete proces a vygenerujte hodnotu SAS.
Pokud chcete k ověřování použít instanční objekt, přejděte do svého Registrace aplikací a vyberte aplikaci, kterou chcete použít.
- Odpovídající stránka Přehled obsahuje požadované informace, jako je ID tenanta a ID klienta.
Důležité
- Pokud chcete změnit přístupové klíče pro účet Azure Storage (klíč účtu nebo token SAS), nezapomeňte nové přihlašovací údaje synchronizovat s pracovním prostorem i úložišti dat připojenými k němu. Další informace najdete v části Synchronizace aktualizovaných přihlašovacích údajů.
- Pokud zrušíte registraci a pak znovu zaregistrujete úložiště dat se stejným názvem a tato opětovná registrace selže, nemusí mít služba Azure Key Vault pro váš pracovní prostor povolené obnovitelné odstranění. Ve výchozím nastavení je u instance trezoru klíčů vytvořené vaším pracovním prostorem povolené obnovitelné odstranění, ale pokud jste použili existující trezor klíčů nebo jste vytvořili pracovní prostor před říjnem 2020, nemusí být povolený. Další informace o povolení obnovitelného odstranění najdete v tématu Zapnutí obnovitelného odstranění pro existující trezor klíčů.
Oprávnění
V případě kontejneru objektů blob Azure a úložiště Azure Data Lake Gen2 se ujistěte, že přihlašovací údaje pro ověřování mají přístup ke čtenáři dat objektů blob služby Storage. Přečtěte si další informace o čtečce dat objektů blob služby Storage. Ve výchozím nastavení nemá token SAS účtu žádná oprávnění.
Pro přístup ke čtení dat musí přihlašovací údaje pro ověřování obsahovat minimálně oprávnění seznamu a čtení pro kontejnery a objekty.
Pro přístup k zápisu dat se vyžadují také oprávnění k zápisu a přidání.
Trénování s datovými sadami
Datové sady můžete použít v experimentech strojového učení pro trénovací modely ML. Přečtěte si další informace o tom, jak trénovat pomocí datových sad.
Další kroky
Podrobný příklad trénování pomocí tabulkových datových sad a automatizovaného strojového učení
Další příklady trénování datových sad najdete v ukázkových poznámkových blocích.