Sdílet prostřednictvím


Týmový Datová Věda Proces pro datové vědce

Tento článek obsahuje pokyny a školení k cílům, které je potřeba nastavit při implementaci komplexních řešení pro datové vědy s využitím technologií Azure.

Cíle datových vědců

Tento seznam popisuje klíčové cíle datových vědců, kteří používají TDSP (Team Datová Věda Process):

Tyto cíle jsou zásadní pro přípravu na používání TDSP. TDSP popisuje komplexní přístup k efektivní správě a spouštění projektů datových věd. Tento článek popisuje důležitost každého cíle a poskytuje odkazy na relevantní prostředky Azure.

Vysvětlení analytické úlohy

  • Identifikace požadavků: Tento krok zahrnuje pochopení konkrétních potřeb a cílů analytické úlohy. Pomáhá identifikovat obchodní otázky pro odpovědi a problémy, které je potřeba vyřešit.

  • Definovat obor: Tento krok se týká jasného definování rozsahu projektu, který týmu pomůže soustředit se na relevantní úlohy dat a analýz.

  • Přidělení prostředků: Tento krok zahrnuje analýzu úlohy za účelem identifikace požadovaných prostředků, jako je výpočetní výkon, úložiště a lidské znalosti.

Integrace v rámci TDSP

Azure má mnoho prostředků, které můžete použít pro analytické úlohy. Následující seznam obsahuje doporučené prostředky v architekturách Azure.

  • Plánování a spouštění: Pro strategické plánování a zásady správného řízení použijte architekturu přechodu na cloud pro Azure . Tato architektura zajišťuje, aby vaše analytické úlohy odpovídaly obchodním cílům a požadavkům na dodržování předpisů. Vychází také z poměrně jednoduché architektury, kterou používáte v programu TDSP. Mezi funkce architektury přechodu na cloud patří:

    • Strategické plánování: Poskytuje strategické pokyny pro sladění přechodu na cloud s obchodními cíli. Strategické plánování znamená, že navrhujete analytické úlohy tak, aby splňovaly organizační cíle.

    • Zásady správného řízení a dodržování předpisů: Poskytuje architektury pro zásady správného řízení a dodržování předpisů. Architektury zásad správného řízení a dodržování předpisů umožňují, aby úlohy zpracování a analýzy dat dodržovaly zákonné požadavky a zásady organizace.

    • Migrace a modernizace: Provede migraci stávajících analytických úloh do Azure, aby se zajistilo minimální přerušení a optimální výkon v novém prostředí.

    • Správa a provoz: Popisuje osvědčené postupy pro správu a provoz cloudových prostředků, což pomáhá zajistit efektivní a spolehlivé operace analytických úloh.

    • Optimalizace: Poskytuje nástroje a metodologie pro průběžnou optimalizaci úloh. Optimalizace znamená, že efektivně používáte prostředky a efektivně spravujete náklady.

  • Vývoj a spolupráce: Pomocí Azure Synapse Analytics můžete vyvíjet, testovat a nasazovat analytická řešení a poskytovat prostředí pro spolupráci pro datové vědce a techniky. Doporučujeme používat platformu Azure Synapse Analytics ke zpracování velkých objemů dat, jako je jeden terabajt a další, a pro modelování strojového učení a umělé inteligence (AI). Mezi funkce Azure Synapse Analytics patří:

    • Jednotné prostředí: Poskytuje jednotné prostředí pro příjem, přípravu, správu a obsluhu dat pro okamžité potřeby business intelligence a strojového učení.

    • Integrace dat: Bezproblémově se integruje s různými zdroji dat, což umožňuje komplexní možnosti příjmu dat a zpracování dat.

    • Velké objemy dat a datové sklady: Kombinuje možnosti velkých objemů dat a datových skladů, které umožňují efektivně spouštět složité dotazy na velkých datových sadách.

    • Škálovatelnost: Škáluje výpočetní prostředky na základě požadavků úloh, což zajišťuje efektivní zpracování různých zatížení dat.

    • Spolupráce: Usnadňuje spolupráci v rámci týmů datových věd tím, že poskytuje sdílené pracovní prostory a integrovaná vývojová prostředí (IDE).

    • Analýza: Podporuje pokročilou analýzu a strojové učení s integrovanou integrací služeb, jako jsou Machine Learning a Power BI.

  • Monitorování a optimalizace: Pomocí služby Azure Monitor můžete sledovat výkon, identifikovat problémy a optimalizovat analytickou úlohu. Azure Monitor pomáhá s vysokou dostupností a spolehlivostí. Mezi funkce služby Azure Monitor patří:

    • Shromažďování dat: Shromažďuje metriky a protokoly z různých zdrojů, včetně prostředků Azure, aplikací a operačního systému.

    • Monitorování: Poskytuje přehled o výkonu a stavu analytických úloh monitorováním metrik, jako je využití procesoru, využití paměti a propustnost.

    • Diagnostika: Pomáhá identifikovat problémy a anomálie v kanálech a úlohách zpracování dat prostřednictvím diagnostických protokolů a protokolů aktivit.

    • Upozorňování: Konfiguruje výstrahy na základě konkrétních metrik nebo dat protokolu a okamžitě vás upozorní na potenciální problémy, které by mohly ovlivnit výkon nebo spolehlivost analytických úloh.

    • Vizualizace: Poskytuje přizpůsobitelné řídicí panely a sešity pro vizualizaci dat, což vám pomůže pochopit trendy a vzory ve výkonu úloh.

Použití životního cyklu TDSP

Životní cyklus TDSP slouží ke strukturování vývoje projektů datových věd.

  • Strukturovaný přístup: Poskytuje strukturovaný rámec pro spouštění projektů datových věd a podporuje systematický a disciplínní přístup.

  • Spolupráce: Podporuje spolupráci mezi členy týmu definováním jasných rolí a zodpovědností.

  • Osvědčené postupy: Zahrnuje osvědčené postupy v oboru a pomáhá efektivně a efektivně provádět vaše projekty.

Integrace pro datové vědce

TDSP je architektura architektury s hodnocením peer-review, která poskytuje datovým vědcům konkrétní rámec pro vytváření modelů AI a datových věd.

Používání Azure Machine Learningu

Pomocí služby Machine Learning můžete vytvářet a nasazovat modely strojového učení. Machine Learning je hlavním doporučeným prostředkem Azure pro každou z pěti fází životního cyklu TDSP: Business Understanding, Data Acquisition and Understanding, Modeling, Deployment a Customer Acceptance. Mezi funkce strojového učení patří:

  • Pokročilá analýza: Poskytuje výkonné nástroje a služby pro sestavování, trénování a nasazování modelů strojového učení.

  • Škálovatelnost: Poskytuje škálovatelné výpočetní prostředky, které týmům umožňují zpracovávat velké datové sady a složité modely.

  • Integrace: Integruje se dobře s ostatními službami Azure a usnadňuje bezproblémový pracovní postup od příjmu dat po nasazení.

Tady je postup, jak Machine Learning podporuje jednotlivé fáze TDSP:

Principy podniku

V této počáteční fázi vám Machine Learning pomůže porozumět obchodním požadavkům a definovat cíle projektu datových věd.

  • Pracovní prostory projektu: Poskytuje pracovní prostory projektu, kde můžou týmy spolupracovat a sdílet dokumenty. Spolupráce pomáhá všem uživatelům v souladu s obchodními cíli.

  • Sledování experimentů: Podporuje dokumentaci a schopnost sledovat počáteční hypotézy a obchodní metriky, které vedou projekt datových věd.

  • Integrace s Azure DevOps: Spravuje pracovní postupy projektu, uživatelské scénáře a úkoly. Azure DevOps pomáhá mapovat obchodní porozumění položkám, které je možné provádět.

Získávání a pochopení dat

V této fázi vám Machine Learning pomůže shromáždit a prozkoumat data, abyste porozuměli jeho struktuře a významu pro obchodní problém.

  • Integrace dat: Machine Learning se bezproblémově integruje s Azure Data Lake, Azure SQL Database a dalšími datovými službami, což usnadňuje příjem dat z různých zdrojů.

  • Popisování dat: Integrované nástroje pro popisky dat, které vám pomůžou při přidávání poznámek k datovým sadám, což je užitečné pro modely učení pod dohledem.

  • Průzkumná analýza dat (EDA): Poznámkové bloky Jupyter a integrovaná prostředí Python/R ve službě Machine Learning umožňují důkladné EDA porozumět distribucím dat, identifikovat vzory a detekovat anomálie.

Modelování

V této fázi datoví vědci vytvářejí a trénují modely strojového učení pro řešení obchodních problémů.

  • Automatizované strojové učení: Vybere nejlepší algoritmy automaticky a naladí hyperparametry, které urychlují proces vývoje modelu.

  • Vlastní modelování: Podporuje vývoj vlastních modelů pomocí oblíbených architektur, jako jsou TensorFlow, PyTorch a scikit-learn.

  • Experimentování a správa verzí: Podporuje paralelní spouštění více experimentů, sledování výsledků a modelů správy verzí, které usnadňují porovnání a výběr nejlepšího modelu.

  • Ladění hyperparametrů: Optimalizuje výkon modelu s integrovanou podporou automatizovaného ladění hyperparametrů.

Nasazení

V této fázi po vývoji a ověření modelu ji Machine Learning nasadí pro použití v produkčních prostředích.

  • Nasazení modelu: Poskytuje různé možnosti nasazení, včetně azure Kubernetes Service (AKS) a hraničních zařízení, která umožňují flexibilní strategie nasazení.

  • Správa koncových bodů: Poskytuje nástroje pro správu koncových bodů pro predikce v reálném čase a dávkové předpovědi a pomáhá se škálovatelnou a spolehlivou obsluhou modelu.

  • Kontinuální integrace a průběžné nasazování (CI/CD): Integruje se s Azure DevOps, která umožňuje CI/CD pro modely strojového učení vytvářet opakovatelné přechody z vývoje do produkčního prostředí.

Přijetí zákazníky

V této poslední fázi se zaměříte na použití služby Machine Learning k tomu, aby nasazený model splňoval obchodní požadavky a poskytoval hodnotu.

  • Monitorování modelů: Poskytuje komplexní možnosti monitorování pro sledování výkonu modelu, zjišťování odchylek a udržování modelů v přesných a relevantních časech.

  • Smyčky zpětné vazby: Podporuje implementaci smyček zpětné vazby, ve kterých se používají a kontrolují předpovědi k opětovnému trénování modelů a průběžnému zlepšování přesnosti a relevance modelu.

  • Vytváření sestav a vizualizace: Integruje se s poznámkovými bloky, Power BI a dalšími vizualizačními nástroji, které umožňují vytvářet řídicí panely a sestavy a prezentovat výsledky modelu a přehledy zúčastněným stranám.

  • Zabezpečení a dodržování předpisů: Pomáhá udržovat modely a data v souladu se zákonnými požadavky a poskytuje nástroje pro správu ochrany osobních údajů a zabezpečení dat.

Vysvětlení základů přenosu dat a úložiště dat

Efektivní přenos dat a úložiště jsou zásadní základy pro bezpečnou správu velkých objemů dat.

  • Správa dat: Pomáhá spravovat velké objemy dat nejúčinnějším, vyhovujícím a efektivním způsobem.

  • Přístupnost: Pomáhá snadno zpřístupnit data členům týmu a analytickým nástrojům, což je nezbytné pro spolupráci a zpracování v reálném čase.

  • Dodržování předpisů a zabezpečení: Pomáhá zpracovávat data v souladu s právními a zákonnými požadavky a chránit citlivá data.

Integrace přenosu dat a úložiště dat v rámci TDSP

Azure má mnoho prostředků, které můžete použít pro přenos dat a úložiště dat. Následující seznam obsahuje doporučené prostředky pro architektury Azure.

Možnosti přenosu dat Azure: Zahrnuje různé metody a nástroje pro efektivní přesun dat do a z Azure, které odpovídají různým potřebám a velikostem dat.

  • Azure Data Box: Přenáší rozsáhlá hromadná data do Azure pomocí fyzického zařízení bez nutnosti spoléhat se na internet. Bezpečně přenáší terabajty dat, kde je omezená šířka pásma sítě.

  • Služba Azure Import/Export: Podporuje přenos velkých objemů dat do Azure odesláním pevných disků přímo do datacenter Azure. Tato služba je užitečná pro počáteční migrace dat, kdy nahrávání prostřednictvím sítě je nepraktické.

  • Azure Data Factory: Automatizuje a zpracovává přenos dat. Data Factory je cloudová služba pro integraci dat, která orchestruje a automatizuje přesun a transformaci dat. Umožňuje komplexní procesy ETL (extrakce, transformace, načítání) a integruje data z různých zdrojů do Azure pro úlohy analýzy a strojového učení.

  • Přenos sítě: Zahrnuje vysokorychlostní internetové přenosy pomocí Azure ExpressRoute. Přenos sítě poskytuje privátní připojení mezi místní infrastrukturou a Azure, které pomáhá bezpečně a rychle přenášet data.

Azure Database Migration Service: Zpracovává migraci databází do Azure za účelem minimalizace výpadků a podpory integrity dat. Database Migration Service je plně spravovaná služba navržená tak, aby umožňovala bezproblémovou migraci z více databázových zdrojů na datové platformy Azure s minimálními výpadky (nebo online migracemi). Přináší to tyto výhody:

  • Automatizovaná migrace: Zjednodušuje proces migrace tím, že poskytuje automatizované pracovní postupy pro přesun místních databází do služby SQL Database, Azure Database for MySQL a Azure Database for PostgreSQL.

  • Průběžná replikace: Podporuje průběžnou replikaci dat, která umožňuje minimální prostoje a udržuje data během procesu migrace aktuální.

  • Kompatibilita: Podporuje kontroly kompatibility a doporučuje optimalizace pro cílové prostředí Azure, aby přechod byl bezproblémový a efektivní.

  • Nástroje pro posouzení: Poskytuje nástroje pro posouzení připravenosti databází pro migraci, aby identifikovaly potenciální problémy a nabízely doporučení k jejich řešení.

Azure Storage: Poskytuje škálovatelná, zabezpečená a odolná řešení úložiště přizpůsobená různým typům dat a případů použití. Podporují se následující typy úložiště:

  • Blob Storage: Ukládá nestrukturovaná data, jako jsou dokumenty, obrázky, videa a zálohy. Je ideální pro datové vědce, kteří potřebují ukládat velké datové sady pro modely strojového učení.

  • Azure Data Lake Storage: Zpracovává analýzy velkých objemů dat. Data Lake Storage poskytuje hierarchický obor názvů a kompatibilitu s Hadoopem, díky kterému je vhodný pro rozsáhlé projekty analýzy dat.

  • Azure Table Storage: Ukládá hodnoty klíčů NoSQL pro částečně strukturovaná data a je vhodná pro aplikace, které vyžadují návrh bez schématu.

  • Azure Files Storage: Spravuje sdílené složky v cloudu, ke kterým přistupujete pomocí standardního protokolu SMB, což je užitečné pro potřeby sdíleného úložiště.

  • Azure Queue Storage: Poskytuje zasílání zpráv mezi komponentami aplikace, což je užitečné pro oddělení a škálování služeb.

Poskytnutí dokumentace ke zdroji dat

  • Transparentnost dat: Dokumentace ke zdrojům dat poskytuje transparentnost o tom, odkud data pocházejí, jejich kvalitu a jejich omezení.

  • Reprodukovatelnost: Správná dokumentace pomáhá ostatním členům týmu nebo zúčastněným stranám pochopit a reprodukovat proces datových věd.

  • Integrace dat: Integrace dat znamená efektivní integraci různých zdrojů dat tím, že poskytuje jasné porozumění původu a struktuře dat.

Integrace dokumentace ke zdroji dat v rámci TDSP

Azure obsahuje mnoho prostředků, které můžete použít pro dokumentaci ke zdroji dat, včetně poznámkových bloků. Následující seznam obsahuje doporučené prostředky pro architektury Azure.

Azure Data Catalog je katalog metadat na podnikové úrovni, který usnadňuje zjišťování datových assetů. Pomáhá dokumentovat zdroje dat a jejich charakteristiky a poskytuje následující výhody:

  • Správa metadat: Umožňuje uživatelům registrovat zdroje dat a přidávat metadata, která zahrnují popisy, značky a poznámky.

  • Zjišťování zdrojů dat: Poskytuje prohledávatelný katalog, který umožňuje uživatelům najít a pochopit zdroje dat, které jsou dostupné v rámci organizace.

  • Spolupráce: Umožňuje uživatelům sdílet přehledy a dokumentaci ke zdrojům dat, což zlepšuje spolupráci mezi členy týmu.

  • Informace o zdroji dat: Automaticky extrahuje a dokumentuje informace o zdrojích dat. Informace, které extrahuje, zahrnují schémata, tabulky, sloupce a relace.

Azure Purview poskytuje jednotnou službu zásad správného řízení dat, která pomáhá spravovat a řídit data v celé organizaci. Poskytuje následující funkce:

  • Mapování a rodokmen dat: Pomáhá zdokumentovat tok dat a rodokmen napříč různými systémy, což poskytuje jasný přehled o tom, odkud data pocházejí a jak se transformují.

  • Katalog dat: Poskytuje prohledávatelný katalog dat obohacený o metadata a klasifikace dat, což se podobá katalogu Data Catalog v Azure.

  • Obchodní glosář: Pomáhá vytvářet a udržovat obchodní glosář, který udržuje konzistentní terminologii a podporuje porozumění v celé organizaci.

  • Přehledy a analýzy: Poskytuje přehledy o využití dat a pomáhá identifikovat problémy s kvalitou dat, které zlepšují proces dokumentace.

Použití nástrojů pro zpracování analýz

  • Efektivita: Správné nástroje pro zpracování analýz zvyšují efektivitu a rychlost analýzy dat.

  • Možnosti: Různé nástroje nabízejí různé možnosti, jako je vizualizace dat, statistická analýza a strojové učení, které jsou nezbytné pro komplexní datové vědy.

  • Produktivita: Specializované nástroje mohou výrazně zvýšit produktivitu datových vědců tím, že automatizují opakující se úlohy a poskytují pokročilé analytické funkce.

Integrace analytického zpracování v rámci TDSP

Azure má mnoho služeb, které můžete použít ke zpracování analýz, a machine Learning jako primární doporučenou službu. Následující seznam obsahuje doporučené služby pro architektury Azure, které vyžadují funkce nad rámec služby Machine Learning.

Azure Synapse Analytics umožňuje zpracovávat obrovské objemy relačních dat a nerelačních dat. Je to integrovaná analytická služba, která zrychluje čas pro přehledy napříč datovými sklady a systémy pro velké objemy dat. Azure Synapse Analytics poskytuje následující funkce:

  • Integrace dat: Integruje data z různých zdrojů, které umožňují bezproblémový příjem dat a zpracování dat.

  • SQL Data Warehouse: Poskytuje možnosti podnikových datových skladů s vysoce výkonným dotazováním.

  • Apache Spark: Poskytuje fondy Sparku pro zpracování velkých objemů dat, které podporují rozsáhlé analýzy dat a strojové učení.

  • Synapse Studio: Umožňuje datovým vědcům spolupracovat na vytváření komplexních analytických řešení. Synapse Studio je integrované vývojové prostředí (IDE).

Azure Databricks je analytická platforma založená na Apache Sparku optimalizovaná pro Azure, která poskytuje následující funkce:

  • Poznámkové bloky pro spolupráci: Podporuje pracovní prostory pro spolupráci, ve kterých můžou datoví vědci psát kód, spouštět experimenty a sdílet výsledky.

  • Škálovatelné výpočetní prostředky: Škáluje výpočetní prostředky automaticky na základě požadavků na úlohy a optimalizuje náklady a výkon.

  • Strojové učení: Poskytuje integrované knihovny pro strojové učení, včetně knihovny MLlib, TensorFlow a Keras, pro zjednodušení vývoje a trénování modelů.

Data Factory: Orchestruje přesun a transformaci dat prostřednictvím cloudové služby pro integraci dat. Data Factory podporuje následující funkce:

  • Kanály ETL: Umožňuje vytvářet kanály ETL (extrakce, transformace, načítání) pro zpracování a přípravu dat pro analýzu.

  • Tok dat: Poskytuje vizuální vytváření toků dat pro návrh a spouštění procesů transformace dat bez psaní kódu.

  • Integrace: Umožňuje připojení k široké škále zdrojů dat, včetně místních a cloudových úložišť dat. Tato funkce poskytuje komplexní integraci dat.

Azure Stream Analytics zpracovává datové proudy s rychlým přesunem. Stream Analytics je analytická služba v reálném čase, která poskytuje následující funkce:

  • Zpracování datových proudů: Zpracovává data z různých zdrojů, jako jsou zařízení IoT, senzory a aplikace v reálném čase.

  • Dotazování založené na SQL: Používá známý jazyk SQL pro definování logiky zpracování datových proudů, aby byl přístupný datovým vědcům.

  • Integrace: Integruje se s dalšími službami Azure, jako jsou Event Hubs a IoT Hub, a umožňuje tak bezproblémový příjem a zpracování dat.

Shrnutí

Tento sekvenční seznam vám pomůže komplexně připravit na použití TDSP:

  1. Jasně porozumět požadavkům a rozsahu projektu.

  2. Přijměte strukturovaný přístup a přístup pro spolupráci při provádění projektu.

  3. Používejte pokročilé nástroje a služby pro strojové učení a analýzy.

  4. Zajistěte efektivní a zabezpečenou správu dat.

  5. Udržujte transparentnost a reprodukovatelnost prostřednictvím dokumentace.

  6. Pomocí vhodných nástrojů můžete zvýšit efektivitu a efektivitu zpracování dat.

Příprava je důležitá pro poskytování úspěšných projektů datových věd, které splňují obchodní cíle a dodržují osvědčené postupy.

Školicí programy v Microsoft Learn

Ať už teprve začínáte kariéru, nebo jste zkušený profesionál, náš samoobslužný přístup vám pomůže rychleji přistoupit k vašim cílům, s větší jistotou a vlastním tempem. Rozvíjet dovednosti prostřednictvím interaktivních modulů a cest nebo se učit od instruktora. Naučte se a zvětšujte svůj způsob.

Microsoft Learn organizuje svůj trénovací obsah do tří úrovní dovedností: začátečník, středně pokročilý a pokročilý. Pochopení těchto rozdílů je nezbytné pro výběr vhodných studijních programů tak, aby odpovídaly vašim dovednostem a cílům kariéry.

Začátečník

  • Cílová skupina: Jednotlivci, kteří s technologií nebo koncepty novinkou nejsou.
  • Obsah: Základní úvod do konceptů, základních dovedností a počátečních kroků potřebných k zahájení práce. Obvykle se zabývá základními principy a základními znalostmi.

Účel:

  • Vytvoření pevného základu v nové oblasti
  • Pomoc s pochopením základních konceptů a terminologie
  • Příprava learnerů na složitější články

Studijní programy pro začátečníky

Středně pokročilý

  • Cílová skupina: Jednotlivci, kteří mají základní znalosti o technologii a chtějí prohlubovat své znalosti.
  • Obsah: Podrobnější a praktické dovednosti, včetně praktických cvičení a scénářů z reálného světa. Vyžaduje hlubší ponořit se do předmětu.

Účel:

  • Překlenout mezeru mezi základním porozuměním a pokročilou odborností
  • Povolení učení pro zpracování složitějších úloh a scénářů
  • Příprava učení na certifikační zkoušky nebo specializované role

Studijní programy pro středně pokročilé

Rozšířený

  • Cílová skupina: Zkušení profesionálové, kteří chtějí zdokonalit své dovednosti a řešit složité, vysoké úkoly.
  • Obsah: Hloubkové technické školení, pokročilé techniky a komplexní pokrytí specializovaných předmětů. Často zahrnuje strategie řešení problémů a optimalizace na úrovni odborníků.

Účel:

  • Poskytování odborných znalostí v konkrétní oblasti
  • Příprava učení na certifikaci na úrovni expertů a pokročilých rolí kariéry
  • Umožnit posluchačům vést projekty a inovovat v rámci své oblasti

Studijní program expertů

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky

Pokračujte na cestě k umělé inteligenci v centru výuky AI.