návrhy řešení
Tento článek popisuje myšlenku řešení. Váš cloudový architekt může pomocí těchto pokynů vizualizovat hlavní komponenty pro typickou implementaci této architektury. Tento článek slouží jako výchozí bod k návrhu dobře navrženého řešení, které odpovídá konkrétním požadavkům vaší úlohy.
Tento článek popisuje, jak mohou malé a střední firmy (SMB) kombinovat stávající investice do Azure Databricks s plně spravovanou datovou platformou saaS (software jako služba), jako je Microsoft Fabric. Datové platformy SaaS jsou ucelená řešení pro analýzu dat, která se snadno integrují s nástroji, jako jsou Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 a další technologie Microsoftu.
Zjednodušená architektura
stáhnout soubor Visia této architektury.
Interoperabilita mezi Azure Databricks a Microsoft Fabric poskytuje robustní řešení, které minimalizuje fragmentaci dat a vylepšuje analytické možnosti.
Microsoft Fabric poskytuje otevřené a řízené datové jezero s názvem OneLake jako podkladové úložiště SaaS. OneLake používá formát Delta Parquet, což je stejný formát jako Azure Databricks. Pokud chcete získat přístup k datům Azure Databricks z OneLake, můžete použít zástupce OneLake v prostředcích infrastruktury nebo zrcadlit katalog Azure Databricks Unity v prostředcích infrastruktury. Tato integrace umožňuje rozšířit analytické systémy Azure Databricks o generování umělé inteligence nad OneLake.
Režim Direct Lake můžete také použít v Power BI na datech Azure Databricks ve OneLake. Režim Direct Lake zjednodušuje obslužnou vrstvu a zlepšuje výkon sestavy. OneLake podporuje rozhraní API pro Azure Data Lake Storage a ukládá všechna tabulková data ve formátu Delta Parquet.
V důsledku toho můžou poznámkové bloky Azure Databricks používat koncové body OneLake pro přístup k uloženým datům. Prostředí je stejné jako přístup k datům prostřednictvím skladu Microsoft Fabric. Tato integrace umožňuje používat Prostředky infrastruktury nebo Azure Databricks, aniž byste museli změnit tvar dat.
Architektura
stáhnout soubor Visia této architektury.
Dataflow
Azure Data Factory: Použít existující kanály Azure Data Factory k ingestování strukturovaných a nestrukturovaných dat ze zdrojových systémů a jejich umístění do stávajícího datového jezera.
Microsoft Dynamics 365: Zdroje dat Microsoft Dynamics 365 můžete použít k vytváření centralizovaných řídicích panelů BI na rozšířených datových sadách pomocí Azure Synapse Linku nebo Microsoft Fabric Linku. Zaveďte sloučená a zpracovávaná data zpět do Microsoft Dynamics 365 a Power BI pro další analýzu.
ingestování streamovaných dat: Streamovaná data je možné ingestovat prostřednictvím služby Azure Event Hubs nebo Azure IoT Hubs v závislosti na protokolech, které se používají k odesílání těchto zpráv.
studená cesta: Streamovaná data můžete přenést do centralizovaného datového jezera pro další analýzu, úložiště a vytváření sestav pomocí Azure Databricks. Tato data je pak možné sjednocovat s dalšími zdroji dat pro dávkovou analýzu.
horká cesta: Streamovaná data je možné analyzovat v reálném čase a řídicích panelech v reálném čase prostřednictvím Microsoft Fabric Real-Time Intelligence.
Azure Databricks: Stávající poznámkové bloky Azure Databricks je pak možné použít k čištění, sjednocení a analýz dat jako obvykle. Zvažte použití architektury medailiónu, například:
Bronzová, která obsahuje nezpracovaná data.
Silver, který obsahuje vyčištěná, filtrovaná data.
Gold, který ukládá agregovaná data, která jsou užitečná pro obchodní analýzy.
zlatých dat nebo datového skladu: Pro zlatá data nebo datový sklad používejte Azure Databricks SQL nebo vytvořte zrcadlení katalogu Azure Databricks Unity v Microsoft Fabric. Snadno vytvářet řídicí panely založené na bezserverové analýze dat ve službě Fabric Lakehouses bez nutnosti nastavení pomocí sémantických modelů Power BI, které se automaticky vytvářejí pro všechny fabricské jezera. Datový sklad infrastruktury je také možné použít jako zlatou vrstvu, pokud analytické požadavky vyžadují rychlejší výpočetní prostředky.
Mezi nástroje používané pro zásady správného řízení, spolupráci, zabezpečení, výkon a monitorování nákladů patří:
Zjišťování a řízení
Microsoft Purview poskytuje služby zjišťování dat, klasifikaci citlivých dat a přehledy zásad správného řízení napříč datovými aktivy.
Katalog Unity poskytuje centralizované možnosti řízení přístupu, auditování, rodokmenu a zjišťování dat v pracovních prostorech Azure Databricks.
Azure DevOps poskytuje kontinuální integraci a průběžné nasazování a další integrované funkce správy verzí.
Azure Key Vault spravuje tajné kódy, klíče a certifikáty.
ID Microsoft Entra poskytuje uživatelům Azure Databricks jednotné přihlašování. Azure Databricks podporuje automatizované zřizování uživatelů s ID Microsoft Entra pro:
Vytvořte nové uživatele.
Přiřaďte každému uživateli úroveň přístupu.
Odeberte uživatele a odepřete jim přístup.
Azure Monitor shromažďuje a analyzuje telemetrii prostředků Azure. Tato služba maximalizuje výkon a spolehlivost tím, že proaktivně identifikuje problémy.
Microsoft Cost Management poskytuje služby finančního řízení pro úlohy Azure.
Součásti
Data Lake Storage je škálovatelná služba úložiště dat navržená pro strukturovaná a nestrukturovaná data. V této architektuře služba Data Lake Storage slouží jako základní infrastruktura pro Delta Lake. Je to primární vrstva úložiště pro nezpracovaná a zpracovávaná data, která umožňují efektivní příjem dat, ukládání a načítání pro úlohy analýzy a strojového učení.
azure Data Factory je cloudová služba pro integraci dat, která orchestruje a automatizuje přesun a transformaci dat. Azure Data Factory slouží k vytváření, plánování a orchestraci datových kanálů, které přesouvají a transformují data napříč různými úložišti dat a službami. Pomáhá zajistit bezproblémový tok dat a integraci.
služba Event Hubs je služba pro příjem dat v reálném čase, která může zpracovávat miliony událostí za sekundu z libovolného zdroje. V této architektuře služba Event Hubs zaznamenává a streamuje velké objemy dat z různých zdrojů, aby bylo možné provádět analýzy v reálném čase a zpracování řízené událostmi.
azure IoT Hub je spravovaná služba, která zlepšuje zabezpečení a spolehlivou komunikaci mezi zařízeními IoT a cloudem. Azure IoT Hub usnadňuje příjem, zpracování a analýzu telemetrických dat ze zařízení IoT, aby poskytoval přehledy v reálném čase a umožňoval vzdálené monitorování.
Microsoft Dataverse je škálovatelná datová platforma, pomocí které můžou organizace bezpečně ukládat a spravovat data, která obchodní aplikace používají. V této architektuře se odkazuje jako na potenciální zdroj dat.
Azure Synapse Link spojuje aplikace Dynamics se službou Azure Synapse Analytics nebo Data Lake Storage. V této architektuře se používá ke kopírování dat téměř v reálném čase z Dataverse do Data Lake Storage.
Microsoft Fabric Link spojuje aplikace Dynamics s Microsoft Fabric. V této architektuře se používá k replikaci dat z Dataverse do Microsoft Fabric téměř v reálném čase.
azure Databricks je analytická platforma založená na Apache Sparku. Azure Databricks se používá ke zpracování velkých objemů dat, strojovému učení a úlohám přípravy dat. Tato platforma poskytuje pracovní prostor pro spolupráci pro datové vědce a techniky.
Delta Lake je opensourcová vrstva úložiště, která přináší transakce ACID do Úloh Apache Sparku a velkých objemů dat. Delta Lake se používá k poskytování této funkce službě Data Lake Storage.
Azure Databricks SQL je analytická služba založená na SQL, která uživatelům umožňuje spouštět dotazy SQL na data uložená v Azure Databricks. V této architektuře poskytuje Azure Databricks SQL výkonné rozhraní SQL pro dotazování a analýzu dat, které umožňuje interaktivní a ad hoc analýzu.
AI a Machine Learning zahrnuje celou řadu technologií a služeb, které umožňují vývoj, nasazení a správu modelů strojového učení. Služby AI a Machine Learning slouží k vytváření, trénování a nasazování prediktivních modelů. Tato funkce umožňuje rozhodování řízené daty.
katalogu Unity je řešení zásad správného řízení dat, které poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat v pracovních prostorech Databricks. Katalog Unity pomáhá zajistit zásady správného řízení a zabezpečení dat tím, že poskytuje podrobné řízení přístupu, auditování a sledování rodokmenu dat.
architekturu medallionského jezera je vzor architektury dat, který organizuje data do bronzových, stříbrných a zlatých vrstev pro efektivní zpracování a analýzu dat. Tento model architektury se zde implementuje pomocí Služby Data Lake Storage, Delta Lake a Azure Databricks, která umožňuje škálovatelné a efektivní zpracování a analýzu dat.
Microsoft Fabric je komplexní datová platforma, která integruje různé datové služby a nástroje pro zajištění bezproblémové správy a analýzy dat. Microsoft Fabric propojuje a integruje data z více zdrojů, což umožňuje komplexní analýzu dat a přehledy v celé organizaci.
Real-Time Intelligence je funkce pro zpracování dat, která organizacím umožňuje ingestovat, zpracovávat a analyzovat data v reálném čase. Real-Time Intelligence zpracovává streamovaná data z různých zdrojů. Poskytuje přehledy v reálném čase a umožňuje automatizované akce založené na vzorech dat.
zástupce OneLake vytvořit místní propojení mezi OneLake a jiným zdrojem dat. Klávesové zkratky OneLake slouží ke zjednodušení přístupu k datům a správě, což poskytuje jednotné zobrazení dat v celé organizaci.
Power BI je služba pro obchodní analýzy, která poskytuje interaktivní vizualizace a možnosti business intelligence. Má jednoduché rozhraní, které uživatelům umožňuje vytvářet vlastní interaktivní sestavy a řídicí panely. Tyto nástroje umožňují vizualizaci dat a přehledy pro firemní uživatele.
Microsoft Purview je sjednocená služba zásad správného řízení dat, která organizacím pomáhá spravovat a řídit svá data napříč různými zdroji. Microsoft Purview poskytuje možnosti katalogu dat, sledování rodokmenu a zásad správného řízení dat. Tyto funkce pomáhají zajistit dodržování předpisů a zabezpečení dat v celé organizaci.
- Připojení ke službě Azure Databricks Unity Catalog a správa: Katalog Unity můžete integrovat do Purview pro přístup k metadatům katalogu Unity z Purview.
Microsoft Entra ID je cloudové řešení pro správu identit a přístupu, které pomáhá zajistit zabezpečené přihlašování a přístup k prostředkům, jako je Microsoft 365, Azure a další aplikace SaaS. V této architektuře poskytuje Microsoft Entra ID zabezpečenou správu identit a přístupu pro prostředky Azure. Tato funkce umožňuje zabezpečené přihlašování, spravuje identity uživatelů a pomáhá zajistit, aby byl přístup k datům a prostředkům autorizovaný.
microsoft Cost Management je sada nástrojů FinOps, které mohou organizace použít k analýze, monitorování a optimalizaci nákladů na Microsoft Cloud. Tyto nástroje poskytují finanční zásady správného řízení nad prostředky Azure v této architektuře.
key Vault je cloudová služba, která ukládá a spravuje tajné kódy, jako jsou klíče rozhraní API, hesla, certifikáty a kryptografické klíče. Tato služba umožňuje uživatelům a aplikacím bezpečně přistupovat k těmto tajným kódům. Při ukládání klíčů a tajných kódů ve službě Key Vault je můžete spravovat na jednom místě. V této architektuře může Azure Databricks načítat tajné kódy ze služby Key Vault pro ověřování a přístup ke službě Data Lake Storage. Tento proces pomáhá zajistit zabezpečenou a bezproblémovou integraci mezi těmito službami.
azure Monitor je komplexní monitorovací služba, která poskytuje úplnou pozorovatelnost pro aplikace, infrastrukturu a sítě. Azure Monitor umožňuje uživatelům shromažďovat, analyzovat a reagovat na telemetrická data ze svých azure a místních prostředí, aby proaktivně identifikovali problémy a maximalizovali výkon a spolehlivost.
Azure DevOps je sada vývojových nástrojů, které podporují jazykovou verzi pro spolupráci a zjednodušené procesy. Tyto nástroje umožňují vývojářům, projektovým manažerům a přispěvatelům vyvíjet software efektivněji. Azure DevOps poskytuje integrované funkce, jako jsou Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans a Azure Artifacts. K těmto funkcím můžete přistupovat prostřednictvím webového prohlížeče nebo integrovaného klienta vývojového prostředí.
GitHub je cloudová služba pro hostování úložišť Git, která vývojářům zjednodušuje správu verzí a spolupráci. Umožňuje jednotlivcům a týmům ukládat a spravovat kód, sledovat změny a spolupracovat na projektech pomocí Gitu. Uživatelsky přívětivé rozhraní GitHubu zpřístupňuje Git kódovačům všech úrovní dovedností. K implementaci postupů DevOps můžete použít Azure DevOps a GitHub. Tyto postupy vynucují automatizaci a dodržování předpisů v kanálech vývoje a nasazení úloh pro Azure Data Factory, Azure Databricks a Microsoft Fabric.
Alternativy
Pokud chcete vytvořit nezávislé prostředí Microsoft Fabric, přečtěte si téma Greenfield lakehouse v Microsoft Fabric.
Pokud chcete migrovat místní analytické prostředí SQL do Microsoft Fabric, podívejte se na moderních datových skladů pro malé a středně velké firmy.
Alternativy služeb v rámci této architektury
dávkového příjmu dat
- Volitelně můžete místo kanálů Data Factory použít datového kanálu
Fabric pro integraci dat. Volba závisí na několika faktorech. Další informace najdete v tématu Získání z Azure Data Factory do služby Data Factory v Microsoft Fabric.
- Volitelně můžete místo kanálů Data Factory použít datového kanálu
microsoft Dynamics 365 pro příjem dat
Pokud jako službu Data Lake Storage používáte Azure Data Lake a chcete ingestovat data Dataverse, použijte Azure Synapse Link pro Dataverse s Azure Data Lake. Informace o dynamics Finance and Operations najdete v tématu FnO Azure Synapse Link pro službu Dataverse.
Pokud jako službu Data Lake Storage používáte Microsoft Fabric Lakehouse, přečtěte si téma Fabric Link.
streamování příjmu dat
- Rozhodnutí mezi Azure IoT a Event Hubs závisí na zdroji streamovaných dat, jestli je potřeba klonování a obousměrná komunikace se zařízeními pro generování sestav a požadované protokoly. Další informace najdete v tématu porovnání ioT Hubu a služby Event Hubs.
Lakehouse - Microsoft Fabric Lakehouse je jednotnou platformou architektury dat pro správu a analýzu strukturovaných a nestrukturovaných dat v otevřeném formátu, který primárně používá soubory Delta Parquet. Podporuje dva typy úložiště. Tyto typy úložišť jsou spravované tabulky, jako jsou CSV, Parquet nebo Delta a nespravované soubory. Spravované tabulky se rozpoznají automaticky. Nespravované soubory vyžadují explicitní vytvoření tabulky. Platforma umožňuje transformace dat prostřednictvím koncových bodů Sparku nebo SQL a bezproblémově se integruje s dalšími komponentami Microsoft Fabric. Tato bezproblémová integrace umožňuje sdílení dat bez duplikace. Tento koncept je v souladu s běžnou architekturou medallionu, která se používá v analytických úlohách. Další informace naleznete v tématu Lakehouse v Microsoft Fabric.
analýzy v reálném čase
azure Databricks
- Pokud máte existující řešení Azure Databricks, možná budete chtít dál používat strukturované streamování pro analýzy v reálném čase. Další informace najdete v tématu Streamování v Databricks.
Microsoft Fabric
Pokud jste v minulosti použili jiné služby Azure k analýze v reálném čase nebo nemáte žádné existující řešení analýzy v reálném čase, přečtěte si téma Analýza prostředků infrastruktury v reálném čase a řešení streamování Azure.
Strukturované streamování Microsoft Fabric používá strukturované streamování Sparku ke zpracování a ingestování živých datových proudů jako nepřetržitě připojených tabulek. Strukturované streamování podporuje různé zdroje souborů, jako jsou CSV, JSON, ORC, Parquet a služby zasílání zpráv, jako jsou Kafka a Event Hubs. Tento přístup zajišťuje škálovatelné zpracování datových proudů odolných proti chybám, které optimalizuje produkční prostředí s vysokou propustností. Další informace najdete v tématu strukturované streamování Microsoft Fabric Spark.
přípravy dat
- K zápisu poznámkových bloků Sparku použijte Microsoft Fabric nebo Azure Databricks. Další informace naleznete v tématu Jak používat poznámkové bloky Microsoft Fabric. Informace o tom, jak poznámkové bloky Fabric porovnávají s tím, co Azure Synapse Spark poskytuje, najdete v tématu Porovnání přípravy dat prostředků infrastruktury a azure Synapse Sparku. Další informace o poznámkových blocích Azure Databricks najdete v tématu Úvod do poznámkových bloků Databricks.
datového skladu nebo zlaté vrstvy - K vytvoření skladu založeného na SQL nebo zlaté vrstvě můžete použít Microsoft Fabric nebo Azure Databricks. Průvodce rozhodováním o tom, jak zvolit řešení úložiště datového skladu nebo zlaté vrstvy v rámci Microsoft Fabric, najdete v průvodci rozhodováním k Microsoft Fabricu: zvolte úložiště dat. Další informace o typech SQL Warehouse v Azure Databricks najdete v tématu typy SQL Warehouse.
datových věd
Pro možnosti datových věd použijte Microsoft Fabric nebo Azure Databricks. Další informace o nabídce Microsoft Fabric Pro datové vědy najdete v tématu Co je datové vědy v Microsoft Fabric?. Další informace o nabídce Azure Databricks najdete v tématu AI a strojové učení vDatabricks .
Datové vědy Microsoft Fabric se liší od strojového učení. Machine Learning poskytuje komplexní řešení pro správu pracovních postupů a nasazování modelů strojového učení. Datové vědy Microsoft Fabric jsou přizpůsobené scénáři analýzy a vytváření sestav.
Power BI
Azure Databricks, integrovaný s Power BI, umožňuje bezproblémové zpracování a vizualizaci dat. Další informace najdete v tématu Připojení Power BI k Azure Databricks.
Zrcadlení katalogu Azure Databricks Unity v prostředcích infrastruktury umožňuje přístup k datům spravovaným službou Azure Databricks Unity Catalog přímo z úlohy Fabric. Další informace najdete v tématu Zrcadlení katalogu Azure Databricks Unity.
Vytvořte zástupce ze služby Data Lake Storage s Delta Lake do Microsoft Fabric One Lake. Další informace najdete v tématu Integrace katalogu Databricks Unity s OneLake. Tato data můžete dotazovat z Power BI pomocí režimu Direct Lake bez kopírování dat do služby Power BI. Další informace najdete v tématu režimu Direct Lake.
Podrobnosti scénáře
Z tohoto modelu můžou těžit malé a střední firmy, které mají stávající prostředí Azure Databricks, a volitelně i architekturu jezera. V současné době používají nástroj pro extrakci, transformaci a načítání Azure, jako je Azure Data Factory, a obsluhují sestavy v Power BI. Můžou ale mít také více zdrojů dat, které používají různé vlastní formáty dat ve stejném datovém jezeře, což vede k duplikaci dat a obavám ohledně uzamčení dodavatele. Tato situace může komplikovat správu dat a zvýšit závislost na konkrétních dodavatelích. Mohou také vyžadovat up-to- datum a téměř v reálném čase generování sestav pro rozhodování a zajímá se o přijetí nástrojů AI v celém jejich prostředí.
Microsoft Fabric je otevřená, sjednocená a řízená nadace SaaS, kterou můžete použít k:
Používejte OneLake k ukládání, správě a analýze dat v jednom umístění bez obav o uzamčení dodavatele.
Rychlejší inovace s využitím integrací do aplikací Microsoftu 365
Získejte rychlý přehled o výhodách režimu Direct Lake v Power BI.
Využijte výhod z copilotů v každém prostředí Microsoft Fabric.
Urychlete analýzu vývojem modelů AI na jednom základu.
Udržujte data na místě bez pohybu, což zkracuje dobu, po kterou datoví vědci potřebují poskytnout hodnotu.
Přispěvatelů
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autoři:
- Bonita Rui | Architekt cloudového řešení
- Naren Jogendran | Architekt cloudového řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Studijní programy pro datové inženýry
- Microsoft Fabric – Začínáme s cestou MSLearn
- Microsoft Fabric – moduly MSLearn
- Vytvoření účtu úložiště pro Data Lake Storage
- rychlý start ke službě Event Hubs – Vytvoření centra událostí pomocí webu Azure Portal
- Co je architektura jezera v medailiónu?
- Co je to jezero v Microsoft Fabric?
Související prostředek
-
Data Lakes