Upravit

Sdílet prostřednictvím


Moderní analytická architektura s využitím Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Nápady na řešení

Tento článek popisuje myšlenku řešení. Váš cloudový architekt může pomocí těchto pokynů vizualizovat hlavní komponenty pro typickou implementaci této architektury. Tento článek slouží jako výchozí bod k návrhu dobře navrženého řešení, které odpovídá konkrétním požadavkům vaší úlohy.

Toto řešení popisuje moderní architekturu dat. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami, jako jsou Azure Data Lake Storage Gen2, Microsoft Fabric a Power BI.

Apache® a Apache Spark™ jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

Architektura

Diagram architektury znázorňující, jak moderní architektura dat shromažďuje, zpracovává, analyzuje a vizualizuje data.

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

  1. Azure Databricks ingestuje nezpracovaná streamovaná data ze služby Azure Event Hubs pomocí rozdílových živých tabulek.

  2. Služba Fabric Data Factory načítá nezpracovaná dávková data do Data Lake Storage Gen2.

  3. Úložiště dat:

    • Data Lake Storage Gen2 jsou data všech typů, jako jsou strukturovaná, nestrukturovaná a částečně strukturovaná. Ukládá také dávková a streamovaná data.

    • Delta Lake tvoří kurátorované vrstvy datového jezera. Uloží zpřesněná data v opensourcovém formátu.

    • Azure Databricks dobře funguje s architekturou medallionu, která uspořádá data do vrstev:

      • Bronzová: Uchovává nezpracovaná data.
      • Silver: Obsahuje vyčištěná, filtrovaná data.
      • Gold: Ukládá agregovaná data, která jsou užitečná pro obchodní analýzy.
  4. Analytická platforma ingestuje data z různorodých dávkových a streamovacích zdrojů. Datoví vědci používají tato data pro tyto úlohy:

    • Příprava dat.
    • Zkoumání dat
    • Příprava modelu
    • Trénování modelu

    MLflow spravuje spouštění parametrů, metrik a sledování modelů v kódu datových věd. Možnosti kódování jsou flexibilní:

    • Kód může být v JAZYCE SQL, Python, R a Scala.
    • Kód může používat oblíbené opensourcové knihovny a architektury, jako jsou Koalas, Pandas a scikit-learn, které jsou předem nainstalované a optimalizované.
    • Odborníci můžou optimalizovat výkon a náklady s využitím výpočetních možností s jedním uzlem a více uzly.
  5. Modely strojového učení jsou k dispozici v několika formátech:

    • Azure Databricks ukládá informace o modelech v registru modelů MLflow. Registr zpřístupňuje modely prostřednictvím dávkových, streamovaných a rozhraní REST API.
    • Řešení může také nasadit modely do webových služeb Azure Machine Learning nebo do služby Azure Kubernetes Service (AKS).
  6. Služby, které pracují s daty, se připojují k jednomu podkladovému zdroji dat, aby se zajistila konzistence. Uživatelé můžou například spouštět dotazy SQL na datové jezero pomocí azure Databricks SQL Warehouses. Tato služba:

    • Poskytuje editor dotazů a katalog, historii dotazů, základní řídicí panel a upozorňování.
    • Používá integrované zabezpečení, které zahrnuje oprávnění na úrovni řádků a sloupců.
    • Ke zrychlení výkonu používá Modul Delta s technologií Photon.
  7. Uživatelé můžou zrcadlit zlaté datové sady z katalogu Databricks Unity do prostředků infrastruktury. zrcadlení Databricks v prostředcích infrastruktury umožňují uživatelům snadnou integraci bez přesunu dat nebo replikace dat.

  8. Power BI generuje analytické a historické sestavy a řídicí panely z sjednocené datové platformy. Tato služba používá tyto funkce při práci s Azure Databricks:

    • Integrovaný konektor Azure Databricks pro vizualizaci podkladových dat
    • Optimalizované ovladače JDBC (Java Database Connectivity) a ODBC (Open Database Connectivity).
    • Díky zrcadlení Databricks v prostředcích infrastruktury můžete využít Direct Lake k načtení sémantických modelů PBI pro dotazy s vyšším výkonem.
  9. Řešení využívá služby Unity Catalog a Azure ke spolupráci, výkonu, spolehlivosti, zásadám správného řízení a zabezpečení:

    • Katalog Unity Databricks poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat v pracovních prostorech Azure Databricks.

    • Microsoft Purview poskytuje služby zjišťování dat, klasifikaci citlivých dat a přehledy zásad správného řízení napříč datovými aktivy.

    • Azure DevOps nabízí kontinuální integraci a průběžné nasazování (CI/CD) a další integrované funkce správy verzí.

    • Azure Key Vault bezpečně spravuje tajné kódy, klíče a certifikáty.

    • Zřizování Microsoft Entra ID a SCIM poskytuje jednotné přihlašování (SSO) pro uživatele a skupiny Azure Databricks. Azure Databricks podporuje automatizované zřizování uživatelů s ID Microsoft Entra pro tyto úlohy:

      • Vytváření nových uživatelů a skupin
      • Přiřazení úrovně přístupu každému uživateli
      • Odebrání uživatelů a odepření přístupu
    • Azure Monitor shromažďuje a analyzuje telemetrii prostředků Azure. Díky proaktivní identifikaci problémů tato služba maximalizuje výkon a spolehlivost.

    • Microsoft Cost Management poskytuje služby finančního řízení pro úlohy Azure.

Komponenty

Řešení používá následující komponenty.

Základní součásti

  • Azure Databricks je platforma pro analýzu dat, která ke zpracování velkých datových proudů používá clustery Spark. Vyčistí a transformuje nestrukturovaná data, kombinuje je se strukturovanými daty a dokáže trénovat a nasazovat modely strojového učení. V této architektuře slouží Databricks jako centrální nástroj pro příjem, zpracování a obsluhu dat a poskytuje jednotné prostředí pro správu celého životního cyklu dat.

  • Azure Databricks SQL Warehouse jsou výpočetní prostředky, které umožňují dotazovat a zkoumat data v Databricks. V této architektuře můžete využít koncové body SQL k přímému připojení k datům z Power BI.

  • azure Databricks Delta Live Tables je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. V této architektuře vám Delta Live Tables pomůže definovat transformace, které budou provádět s daty a spravovat orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb v rámci Databricks.

  • Microsoft Fabric je komplexní analytická a datová platforma navržená pro podniky, které potřebují jednotné řešení. Tato platforma nabízí služby, jako jsou Datové inženýrství, Data Factory, Data Science, Real-Time Analytics, Data Warehouse a Databáze. V této architektuře zrcadlíme tabulky katalogu Unity do prostředků infrastruktury a použijeme Direct Lake v Power BI k lepšímu výkonu.

  • Data Factory v Microsoft Fabric vám umožní používat moderní prostředí pro integraci dat k ingestování, přípravě a transformaci dat z bohaté sady zdrojů dat v Prostředcích infrastruktury. V této architektuře využíváme integrované konektory k několika zdrojům dat pro rychlý příjem dat do ADLS nebo OneLake, kde Databricks později načte a dále transformuje dávková data.

  • služba Event Hubs je plně spravovaná platforma pro streamování velkých objemů dat. Jako platforma jako služba (PaaS) poskytuje možnosti příjmu událostí. V této architektuře služba Event Hubs využívá streamovaná data, ke kterým se Databricks může připojit a zpracovávat pomocí streamovaných dat Sparku nebo delta živých tabulek.

  • Data Lake Storage Gen2 je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analýzy. Zpracovává více petabajtů dat a podporuje stovky gigabitů propustnosti. ADLS může ukládat strukturovaná, částečně strukturovaná a nestrukturovaná data. V této architektuře používáme ADLS k ukládání dávkových i streamovaných dat.

  • Machine Learning je cloudové prostředí, které pomáhá sestavovat, nasazovat a spravovat řešení prediktivní analýzy. Pomocí těchto modelů můžete předpovídat chování, výsledky a trendy. V této architektuře může AML využívat data transformovaná službou Databricks k trénování a odvozování modelů.

  • AKS je vysoce dostupná, zabezpečená a plně spravovaná služba Kubernetes. AKS usnadňuje nasazování a správu kontejnerizovaných aplikací. V této architektuře se AKS využívá k hostování modelů strojového učení v kontejnerizovaném prostředí pro škálovatelné odvozování.

  • Delta Lake je vrstva úložiště, která používá otevřený formát souboru. Tato vrstva běží nad cloudovým úložištěm, jako je Data Lake Storage Gen2. Delta Lake podporuje správu verzí dat, vrácení zpět a transakce pro aktualizaci, odstraňování a slučování dat. V této architektuře delta funguje jako primární formát souboru pro zápis a čtení dat z ADLS.

  • MLflow je opensourcová platforma pro správu životního cyklu strojového učení. Její komponenty monitorují modely strojového učení během trénování a běhu. V této architektuře, podobně jako AML, můžete využít MLflow v Databricks ke správě životního cyklu ML, včetně trénování a odvozování pomocí dat katalogu Unity, která jste právě transformovali v Databricks.

Vytváření sestav a řízení součástí

  • katalogu Unity Databricks poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat v pracovních prostorech Azure Databricks. V této architektuře funguje Katalog Unity jako primární nástroj v Rámci Databricks ke správě a zabezpečení přístupu k datům.

  • Power BI je kolekce softwarových služeb a aplikací. Tyto služby vytvářejí a sdílejí sestavy, které propojují a vizualizují nesouvisející zdroje dat. Společně s Azure Databricks může Power BI poskytovat základní příčinu stanovení a nezpracovanou analýzu dat. V této architektuře se Power BI používá k vytváření řídicích panelů a sestav, které poskytují přehled o datech zpracovávaných službou Databricks a Fabric.

  • Microsoft Purview spravuje místní, multicloudová a softwarová data jako služba (SaaS). Tato služba zásad správného řízení udržuje mapy na šířku dat. Mezi funkce patří automatizované zjišťování dat, klasifikace citlivých dat a rodokmen dat. V této architektuře se Purview používá ke kontrole a sledování přijatých dat v katalogu Unity, prostředcích infrastruktury, Power BI a ADLS.

  • Azure DevOps je platforma pro orchestraci DevOps. Toto SaaS poskytuje nástroje a prostředí pro sestavování, nasazování a spolupráci na aplikacích. V této architektuře se Azure DevOps používá k automatizaci nasazení infrastruktury Azure. Kromě toho můžete využít GitHub pro automatizaci a správu verzí kódu Databricks, abyste mohli lépe spolupracovat, sledovat změny a integrovat se kanály CI/CD.

  • Azure Key Vault ukládá a řídí přístup k tajným kódům, jako jsou tokeny, hesla a klíče rozhraní API. Key Vault také vytváří a řídí šifrovací klíče a spravuje certifikáty zabezpečení. V tomto architecure se AKV používá k ukládání klíčů SAS z ADLS. Tyto klíče se pak použijí v Databricks a dalších službách k ověřování.

  • Microsoft Entra ID nabízí cloudové služby pro správu identit a přístupu. Tyto funkce poskytují uživatelům způsob přihlášení a přístupu k prostředkům. V tomto architecure se Entra ID používá k ověřování a autorizaci uživatelů a služeb v Azure.

  • SCIM umožňuje nastavit zřizování účtu Azure Databricks pomocí ID Microsoft Entra. V této architektuře se používá ke správě uživatelů přistupující k pracovním prostorům Databricks.

  • Azure Monitor shromažďuje a analyzuje data o prostředích a prostředcích Azure. Tato data zahrnují telemetrii aplikací, jako jsou metriky výkonu a protokoly aktivit. V této architektuře se Azure Monitor používá k monitorování stavu výpočetních prostředků v Databricks a Azure Machine Learning a dalších komponentách, které odesílají protokoly do služby Azure Monitor.

  • Microsoft Cost Management spravuje útratu v cloudu. Pomocí rozpočtů a doporučení tato služba organizuje výdaje a ukazuje, jak snížit náklady. V této architektuře se microsoft Cost Management používá k monitorování a řízení nákladů na celé řešení.

Podrobnosti scénáře

Moderní architektury dat splňují tato kritéria:

  • Sjednocení dat, analýz a úloh umělé inteligence
  • Spouštět efektivně a spolehlivě v libovolném měřítku.
  • Poskytuje přehledy prostřednictvím analytických řídicích panelů, provozních sestav nebo pokročilých analýz.

Toto řešení popisuje moderní architekturu dat, která tyto cíle dosahuje. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami. Tyto služby společně poskytují řešení s těmito vlastnostmi:

  • Jednoduché: Sjednocená analýza, datové vědy a strojové učení zjednodušují architekturu dat.
  • Open: Řešení podporuje opensourcový kód, otevřené standardy a otevřené architektury. Funguje také s oblíbenými integrovanými vývojovými prostředími (IDE), knihovnami a programovacími jazyky. Prostřednictvím nativních konektorů a rozhraní API řešení funguje také s širokou škálou dalších služeb.
  • Spolupráce: Datoví inženýři, datoví vědci a analytici spolupracují s tímto řešením. Můžou používat poznámkové bloky pro spolupráci, prostředí IDE, řídicí panely a další nástroje pro přístup k běžným podkladovým datům a jejich analýzu.

Potenciální případy použití

Systém, který Swiss Re Group vytvořil pro své oddělení nemovitostí a neformálního zajištění, toto řešení inspirovalo. Kromě pojišťovacího průmyslu může toto řešení využívat i jakákoli oblast, která pracuje s velkými objemy dat nebo strojové učení. Příkladem může být:

  • Odvětví energetiky
  • Maloobchodní prodej a elektronické obchodování
  • Bankovní a finanční sektor
  • Lékařství a zdravotnictví

Další kroky

Informace o souvisejících řešeních najdete v těchto informacích: