Sdílet prostřednictvím


Rozsah platformy lakehouse

Moderní architektura platformy AI a dat

Pokud chcete probrat rozsah platformy Databricks Data Intelligence Platform, je užitečné nejprve definovat základní architekturu pro moderní data a platformu AI:

Architektura cloudových analýz dat

Přehled rozsahu jezerahouse

Platforma Databricks Data Intelligence se zabývá kompletní architekturou moderních datových platforem. Je postavena na architektuře lakehouse a využívá modul pro datové inteligence, který rozumí jedinečným vlastnostem vašich dat. Jedná se o otevřený a jednotný základ pro úlohy ETL, ML/AI a DWH/BI a jako centrální řešení pro správu dat a AI má Katalog Unity.

Personas of the platform framework

Tato architektura se zabývá primárními členy datového týmu (personas), kteří pracují s aplikacemi v rámci:

  • Datoví inženýři poskytují datovým vědcům a obchodním analytikům přesná a reprodukovatelná data pro včasné rozhodování a přehledy v reálném čase. Implementují vysoce konzistentní a spolehlivé procesy ETL, aby zvýšily důvěru uživatelů a důvěru v data. Zajišťují, aby data byla dobře integrovaná s různými pilíři firmy a obvykle se řídí osvědčenými postupy softwarového inženýrství.
  • Datoví vědci prolínají analytické znalosti a obchodní znalosti a transformují data na strategické přehledy a prediktivní modely. Jsou neslušné při překladu obchodních problémů do řešení řízených daty. Je to tak, že prostřednictvím retrospektivních analytických přehledů nebo prediktivního modelování s výhledem do budoucna. Využívají techniky modelování dat a strojového učení, navrhují, vyvíjejí a nasazují modely, které odhalují vzory, trendy a prognózy z dat. Fungují jako most, převádějí komplexní vyprávění dat na srozumitelné příběhy, což zajistí, aby obchodní účastníci nejen rozuměli doporučením řízeným daty, ale mohli také reagovat na doporučení založená na datech a následně řídit přístup zaměřený na data k řešení problémů v rámci organizace.
  • Inženýři strojového učení vedou praktickou aplikaci datových věd v produktech a řešeních vytvářením, nasazováním a údržbou modelů strojového učení. Jejich primární zaměření se zaměřuje na technický aspekt vývoje a nasazení modelů. Technici STROJOVÉho učení zajišťují odolnost, spolehlivost a škálovatelnost systémů strojového učení v živých prostředích a řeší problémy související s kvalitou dat, infrastrukturou a výkonem. Integrací modelů umělé inteligence a strojového učení do provozních obchodních procesů a uživatelských produktů usnadňují využití datových věd při řešení obchodních výzev a zajišťují, aby modely nezůstávali jen ve výzkumu, ale podporují hmatatelnou obchodní hodnotu.
  • Obchodní analytici umožňují zúčastněným stranám a obchodním týmům provádět užitečná data. Často interpretují data a vytvářejí sestavy nebo jinou dokumentaci pro vedení pomocí standardních nástrojů BI. Obvykle se jedná o kontaktní místo pro pracovníky mimo technické firmy a provozní kolegy, kteří mají dotazy k rychlé analýze.
  • Obchodní partneři jsou důležitými zúčastněnými stranami ve stále více síťovém obchodním světě. Jsou definovány jako společnost nebo jednotlivci, se kterými má firma formální vztah k dosažení společného cíle, a mohou zahrnovat dodavatele, dodavatele, distributory a další partnery třetích stran. Sdílení dat je důležitým aspektem obchodních partnerství, protože umožňuje přenos a výměnu dat, aby se zlepšila spolupráce a rozhodování řízené daty.

Domény architektury platformy

Platforma se skládá z několika domén:

  • Úložiště: V cloudu se data ukládají hlavně ve škálovatelném, efektivním a odolném úložišti objektů u poskytovatelů cloudu.

  • Zásady správného řízení: Možnosti týkající se zásad správného řízení dat, jako je řízení přístupu, auditování, správa metadat, sledování rodokmenu a monitorování pro všechna data a prostředky AI.

  • Modul AI: Modul AI poskytuje možnosti generování umělé inteligence pro celou platformu.

  • Ingestování a transformace: Možnosti pro úlohy ETL

  • Pokročilá analýza, ML a AI: Všechny funkce související se strojovým učením, AI, generováním AI a také analýzami streamování.

  • Datový sklad: Doména podporující případy použití DWH a BI.

  • Orchestrace: Centrální správa pracovních postupů zpracování dat, strojového učení a analytických kanálů.

  • Nástroje ETL &DS: Front-endové nástroje, které datoví inženýři, datoví vědci a technici ML používají primárně pro práci.

  • Nástroje BI: Front-endové nástroje, které analytici BI primárně používají pro práci.

  • Spolupráce: Možnosti sdílení dat mezi dvěma nebo více stranami

Rozsah platformy Databricks

Platforma Databricks Data Intelligence Platform a její komponenty lze mapovat na architekturu následujícím způsobem:

Rozsah jezerahouse

Ke stažení: Rozsah komponent Lakehouse - Databricks

Datové úlohy v Azure Databricks

Nejdůležitější je, že platforma Databricks Data Intelligence pokrývá všechny relevantní úlohy pro datovou doménu na jedné platformě a jako modul Apache Spark/Photon :

  • Ingestování a transformace

    Automatické zavaděče pro příjem dat přírůstkově a automaticky zpracovává soubory cílové v cloudovém úložišti v naplánovaných nebo průběžných úlohách – bez nutnosti spravovat informace o stavu. Po ingestování je potřeba nezpracovaná data transformovat, aby byla připravená pro BI a ML/AI. Databricks poskytuje výkonné funkce ETL pro datové inženýry, datové vědce a analytiky.

    Delta Live Tables (DLT) umožňuje zápis úloh ETL deklarativním způsobem, což zjednodušuje celý proces implementace. Kvalitu dat lze zlepšit definováním očekávání dat.

  • Pokročilá analýza, ML a AI

    Tato platforma zahrnuje Databricks Mosaic AI, sadu plně integrovaných nástrojů strojového učení a AI pro klasické strojové a hluboké učení a také generování AI a velkých jazykových modelů (LLM). Zabývá se celým pracovním postupem od přípravy dat až po vytváření modelů strojového učení a hlubokého učení až po obsluhu modelu Mosaic AI.

    Strukturované streamování Sparku a DLT umožňují analýzu v reálném čase.

  • Datový sklad

    Platforma Databricks Data Intelligence Má také kompletní řešení datového skladu s Databricks SQL, které centrálně řídí katalog Unity s jemně odstupňovaným řízením přístupu.

Přehled oblastí funkcí Azure Databricks

Toto je mapování funkcí platformy Databricks Data Intelligence na další vrstvy architektury shora dolů:

  • Cloudové úložiště

    Všechna data pro lakehouse jsou uložená v úložišti objektů poskytovatele cloudu. Databricks podporuje tři poskytovatele cloudu: AWS, Azure a GCP. Soubory v různých strukturovaných a částečně strukturovaných formátech (například Parquet, CSV, JSON a Avro) a nestrukturované formáty (například obrázky a dokumenty) se ingestují a transformují pomocí dávkových nebo streamovacích procesů.

    Delta Lake je doporučený formát dat pro lakehouse (transakce souborů, spolehlivost, konzistence, aktualizace atd.) a je zcela open source, aby se zabránilo uzamčení. A Delta Universal Format (UniForm) umožňuje číst tabulky Delta s klienty čtenáře Iceberg.

    V platformě Databricks Data Intelligence Platform se nepoužívají žádné proprietární formáty dat.

  • Zásady správného řízení dat

    Katalog Unity nabízí nad vrstvou úložiště širokou škálu možností zásad správného řízení dat, včetně správy metadat v metastoru, řízení přístupu, auditování, zjišťování dat, rodokmenu dat.

    Monitorování Lakehouse poskytuje předefinované metriky kvality pro data a prostředky AI a automaticky generované řídicí panely pro vizualizaci těchto metrik.

    Externí zdroje SQL je možné integrovat do lakehouse a katalogu Unity prostřednictvím federace lakehouse.

  • Modul AI

    Platforma data intelligence je postavená na architektuře lakehouse a je vylepšena modulem datové inteligence DatabricksIQ. DatabricksIQ kombinuje generování umělé inteligence s unifikačními výhodami architektury lakehouse, aby porozuměla jedinečné sémantice vašich dat. Inteligentní vyhledávání a Databricks Assistant jsou příklady služeb využívajících AI, které zjednodušují práci s platformou pro každého uživatele.

  • Orchestrace

    Úlohy Databricks umožňují spouštět různé úlohy pro úplná data a životní cyklus AI v jakémkoli cloudu. Umožňují orchestraci úloh a také rozdílové živé tabulky pro SQL, Spark, poznámkové bloky, DBT, modely ML a další.

  • Nástroje ETL a DS

    Ve vrstvě consumption pracují datoví inženýři a inženýři STROJOVÉho učení s platformou pomocí prostředí IDEs. Datoví vědci často dávají přednost poznámkovým blokům a používají moduly runtime ML a AI a systém pracovních postupů strojového učení MLflow ke sledování experimentů a správě životního cyklu modelu.

  • Nástroje BI

    Obchodní analytici obvykle používají k přístupu k datovému skladu Databricks svůj preferovaný nástroj BI. Databricks SQL je možné dotazovat pomocí různých nástrojů analýzy a BI, viz BI a vizualizace.

    Kromě toho platforma nabízí nástroje pro dotazování a analýzu předem:

    • Řídicí panely pro přetahování vizualizací dat a sdílení přehledů
    • Editor SQL pro analytiky SQL k analýze dat
  • Spolupráce

    Delta Sharing je otevřený protokol vyvinutý Službou Databricks pro zabezpečené sdílení dat s jinými organizacemi bez ohledu na výpočetní platformy, které používají.

    Databricks Marketplace je otevřené fórum pro výměnu datových produktů. Pomocí funkce Delta Sharing poskytuje poskytovatelům dat nástroje pro bezpečné sdílení datových produktů a uživatelům dat možnost prozkoumat a rozšířit jejich přístup k datům a datovým službám, které potřebují.