Rozsah platformy lakehouse
Moderní architektura platformy AI a dat
Pokud chcete probrat rozsah platformy Databricks Data Intelligence Platform, je užitečné nejprve definovat základní architekturu pro moderní data a platformu AI:
Přehled rozsahu jezerahouse
Platforma Databricks Data Intelligence se zabývá kompletní architekturou moderních datových platforem. Je postavena na architektuře lakehouse a využívá modul pro datové inteligence, který rozumí jedinečným vlastnostem vašich dat. Jedná se o otevřený a jednotný základ pro úlohy ETL, ML/AI a DWH/BI a jako centrální řešení pro správu dat a AI má Katalog Unity.
Personas of the platform framework
Tato architektura se zabývá primárními členy datového týmu (personas), kteří pracují s aplikacemi v rámci:
- Datoví inženýři poskytují datovým vědcům a obchodním analytikům přesná a reprodukovatelná data pro včasné rozhodování a přehledy v reálném čase. Implementují vysoce konzistentní a spolehlivé procesy ETL, aby zvýšily důvěru uživatelů a důvěru v data. Zajišťují, aby data byla dobře integrovaná s různými pilíři firmy a obvykle se řídí osvědčenými postupy softwarového inženýrství.
- Datoví vědci prolínají analytické znalosti a obchodní znalosti a transformují data na strategické přehledy a prediktivní modely. Jsou neslušné při překladu obchodních problémů do řešení řízených daty. Je to tak, že prostřednictvím retrospektivních analytických přehledů nebo prediktivního modelování s výhledem do budoucna. Využívají techniky modelování dat a strojového učení, navrhují, vyvíjejí a nasazují modely, které odhalují vzory, trendy a prognózy z dat. Fungují jako most, převádějí komplexní vyprávění dat na srozumitelné příběhy, což zajistí, aby obchodní účastníci nejen rozuměli doporučením řízeným daty, ale mohli také reagovat na doporučení založená na datech a následně řídit přístup zaměřený na data k řešení problémů v rámci organizace.
- Inženýři strojového učení vedou praktickou aplikaci datových věd v produktech a řešeních vytvářením, nasazováním a údržbou modelů strojového učení. Jejich primární zaměření se zaměřuje na technický aspekt vývoje a nasazení modelů. Technici STROJOVÉho učení zajišťují odolnost, spolehlivost a škálovatelnost systémů strojového učení v živých prostředích a řeší problémy související s kvalitou dat, infrastrukturou a výkonem. Integrací modelů umělé inteligence a strojového učení do provozních obchodních procesů a uživatelských produktů usnadňují využití datových věd při řešení obchodních výzev a zajišťují, aby modely nezůstávali jen ve výzkumu, ale podporují hmatatelnou obchodní hodnotu.
- obchodní analytici a firemní uživatelé: Obchodní analytici poskytují zúčastněným stranám a obchodním týmům užitečná data. Často interpretují data a vytvářejí sestavy nebo jinou dokumentaci pro správu pomocí standardních nástrojů BI. Obvykle jsou prvním kontaktním bodem pro pracovníky, kteří nejsou technickými obchodními uživateli a provozními kolegy, aby mohli rychle analyzovat otázky. Řídicí panely a obchodní aplikace poskytované na platformě Databricks můžou používat přímo podnikoví uživatelé.
- Obchodní partneři jsou důležitými zúčastněnými stranami ve stále více síťovém obchodním světě. Jsou definovány jako společnost nebo jednotlivci, se kterými má firma formální vztah k dosažení společného cíle, a mohou zahrnovat dodavatele, dodavatele, distributory a další partnery třetích stran. Sdílení dat je důležitým aspektem obchodních partnerství, protože umožňuje přenos a výměnu dat, aby se zlepšila spolupráce a rozhodování řízené daty.
Domény architektury platformy
Platforma se skládá z několika domén:
Úložiště: V cloudu se data ukládají hlavně ve škálovatelném, efektivním a odolném úložišti objektů u poskytovatelů cloudu.
Zásady správného řízení: Možnosti týkající se zásad správného řízení dat, jako je řízení přístupu, auditování, správa metadat, sledování rodokmenu a monitorování pro všechna data a prostředky AI.
Modul AI: Modul AI poskytuje možnosti generování umělé inteligence pro celou platformu.
Ingestování a transformace: Možnosti pro úlohy ETL
Pokročilá analýza, ML a AI: Všechny funkce související se strojovým učením, AI, generováním AI a také analýzami streamování.
Datový sklad: Doména podporující případy použití DWH a BI.
Automation: správa pracovních postupů pro zpracování dat, strojové učení, analytické kanály, včetně podpory CI/CD a MLOps.
Nástroje ETL &DS: Front-endové nástroje, které datoví inženýři, datoví vědci a technici ML používají primárně pro práci.
Nástroje BI: Front-endové nástroje, které analytici BI primárně používají pro práci.
Spolupráce: Možnosti sdílení dat mezi dvěma nebo více stranami
Rozsah platformy Databricks
Platforma Databricks Data Intelligence Platform a její komponenty lze mapovat na architekturu následujícím způsobem:
Ke stažení: Rozsah komponent Lakehouse - Databricks
Datové úlohy v Azure Databricks
Nejdůležitější je, že platforma Databricks Data Intelligence pokrývá všechny relevantní úlohy pro datovou doménu na jedné platformě a jako modul Apache Spark/Photon :
Ingestování a transformace
Databricks nabízí několik způsobů příjmu dat:
- Databricks LakeFlow Connect nabízí integrované konektory pro příjem dat z podnikových aplikací a databází. Výsledný kanál příjmu dat se řídí katalogem Unity a využívá bezserverové výpočetní funkce a dynamické tabulky Delta.
- Auto Loader přírůstkově a automaticky zpracovává soubory ukládané v cloudovém úložišti v naplánovaných nebo průběžných úkolech – bez nutnosti spravovat informace o stavu. Po ingestování je potřeba nezpracovaná data transformovat, aby byla připravená pro BI a ML/AI. Databricks poskytuje výkonné funkce ETL pro datové inženýry, datové vědce a analytiky.
Delta Live Tables (DLT) umožňuje psát úlohy ETL deklarativním způsobem, což zjednodušuje celý proces implementace. Kvalitu dat lze zlepšit definováním očekávání dat.
Pokročilá analýza, ML a AI
Tato platforma zahrnuje Databricks Mosaic AI, sadu plně integrovaných nástrojů strojového učení a AI pro klasickéstrojové a hluboké učení a také generativní AI a velké jazykové modely (LLM). Zabývá se celým pracovním postupem od přípravy dat až po vytváření modelů strojového učení a hlubokého učení až po obsluhu modelu Mosaic AI.
Strukturované streamování Sparku a DLT umožňují analýzu v reálném čase.
Datový sklad
Platforma Databricks Data Intelligence Má také kompletní řešení datového skladu s Databricks SQL, které centrálně řídí katalog Unity s jemně odstupňovaným řízením přístupu.
funkce umělé inteligence jsou integrované funkce SQL, které umožňují aplikovat AI na data přímo z SQL. Integrace umělé inteligence do analytických pracovních postupů poskytuje přístup k dříve nepřístupným informacím analytikům a umožňuje jim provádět informovanější rozhodnutí, spravovat rizika a udržet konkurenční výhodu prostřednictvím inovací a efektivity řízených daty.
Přehled oblastí funkcí Azure Databricks
Toto je mapování funkcí platformy Databricks Data Intelligence na další vrstvy architektury shora dolů:
Cloudové úložiště
Všechna data pro lakehouse jsou uložená v úložišti objektů poskytovatele cloudu. Databricks podporuje tři poskytovatele cloudu: AWS, Azure a GCP. Soubory v různých strukturovaných a částečně strukturovaných formátech (například Parquet, CSV, JSON a Avro) a nestrukturované formáty (například obrázky a dokumenty) se ingestují a transformují pomocí dávkových nebo streamovacích procesů.
Delta Lake je doporučený formát dat pro lakehouse (transakce souborů, spolehlivost, konzistence, aktualizace atd.) a je zcela open source, aby se zabránilo uzamčení. A Delta Universal Format (UniForm) umožňuje číst tabulky Delta s klienty čtenáře Iceberg.
V platformě Databricks Data Intelligence Platform se nepoužívají žádné proprietární formáty dat.
Správa dat a umělé inteligence
Na úrovni úložiště nabízí katalogu Unity
širokou škálu možností zásad správného řízení dat a umělé inteligence, včetně správy metadat v metastoru,řízení přístupu ,auditování ,zjišťování dat a rodokmen dat .Monitorování Lakehouse poskytuje předefinované metriky kvality pro data a prostředky AI a automaticky generované řídicí panely pro vizualizaci těchto metrik.
Externí zdroje SQL je možné integrovat do lakehouse a katalogu Unity prostřednictvím federace lakehouse.
Modul AI
Platforma data intelligence je postavená na architektuře lakehouse a je vylepšena modulem datové inteligence DatabricksIQ. DatabricksIQ kombinuje generování umělé inteligence s unifikačními výhodami architektury lakehouse, aby porozuměla jedinečné sémantice vašich dat. Inteligentní vyhledávání a Databricks Assistant jsou příklady služeb využívajících AI, které zjednodušují práci s platformou pro každého uživatele.
Orchestrace
Úlohy Databricks umožňují spouštět různé úlohy pro úplná data a životní cyklus AI v jakémkoli cloudu. Umožňují orchestraci úloh a také rozdílové živé tabulky pro SQL, Spark, poznámkové bloky, DBT, modely ML a další.
Nástroje ETL a DS
Ve vrstvě consumption pracují datoví inženýři a inženýři STROJOVÉho učení s platformou pomocí prostředí IDEs. Datoví vědci často dávají přednost poznámkovým blokům a používají moduly runtime ML a AI a systém pracovních postupů strojového učení MLflow ke sledování experimentů a správě životního cyklu modelu.
Nástroje BI
Obchodní analytici obvykle používají k přístupu k datovému skladu Databricks svůj preferovaný nástroj BI. Databricks SQL je možné dotazovat pomocí různých nástrojů analýzy a BI, viz BI a vizualizace.
Kromě toho platforma nabízí nástroje pro dotazování a analýzu předem:
- řídicí panely AI/BI pro přetahování vizualizací dat a sdílení přehledů.
- Odborníci na domény, jako jsou datoví analytici, konfigurují prostory AI/BI Genie s datovými sadami, ukázkovými dotazy a textovými pokyny, které Genie přeloží na analytické dotazy. Po nastavení můžou firemní uživatelé klást otázky a generovat vizualizace, aby porozuměli provozním datům.
- Databricks Apps umožňuje vývojářům vytvářet zabezpečená data a aplikace umělé inteligence na platformě Databricks a sdílet tyto aplikace s uživateli.
- Editor SQL pro analytiky SQL k analýze dat
Spolupráce
Delta Sharing je otevřený protokol vyvinutý Službou Databricks pro zabezpečené sdílení dat s jinými organizacemi bez ohledu na výpočetní platformy, které používají.
Databricks Marketplace je otevřené fórum pro výměnu datových produktů. Pomocí funkce Delta Sharing poskytuje poskytovatelům dat nástroje pro bezpečné sdílení datových produktů a uživatelům dat možnost prozkoumat a rozšířit jejich přístup k datům a datovým službám, které potřebují.
Clean Rooms používají Delta Sharing a bezserverový výpočetní výkon k zajištění zabezpečeného prostředí chránícího osobní údaje, kde mohou různé strany spolupracovat na citlivých podnikových datech bez přímého přístupu k datům ostatních.