Co je datový produkt?
Každá aplikace vytváří a ukládá data dočasně nebo trvale. Mnoho aplikací také vytváří a ukládá data pro účely provozní správy, jako je protokolování chyb a monitorování stavu. K využívání a zpracování dat, která tyto aplikace vytvářejí, používají centralizované datové týmy procesy extrakce, transformace a načítání (ETL). Provozní týmy aplikací často mají další toky zpracování dat pro data, jako jsou data o stavu aplikace a data monitorování stavu klíčových ukazatelů výkonu.
Pro integraci dat není ideální tradiční vodopádový přístup, ve kterém týmy sledují konkrétní pořadí fází. Může vést k rozdílům ve znalostech, problémům s vlastnictvím a konfliktům komunikace, které ovlivňují kvalitu, aktuálnost a hodnotu vašich dat pro uživatele. Týmy aplikací zodpovídají za výkon a úspěch aplikace. Když používají vodopádový přístup, dělají změny v následných procesech, které vlastní ostatní týmy. Tyto změny můžou někdy ovlivnit jiné oblasti. Například menší upstreamová změna může výrazně změnit trend klíčového ukazatele výkonu. Tyto konflikty můžou ovlivnit vaši schopnost provádět kritická rozhodnutí.
Data jako produkt
Aby se těmto problémům zabránilo, přístup datové sítě
Datové produkty se vytvářejí speciálně pro analytickou spotřebu. Definovaly a odsouhlasily obrazce, rozhraní spotřeby a cykly údržby a aktualizace, z nichž všechny jsou zdokumentované.
Datové produkty jsou zpracovávány jako datové prostředky domény nebo datové sady, které můžete sdílet s následnými procesy prostřednictvím rozhraní v rámci servisní úrovně SLO. Pokud není vyžadováno jinak, měli byste zpracovávat, tvarovat, vyčistit, agregovat a normalizovat nezpracovaná data tak, aby splňovala schválené standardy kvality, než je zpřístupníte pro použití.
Následující části popisují společné charakteristiky dobrých datových produktů.
Vlastnosti datového produktu
Ujistěte se, že vaše datové produkty jsou:
Dohledatelné, srozumitelné a důvěryhodné. Chcete-li poskytnout zjistitelnost a srozumitelnost, sdílet a aktualizovat informace o jednotlivých datových produktech, jejich datech, jejich významu, formátu obrazce dat a cyklu aktualizace. Oznamte změny dat nebo změny formátu koncovým uživatelům včas. Aby byla zajištěna důvěryhodnost, rozhraní poskytují časově ohraničenou zpětnou kompatibilitu obrazců datového produktu.
Adresovatelné, nativně přístupné a zabezpečené. Pokud chcete zajistit adresovatelnost, vytvořte definované procesy pro vyhledání a získání přístupu k jednotlivým datovým produktům. Implementujte bezpečnostní opatření pro různé požadavky na přístup. Změňte své myšlení o vlastnictví datové domény z toho, že data střežíte jako strážní, na to, že je obsluhujete s dobře definovanými bezpečnostními opatřeními. Dobře zdokumentovaná přístupová rozhraní se můžou lišit v různých technologiích. Běžně používaná rozhraní pro nativně přístupné datové produkty zahrnují rozhraní API, uživatele databáze, tabulky nebo zobrazení a soubory s nezbytnými přístupovými právy.
Interoperabilní, pravdivý a cenný. Pokud chcete zajistit interoperabilitu, zajistěte, aby vaše data odpovídala definovaným běžným standardům, jako jsou hodnoty se stejným názvem a datovým typem. Můžete například pojmenovat sloupec, který obsahuje identifikační údaje zákazníka ID zákazníka v každém datovém produktu a jeho data můžou být vždy celé číslo. Datové produkty poskytují zákazníkům hodnotu a můžete je použít jako nadřazené zdroje pro nové datové produkty ve stejné doméně nebo v různých doménách. Nemůžete ale jenom přenášet a kopírovat stejný datový produkt na více místech. Každý datový produkt, který pochází z předchozího datového produktu, by měl poskytovat pro podřízené spotřebitele novou hodnotu a informace. Datové produkty musí také poskytovat pravdivá a přesná data.
Používejte dobře navržené, dobře udržované datové produkty a jejich rozhraní, abyste se vyhnuli duplikování dat a vytvořili nativní jediný zdroj pravdy.
Doporučení k návrhu datových produktů
Aby vaše doménové týmy splnily požadavky na poskytování datových produktů, musí získat novou sadu dovedností a používat nové nástroje a platformy.
Pokud chcete vytvářet datové aplikace a vytvářet nebo obsluhovat datové produkty, plně vybavit týmy doménových aplikací. Vaše týmy můžou k vytváření datových produktů používat známý technologický stack. Mohou také chtít mít vlastní instanci Sparku nebo vlastní procesní stroj. Například velká doména, která obsluhuje mnoho datových produktů, může zpracovávat a obsluhovat datové produkty z vlastní instance Azure Synapse Analytics. Menší organizace a menší domény velkých organizací můžou vyvíjet a spouštět své datové aplikace na sdílené platformě, jako je centrálně umístěná služba Azure Data Factory, Azure Synapse Analytics nebo instance Azure Databricks.
Ujistěte se, že datové produkty mají společné charakteristiky popsané v tomto článku, že úložiště rodokmenu odráží rodokmen vaší datové aplikace a řídíte implementaci a přístup.
Následující diagram znázorňuje ukázkové logické rozložení aplikace dat v doméně a cílové zóně.