Prozkoumání úložišť analytických dat

Dokončeno

Existují dva běžné typy analytického úložiště dat.

Datové sklady

Diagram datového skladu s hvězdicovým schématem

Datový sklad je relační databáze, ve které jsou data uložená ve schématu optimalizovaném pro analýzu dat místo transakčních úloh. Data z transakčního úložiště se obvykle transformují do schématu, ve kterém jsou číselné hodnoty uloženy v tabulkách centrálních faktů , které souvisejí s jednou nebo více tabulkami dimenzí , které představují entity, podle kterých lze data agregovat. Tabulka faktů může například obsahovat data prodejních objednávek, která se dají agregovat podle zákazníků, produktů, obchodů a časových dimenzí (například umožňuje snadno najít měsíční celkové tržby za prodej podle produktů pro každý obchod). Tento druh schématu tabulky faktů a dimenzí se nazývá hvězdicové schéma, i když se často rozšiřuje do schématu sněhové vločky přidáním dalších tabulek souvisejících s tabulkami dimenzí, které představují dimenzionální hierarchie (například produkt může souviset s kategoriemi produktů). Datový sklad je skvělou volbou, pokud máte transakční data, která je možné uspořádat do strukturovaného schématu tabulek a chcete je použít k dotazování SQL.

Datová jezera

Diagram datového jezera, ve kterém jsou soubory abstrahovány tabulkami

Data Lake je úložiště souborů, obvykle v distribuovaném systému souborů pro přístup k datům s vysokým výkonem. Technologie, jako je Spark nebo Hadoop, se často používají ke zpracování dotazů na uložené soubory a vracení dat pro vytváření sestav a analýzy. Tyto systémy často používají metodu schématu při čtení k definování tabulkových schémat v částečně strukturovaných datových souborech v bodě, kdy se data čtou pro analýzu, aniž by se při uložení použila omezení. Datová jezera jsou skvělá pro podporu kombinace strukturovaných, částečně strukturovaných a dokonce nestrukturovaných dat, která chcete analyzovat bez nutnosti vynucení schématu při zápisu dat do úložiště.

Hybridní přístupy

Můžete použít hybridní přístup, který kombinuje funkce datových jezer a datových skladů v datovém jezeře. Nezpracovaná data se ukládají jako soubory v datovém jezeře a koncové body analýzy SQL Microsoft Fabric je zveřejňují jako tabulky, které je možné dotazovat pomocí SQL. Když vytvoříte Lakehouse s Microsoft Fabric, vytvoří se automaticky koncový bod analýzy SQL. Datové jezerahouse jsou relativně nový přístup v systémech založených na Sparku a umožňují se prostřednictvím technologií, jako je Delta Lake, které přidávají do Sparku možnosti relačního úložiště, takže můžete definovat tabulky, které vynucují schémata a transakční konzistenci, podporují dávkové načítání a streamování zdrojů dat a poskytují rozhraní SQL API pro dotazování.

Služby Azure pro analytické úložiště

V Azure existuje několik služeb, které můžete použít k implementaci rozsáhlého analytického úložiště, včetně:

Snímek obrazovky s logem Microsoft FabricMicrosoft Fabric je jednotné komplexní řešení pro rozsáhlé analýzy dat. Spojuje několik technologií a možností, které umožňují kombinovat integritu dat a spolehlivost škálovatelného vysoce výkonného relačního datového skladu založeného na SQL Serveru s flexibilitou datového jezera a opensourcového Apache Sparku. Zahrnuje také nativní podporu pro analýzy protokolů a telemetrie pomocí inteligentních funkcí Microsoft Fabric v reálném čase a také integrovaných datových kanálů pro příjem a transformaci dat. Každý produktOvý prostředí Microsoft Fabric má svůj vlastní domov, například domovskou stránku služby Data Factory. Každá domovská stránka prostředků infrastruktury zobrazí položky, které vytvoříte, a mají oprávnění k použití ze všech pracovních prostorů, ke kterým přistupujete. Microsoft Fabric je skvělou volbou, když chcete vytvořit jedno sjednocené analytické řešení.

Snímek obrazovky s logem Azure DatabricksAzure Databricks je implementace Azure oblíbené platformy Databricks. Databricks je komplexní řešení analýzy dat založené na Apache Sparku a nabízí nativní funkce SQL a také clustery Spark optimalizované pro úlohy pro analýzu dat a datové vědy. Databricks poskytuje interaktivní uživatelské rozhraní, prostřednictvím kterého je možné systém spravovat, a data je možné prozkoumat v interaktivních poznámkových blocích. Vzhledem k jejímu společnému použití na několika cloudových platformách můžete zvážit použití Azure Databricks jako analytického úložiště, pokud chcete používat stávající odborné znalosti s platformou nebo pokud potřebujete pracovat v prostředí s více cloudy nebo podporovat cloudové přenosné řešení.

Poznámka:

Každá z těchto služeb může být považována za analytické úložiště dat v tom smyslu, že poskytují schéma a rozhraní, pomocí kterého se data dají dotazovat. V mnoha případech se ale data ve skutečnosti ukládají v datovém jezeře a služba se používá ke zpracování dat a spouštění dotazů. Některá řešení můžou dokonce kombinovat použití těchto služeb. Proces extrakce, načítání a transformace (ELT) pro příjem dat může kopírovat data do datového jezera a pak pomocí jedné z těchto služeb transformovat data a další je dotazovat. Kanál může například použít poznámkový blok spuštěný v Azure Databricks ke zpracování velkého objemu dat v datovém jezeře a pak ho načíst do tabulek v Microsoft Fabric Warehouse.