Prozkoumání úložišť analytických dat
Existují dva běžné typy analytického úložiště dat.
Datové sklady
Datový sklad je relační databáze, ve které jsou data uložená ve schématu optimalizovaném pro analýzu dat místo transakčních úloh. Data z transakčního úložiště se obvykle transformují do schématu, ve kterém jsou číselné hodnoty uloženy v tabulkách centrálních faktů , které souvisejí s jednou nebo více tabulkami dimenzí , které představují entity, podle kterých lze data agregovat. Tabulka faktů může například obsahovat data prodejních objednávek, která se dají agregovat podle zákazníků, produktů, obchodů a časových dimenzí (například umožňuje snadno najít měsíční celkové tržby za prodej podle produktů pro každý obchod). Tento druh schématu tabulky faktů a dimenzí se nazývá hvězdicové schéma, i když se často rozšiřuje do schématu sněhové vločky přidáním dalších tabulek souvisejících s tabulkami dimenzí, které představují dimenzionální hierarchie (například produkt může souviset s kategoriemi produktů). Datový sklad je skvělou volbou, pokud máte transakční data, která je možné uspořádat do strukturovaného schématu tabulek a chcete je použít k dotazování SQL.
Datová jezera
Data Lake je úložiště souborů, obvykle v distribuovaném systému souborů pro přístup k datům s vysokým výkonem. Technologie, jako je Spark nebo Hadoop, se často používají ke zpracování dotazů na uložené soubory a vracení dat pro vytváření sestav a analýzy. Tyto systémy často používají metodu schématu při čtení k definování tabulkových schémat v částečně strukturovaných datových souborech v bodě, kdy se data čtou pro analýzu, aniž by se při uložení použila omezení. Datová jezera jsou skvělá pro podporu kombinace strukturovaných, částečně strukturovaných a dokonce nestrukturovaných dat, která chcete analyzovat bez nutnosti vynucení schématu při zápisu dat do úložiště.
Hybridní přístupy
Můžete použít hybridní přístup, který kombinuje funkce datových jezer a datových skladů v datovém jezeře. Nezpracovaná data se ukládají jako soubory v datovém jezeře a koncové body analýzy SQL Microsoft Fabric je zveřejňují jako tabulky, které je možné dotazovat pomocí SQL. Když vytvoříte Lakehouse s Microsoft Fabric, vytvoří se automaticky koncový bod analýzy SQL. Datové jezerahouse jsou relativně nový přístup v systémech založených na Sparku a umožňují se prostřednictvím technologií, jako je Delta Lake, které přidávají do Sparku možnosti relačního úložiště, takže můžete definovat tabulky, které vynucují schémata a transakční konzistenci, podporují dávkové načítání a streamování zdrojů dat a poskytují rozhraní SQL API pro dotazování.
Služby Azure pro analytické úložiště
V Azure existuje několik služeb, které můžete použít k implementaci rozsáhlého analytického úložiště, včetně:
Microsoft Fabric je jednotné komplexní řešení pro rozsáhlé analýzy dat. Spojuje několik technologií a možností, které umožňují kombinovat integritu dat a spolehlivost škálovatelného vysoce výkonného relačního datového skladu založeného na SQL Serveru s flexibilitou datového jezera a opensourcového Apache Sparku. Zahrnuje také nativní podporu pro analýzy protokolů a telemetrie pomocí inteligentních funkcí Microsoft Fabric v reálném čase a také integrovaných datových kanálů pro příjem a transformaci dat. Každý produktOvý prostředí Microsoft Fabric má svůj vlastní domov, například domovskou stránku služby Data Factory. Každá domovská stránka prostředků infrastruktury zobrazí položky, které vytvoříte, a mají oprávnění k použití ze všech pracovních prostorů, ke kterým přistupujete. Microsoft Fabric je skvělou volbou, když chcete vytvořit jedno sjednocené analytické řešení.
Azure Databricks je implementace Azure oblíbené platformy Databricks. Databricks je komplexní řešení analýzy dat založené na Apache Sparku a nabízí nativní funkce SQL a také clustery Spark optimalizované pro úlohy pro analýzu dat a datové vědy. Databricks poskytuje interaktivní uživatelské rozhraní, prostřednictvím kterého je možné systém spravovat, a data je možné prozkoumat v interaktivních poznámkových blocích. Vzhledem k jejímu společnému použití na několika cloudových platformách můžete zvážit použití Azure Databricks jako analytického úložiště, pokud chcete používat stávající odborné znalosti s platformou nebo pokud potřebujete pracovat v prostředí s více cloudy nebo podporovat cloudové přenosné řešení.
Poznámka:
Každá z těchto služeb může být považována za analytické úložiště dat v tom smyslu, že poskytují schéma a rozhraní, pomocí kterého se data dají dotazovat. V mnoha případech se ale data ve skutečnosti ukládají v datovém jezeře a služba se používá ke zpracování dat a spouštění dotazů. Některá řešení můžou dokonce kombinovat použití těchto služeb. Proces extrakce, načítání a transformace (ELT) pro příjem dat může kopírovat data do datového jezera a pak pomocí jedné z těchto služeb transformovat data a další je dotazovat. Kanál může například použít poznámkový blok spuštěný v Azure Databricks ke zpracování velkého objemu dat v datovém jezeře a pak ho načíst do tabulek v Microsoft Fabric Warehouse.