Volba analytického úložiště dat v Azure
V architektuře pro velké objemy dat je často potřeba analytické úložiště dat, které obsluhuje zpracovávaná data ve strukturovaném formátu, který je možné dotazovat pomocí analytických nástrojů. Úložiště analytických dat, která podporují dotazování dat horké cesty i studené cesty, se souhrnně označují jako obslužná vrstva nebo data obsluhující úložiště.
Obslužná vrstva se zabývá zpracovanými daty z horké cesty i studené cesty. V architektuře lambda je obslužná vrstva rozdělena na vrstvu pro zpracování rychlosti, která ukládá data, která byla zpracována přírůstkově, a dávkovou obslužnou vrstvu, která obsahuje dávkový výstup. Obslužná vrstva vyžaduje silnou podporu náhodných čtení s nízkou latencí. Úložiště dat pro vrstvu rychlosti by také mělo podporovat náhodné zápisy, protože dávkové načítání dat do tohoto úložiště by mělo představovat nežádoucí zpoždění. Na druhou stranu úložiště dat pro dávkovou vrstvu nemusí podporovat náhodné zápisy, ale dávkové zápisy.
Pro všechny úlohy ukládání dat neexistuje jediná nejlepší volba správy dat. Různá řešení pro správu dat jsou optimalizovaná pro různé úlohy. Většina cloudových aplikací z reálného světa a procesů velkých objemů dat má různé požadavky na úložiště dat a často používá kombinaci řešení úložiště dat.
Jaké máte možnosti při výběru analytického úložiště dat?
V závislosti na vašich potřebách existuje několik možností pro data obsluhující úložiště v Azure:
- Azure Synapse Analytics
- Fondy Azure Synapse Spark
- Azure Databricks
- Azure Data Explorer
- Azure SQL Database
- SQL Server na virtuálním počítači Azure
- HBase/Phoenix ve službě HDInsight
- Hive LLAP ve službě HDInsight
- Azure Analysis Services
- Azure Cosmos DB
Tyto možnosti poskytují různé databázové modely, které jsou optimalizované pro různé typy úloh:
- Databáze klíč/hodnota obsahují jeden serializovaný objekt pro každou hodnotu klíče. Jsou vhodné pro ukládání velkých objemů dat na místo, kde chcete získat jednu položku pro danou hodnotu klíče a nemusíte se dotazovat na základě jiných vlastností položky.
- Databáze dokumentů jsou databáze klíč/hodnota, ve kterých jsou hodnoty dokumenty. Dokument v tomto kontextu je kolekce pojmenovaných polí a hodnot. Databáze obvykle ukládá data ve formátu, jako je XML, YAML, JSON nebo binary JSON (BSON), ale může používat prostý text. Databáze dokumentů se můžou dotazovat na pole, která nejsou klíči, a definovat sekundární indexy, aby se dotazování zefektivnit. Díky tomu je databáze dokumentů vhodnější pro aplikace, které potřebují načítat data na základě složitějších kritérií než hodnota klíče dokumentu. Můžete se například dotazovat na pole, jako je ID produktu, ID zákazníka nebo jméno zákazníka.
- Databáze úložiště sloupců jsou úložiště dat klíč/hodnota, která ukládají každý sloupec samostatně na disku. Široká databáze úložiště sloupců je typ databáze úložiště sloupců, která ukládá rodiny sloupců, nejen jednotlivé sloupce. Například databáze sčítání lidu může mít rodinu sloupců pro jméno osoby (první, prostřední, poslední), rodinu pro adresu osoby a rodinu pro profilové informace dané osoby (datum narození, pohlaví). Databáze může ukládat každou rodinu sloupců do samostatného oddílu a přitom uchovávat všechna data pro jednu osobu související se stejným klíčem. Aplikace může číst jednu rodinu sloupců bez čtení všech dat pro entitu.
- Grafové databáze ukládají informace jako kolekci objektů a relací. Grafová databáze může efektivně provádět dotazy, které procházejí sítí objektů a vztahy mezi nimi. Objekty můžou být například zaměstnanci v databázi lidských zdrojů a můžete chtít usnadnit dotazy, například "najít všechny zaměstnance, kteří přímo nebo nepřímo pracují pro Scotta".
- Telemetrie a databáze časových řad jsou jen pro doplňovací kolekci objektů. Databáze telemetrie efektivně indexují data v různých úložištích sloupců a strukturách v paměti, což je optimální volbou pro ukládání a analýzu obrovského množství telemetrických dat a dat časových řad.
Klíčová kritéria výběru
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Potřebujete obsluhovat úložiště, které může sloužit jako horká cesta pro vaše data? Pokud ano, zužte možnosti na ty, které jsou optimalizované pro vrstvu rychlé obsluhy.
Potřebujete podporu mpP (Massively Parallel Processing), kde se dotazy automaticky distribuují napříč několika procesy nebo uzly? Pokud ano, vyberte možnost, která podporuje horizontální navýšení kapacity dotazu.
Dáváte přednost použití relačního úložiště dat? Pokud ano, zužte možnosti na ty, které mají model relační databáze. Všimněte si však, že některá nerelační úložiště podporují syntaxi SQL pro dotazování a nástroje, jako je PolyBase, se dají použít k dotazování nerelačních úložišť dat.
Shromažďujete data časových řad? Používáte data jen pro připojení?
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Obecné možnosti
Schopnost | SQL Database | Fond Azure Synapse SQL | Fond Azure Synapse Spark | Průzkumník dat Azure | HBase/Phoenix ve službě HDInsight | Hive LLAP ve službě HDInsight | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|---|
Je spravovaná služba | Ano | Ano | Ano | Ano | Ano 1 | Ano 1 | Ano | Ano |
Primární databázový model | Relační (formát úložiště sloupců při použití indexů columnstore) | Relační tabulky s úložištěm sloupců | Široké úložiště sloupců | Relační (úložiště sloupců), telemetrie a úložiště časových řad | Široké úložiště sloupců | Hive /In-Memory | Tabulkové sémantické modely | Úložiště dokumentů, graf, úložiště klíč-hodnota, široké úložiště sloupců |
Podpora jazyka SQL | Ano | Ano | Ano | Ano | Ano (použití ovladače Phoenix JDBC) | Ano | Ne | Ano |
Optimalizované pro rychlost obsluhující vrstvu | Ano 2 | Ano 3 | Ano | Ano | Ano | Ano | Ne | Ano |
[1] S ruční konfigurací a škálováním.
[2] Použití tabulek optimalizovaných pro paměť a hodnot hash nebo neclusterovaných indexů.
[3] Podporuje se jako výstup Azure Stream Analytics.
Možnosti škálovatelnosti
Schopnost | SQL Database | Fond Azure Synapse SQL | Fond Azure Synapse Spark | Průzkumník dat Azure | HBase/Phoenix ve službě HDInsight | Hive LLAP ve službě HDInsight | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|---|
Redundantní regionální servery pro zajištění vysoké dostupnosti | Ano | Ne | Ne | Ano | Ano | Ne | Ano | Ano |
Podporuje horizontální navýšení kapacity dotazů. | Ne | Ano | Ano | Ano | Ano | Ano | Ano | Ano |
Dynamická škálovatelnost (vertikální navýšení kapacity) | Ano | Ano | Ano | Ano | Ne | Ne | Ano | Ano |
Podporuje ukládání dat do mezipaměti v paměti. | Ano | Ano | Ano | Ano | Ne | Ano | Ano | Ne |
Možnosti zabezpečení
Schopnost | SQL Database | Azure Synapse | Průzkumník dat Azure | HBase/Phoenix ve službě HDInsight | Hive LLAP ve službě HDInsight | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|
Ověřování | SQL / Microsoft Entra ID | SQL / Microsoft Entra ID | Microsoft Entra ID | local / Microsoft Entra ID 1 | local / Microsoft Entra ID 1 | Microsoft Entra ID | uživatelé databáze / Microsoft Entra ID prostřednictvím řízení přístupu (správa identit a přístupu (IAM)) |
Šifrování dat v klidovém stavu | Ano 2 | Ano 2 | Ano | Ano 1 | Ano 1 | Ano | Ano |
Zabezpečení na úrovni řádků | Ano | Ano 3 | Ano | Ano 1 | Ano 1 | Ano | Ne |
Podporuje brány firewall. | Ano | Ano | Ano | Ano 4 | Ano 4 | Ano | Ano |
Dynamické maskování dat | Ano | Ano | Ano | Ano 1 | Ano | Ne | Ne |
[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.
[2] Vyžaduje použití transparentního šifrování dat k šifrování a dešifrování neaktivních uložených dat.
[3] Filtruje pouze predikáty. Zobrazit zabezpečení na úrovni řádků
[4] Při použití ve virtuální síti Azure. Další informace najdete v tématu Rozšíření služby Azure HDInsight pomocí služby Azure Virtual Network.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Analýza dat v relačním datovém skladu
- Vytvoření izolované databáze – Azure SQL Database
- Vytvoření pracovního prostoru Azure Databricks
- Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí webu Azure Portal
- Vytvoření pracovního prostoru Synapse
- Prozkoumání datových služeb Azure pro moderní analýzy
- Prozkoumání databázových a analytických služeb Azure
- Dotazování služby Azure Cosmos DB pomocí rozhraní API pro NoSQL