Metodologie úspěšnosti implementace Synapse: Vyhodnocení návrhu pracovního prostoru
Poznámka:
Tento článek je součástí úspěchu implementace Azure Synapse podle řady článků. Přehled série najdete v tématu Úspěšné implementace Azure Synapse podle návrhu.
Pracovní prostor Synapse je sjednocené grafické uživatelské prostředí, které spojuje moduly pro analýzu a zpracování dat, datové jezera, databáze, tabulky, datové sady a artefakty generování sestav spolu s orchestrací kódu a procesů. Vzhledem k počtu technologií a služeb integrovaných do pracovního prostoru Synapse se ujistěte, že jsou do návrhu zahrnuty klíčové komponenty.
Kontrola návrhu pracovního prostoru Synapse
Určete, jestli návrh řešení zahrnuje jeden pracovní prostor Synapse nebo více pracovních prostorů. Určete ovladače tohoto návrhu. I když můžou existovat různé důvody, ve většině případů je důvodem oddělení zabezpečení nebo oddělení fakturace ve většině případů více pracovních prostorů. Při určování počtu pracovních prostorů a hranic databáze mějte na paměti, že existuje limit 20 pracovních prostorů na předplatné.
Určete, které prvky nebo služby v rámci každého pracovního prostoru je potřeba sdílet a se kterými prostředky. Mezi prostředky patří datová jezera, prostředí Integration Runtime (IRS), metadata nebo konfigurace a kód. Určete, proč byl tento konkrétní návrh zvolen z hlediska potenciální součinnosti. Zeptejte se sami sebe, jestli tyto součinnosti ospravedlňují dodatečné náklady a režijní náklady na správu.
Kontrola návrhu Data Lake
Doporučujeme, aby datové jezero (pokud je součástí vašeho řešení) bylo správně vrstvené. Datové jezero byste měli rozdělit do tří hlavních oblastí, které se týkají bronzových, stříbrných a zlatých datových sad. Bronzová nebo nezpracovaná vrstva se může nacházet ve vlastním samostatném účtu úložiště, protože má přísnější řízení přístupu kvůli nemaskovaným citlivým datům, která by mohla ukládat.
Kontrola návrhu zabezpečení
Zkontrolujte návrh zabezpečení pracovního prostoru a porovnejte ho s informacemi, které jste shromáždili během posouzení. Ujistěte se, že jsou splněny všechny požadavky a všechna omezení byla zohledněna. Pro usnadnění správy doporučujeme, aby uživatelé byli uspořádaní do skupin s odpovídající profilací oprávnění: Můžete zjednodušit řízení přístupu pomocí skupin zabezpečení, které odpovídají rolím. Správci sítě tak můžou přidávat nebo odebírat uživatele z příslušných skupin zabezpečení, aby mohli spravovat přístup.
Bezserverové fondy SQL a tabulky Apache Spark ukládají svá data do kontejneru Azure Data Lake Gen2 (ADLS Gen2), který je přidružený k pracovnímu prostoru. Uživatelské nainstalované knihovny Apache Sparku se také spravují v tomto stejném účtu úložiště. Aby bylo možné tyto případy použití povolit, musí být uživatelé i identita spravované služby pracovního prostoru (MSI) přidáni do role Přispěvatel dat objektů blob služby Storage kontejneru úložiště ADLS Gen2. Ověřte tento požadavek proti vašim požadavkům na zabezpečení.
Vyhrazené fondy SQL poskytují bohatou sadu funkcí zabezpečení pro šifrování a maskování citlivých dat. Vyhrazené i bezserverové fondy SQL umožňují úplnou plochu oprávnění SQL Serveru včetně předdefinovaných rolí, uživatelsky definovaných rolí, ověřování SQL a ověřování Microsoft Entra. Zkontrolujte návrh zabezpečení vyhrazeného fondu SQL vašeho řešení a přístupu k datům bezserverového fondu SQL.
Projděte si plán zabezpečení vašeho úložiště Data Lake a všechny účty úložiště ADLS Gen2 (a další), které budou součástí vašeho řešení Azure Synapse Analytics. Úložiště ADLS Gen2 není sám o sobě výpočetním modulem, takže nemá integrovanou schopnost selektivně maskovat atributy dat. Oprávnění ADLS Gen2 můžete použít na úrovni účtu úložiště nebo kontejneru pomocí řízení přístupu na základě role (RBAC) nebo na úrovni složky nebo souboru pomocí seznamů řízení přístupu (ACL). Pečlivě zkontrolujte návrh a snažte se vyhnout zbytečné složitosti.
Tady je několik bodů, které je potřeba zvážit při návrhu zabezpečení.
- Ujistěte se, že součástí návrhu jsou požadavky na nastavení ID Microsoft Entra.
- Zkontrolujte scénáře napříč tenanty. K těmto problémům může dojít, protože některá data jsou v jiném tenantovi Azure, nebo se musí přesunout do jiného tenanta nebo k němu mají přístup uživatelé z jiného tenanta. Ujistěte se, že se tyto scénáře v návrhu považují.
- Jaké jsou role pro každý pracovní prostor? Jak budou pracovní prostor používat?
- Jak je zabezpečení navržené v rámci pracovního prostoru?
- Kdo může zobrazit všechny skripty, poznámkové bloky a kanály?
- Kdo může spouštět skripty a kanály?
- Kdo můžete vytvářet, pozastavit nebo obnovit fondy SQL a Sparku?
- Kdo může publikovat změny v pracovním prostoru?
- Kdo může potvrdit změny ve správě zdrojového kódu?
- Budou kanály přistupovat k datům pomocí uložených přihlašovacích údajů nebo spravované identity pracovního prostoru?
- Mají uživatelé odpovídající přístup k datovému jezeře pro procházení dat v nástroji Synapse Studio?
- Je datové jezero správně zabezpečené pomocí vhodné kombinace řízení přístupu na základě role a seznamů ACL?
- Jsou pro každou roli správně nastavená uživatelská oprávnění fondu SQL (datový vědec, vývojář, správce, podnikový uživatel a další)?
Kontrola návrhu sítí
Tady je několik bodů, které je potřeba zvážit při návrhu sítě.
- Je připojení navržené mezi všemi prostředky?
- Jaký je síťový mechanismus, který se má použít (Azure ExpressRoute, veřejný internet nebo privátní koncové body)?
- Potřebujete být schopni se bezpečně připojit ke službě Synapse Studio?
- Byl přihlédnut k exfiltraci dat?
- Potřebujete se připojit k místním zdrojům dat?
- Potřebujete se připojit k jiným cloudovým zdrojům dat nebo výpočetním modulům, jako je azure machine Učení?
- Prošly se síťové komponenty Azure, jako jsou skupiny zabezpečení sítě (NSG), správné připojení a přesun dat?
- Byla brána v úvahu integrace s privátními zónami DNS?
- Potřebujete být schopni procházet datové jezero ze služby Synapse Studio nebo jednoduše dotazovat data v datovém jezeře pomocí bezserverového SQL nebo PolyBase?
Nakonec identifikujte všechny uživatele dat a ověřte, že je jejich připojení v návrhu započítáno. Zkontrolujte, že odchozí síťové a bezpečnostní příspěvky umožňují vaší službě přistupovat k požadovaným místním zdrojům a že se podporují jeho ověřovací protokoly a mechanismy. V některých scénářích může být potřeba mít více než jednu místní prostředí IR nebo bránu dat pro řešení SaaS, jako je Microsoft Power BI.
Kontrola návrhu monitorování
Zkontrolujte návrh monitorování komponent Azure Synapse a ujistěte se, že splňují požadavky a očekávání identifikované během posouzení. Ověřte, že je navržené monitorování prostředků a přístupu k datům a že identifikuje každý požadavek monitorování. Robustní řešení monitorování by mělo být zavedeno jako součást prvního nasazení do produkčního prostředí. Tímto způsobem je možné chyby včas identifikovat, diagnostikovat a řešit. Kromě základní infrastruktury a spuštění kanálu by se měla monitorovat také data. V závislosti na komponentách Azure Synapse, které se používají, identifikujte požadavky na monitorování jednotlivých komponent. Pokud například fondy Sparku tvoří součást řešení, monitorujte poškozené úložiště záznamů.
Tady je několik bodů, které je potřeba zvážit při návrhu monitorování.
- Kdo může monitorovat každý typ prostředku (kanály, fondy a další)?
- Jak dlouho je potřeba uchovávat protokoly aktivit databáze?
- Budou pracovní prostory a uchovávání protokolů databáze používat Log Analytics nebo Azure Storage?
- Aktivuje se upozornění v případě chyby kanálu? Pokud ano, kdo by měl být upozorněn?
- Jaká prahová úroveň fondu SQL by měla aktivovat upozornění? Kdo by měla být oznámena?
Kontrola návrhu správy zdrojového kódu
Ve výchozím nastavení pracovní prostor Synapse aplikuje změny přímo do služby Synapse pomocí integrované funkce publikování. Integraci správy zdrojového kódu můžete povolit, což přináší řadu výhod. Mezi výhody patří lepší spolupráce, správa verzí, schválení a kanály verzí, které podporují změny ve vývojových, testovacích a produkčních prostředích. Azure Synapse umožňuje jedno úložiště správy zdrojového kódu pro každý pracovní prostor, což může být Azure DevOps Git nebo GitHub.
Tady je několik bodů, které je potřeba zvážit při návrhu správy zdrojového kódu.
- Pokud používáte Azure DevOps Git, je pracovní prostor Synapse a jeho úložiště ve stejném tenantovi?
- Kdo bude mít přístup ke správě zdrojového kódu?
- Jaká oprávnění budou každému uživateli udělena ve správě zdrojového kódu?
- Byla vyvinuta strategie větvení a slučování?
- Budou se kanály verze vyvíjet pro nasazení do různých prostředí?
- Použije se schvalovací proces ke sloučení a pro kanály verze?
Poznámka:
Návrh vývojového prostředí je pro úspěch projektu velmi důležitý. Pokud je vývojové prostředí navržené, vyhodnotí se v samostatné fázi této metodologie.
Další kroky
V dalším článku o úspěchu Azure Synapse podle řady návrhů se dozvíte, jak vyhodnotit návrh integrace dat a ověřit, že splňuje pokyny a požadavky.