Metodologie úspěšnosti implementace Synapse: Vyhodnocení návrhu bezserverového fondu SQL

Článek
10/18/2023

Poznámka:

Tento článek je součástí úspěchu implementace Azure Synapse podle řady článků. Přehled série najdete v tématu Úspěšné implementace Azure Synapse podle návrhu.

Měli byste vyhodnotit návrh bezserverového fondu SQL, abyste identifikovali problémy a ověřili, že splňuje pokyny a požadavky. Vyhodnocením návrhu před zahájením vývoje řešení se můžete vyhnout blokování a neočekávaným změnám návrhu. Tímto způsobem chráníte časovou osu a rozpočet projektu.

Architektonické oddělení úložiště a výpočetních prostředků pro moderní data, analytické platformy a služby je trendem a často používaným vzorem. Poskytuje úspory nákladů a větší flexibilitu, což umožňuje nezávislé škálování úložiště a výpočetních prostředků na vyžádání. Bezserverový model Synapse SQL rozšiřuje přidáním možnosti dotazování dat Data Lake přímo. Při používání samoobslužných typů úloh se nemusíte starat o správu výpočetních prostředků.

Přizpůsobení analýzy mezer

Při plánování implementace bezserverových fondů SQL ve službě Azure Synapse musíte nejprve zajistit, aby bezserverové fondy byly vhodné pro vaše úlohy. Měli byste zvážit efektivitu provozu, efektivitu výkonu, spolehlivost a zabezpečení.

Provozní dokonalost

Z hlediska efektivity provozu vyhodnoťte následující body.

Vývojové prostředí řešení: V rámci této metodologie je k dispozici vyhodnocení vývojového prostředí řešení. Určete, jak jsou prostředí (vývoj, testování a produkce) navržená tak, aby podporovala vývoj řešení. Běžně najdete produkční a neprodukční prostředí (pro vývoj a testování). Pracovní prostory Synapse byste měli najít ve všech prostředích. Ve většině případů budete muset oddělit produkční a vývojové a testovací uživatele a úlohy.
Návrh pracovního prostoru Synapse: V rámci této metodologie je vyhodnocení návrhu pracovního prostoru Synapse. Zjistěte, jak byly pracovní prostory navrženy pro vaše řešení. Seznamte se s návrhem a zjistěte, jestli řešení bude používat jeden pracovní prostor nebo jestli je součástí řešení více pracovních prostorů. Zjistěte, proč byl vybrán jeden nebo více návrhů pracovních prostorů. Návrh s více pracovními prostory se často volí k vynucení striktních hranic zabezpečení.
Nasazení: Bezserverové SQL je k dispozici na vyžádání s každým pracovním prostorem Synapse, takže nevyžaduje žádné zvláštní akce nasazení. Zkontrolujte oblastní blízkost služby a účtu Azure Data Lake Storage Gen2 (ADLS Gen2), ke kterému je připojený.
Monitorování: Zkontrolujte, jestli je integrované monitorování dostatečné a jestli je potřeba zavést nějaké externí služby pro ukládání historických dat protokolu. Data protokolu umožňují analyzovat změny výkonu a umožňují definovat upozorňování nebo aktivované akce pro konkrétní okolnosti.

Efektivita výkonu

Na rozdíl od tradičních databázových strojů se bezserverová platforma SQL nespoléhá na vlastní optimalizovanou vrstvu úložiště. Z tohoto důvodu je jeho výkon silně závislý na tom, jak jsou data uspořádaná v ADLS Gen2. Z hlediska efektivity výkonu vyhodnoťte následující body.

Příjem dat: Zkontrolujte, jak se data ukládají v datovém jezeře. Velikosti souborů, počet souborů a struktura složek mají vliv na výkon. Mějte na paměti, že i když některé velikosti souborů můžou fungovat pro bezserverové SQL, můžou mít problémy s efektivním zpracováním nebo spotřebou jinými moduly nebo aplikacemi. Budete muset vyhodnotit návrh úložiště dat a ověřit ho vůči všem příjemcům dat, včetně bezserverového SQL a všech dalších datových nástrojů, které tvoří součást vašeho řešení.
Umístění dat: Vyhodnoťte, jestli má návrh sjednocené a definované běžné vzory pro umístění dat. Ujistěte se, že větvení adresářů může podporovat vaše požadavky na zabezpečení. Existuje několik běžných vzorů, které vám můžou pomoct udržet data časových řad uspořádaná. Bez ohledu na to, co si zvolíte, zajistěte, aby fungovala i s jinými moduly a úlohami. Také ověřte, jestli může pomoct s automatickým zjišťováním oddílů pro aplikace Spark a externí tabulky.
Formáty dat: Ve většině případů bude bezserverová služba SQL nabízet nejlepší výkon a lepší funkce kompatibility pomocí formátu Parquet. Ověřte požadavky na výkon a kompatibilitu, protože zatímco Parquet zlepšuje výkon – díky lepší kompresi a snížení vstupně-výstupních operací (čtením pouze požadovaných sloupců potřebných k analýze) – vyžaduje více výpočetních prostředků. Vzhledem k tomu, že některé zdrojové systémy nativně nepodporují Parquet jako formát exportu, může to vést k dalším krokům transformace ve vašich kanálech nebo závislostech v celkové architektuře.
Průzkum: Každé odvětví se liší. V mnoha případech se však v nejčastějších dotazech vyskytují běžné vzory přístupu k datům. Vzory obvykle zahrnují filtrování a agregace podle kalendářních dat, kategorií nebo geografických oblastí. Identifikujte nejčastější kritéria filtrování a propojíte je s tím, kolik dat se čte nebo zahodí nejčastějšími dotazy. Ověřte, jestli jsou informace o datovém jezeře uspořádané tak, aby upřednostňovaly vaše požadavky na průzkum a očekávání. V případě dotazů identifikovaných v návrhu a v posouzení se podívejte, jestli můžete eliminovat nepotřebné oddíly v parametru cesty OPENROWSET, nebo – pokud existují externí tabulky – jestli vám může pomoct vytváření dalších indexů.

Spolehlivost

Z hlediska spolehlivosti vyhodnoťte následující body.

Dostupnost: Ověřte všechny požadavky na dostupnost, které byly identifikovány během fáze posouzení. I když neexistují žádné konkrétní smlouvy SLA pro bezserverový SQL, pro provádění dotazů dochází k vypršení 30minutového časového limitu. Identifikujte nejdéle běžící dotazy z posouzení a ověřte je v návrhu bezserverového SQL. 30minutový časový limit by mohl narušit očekávání pro vaši úlohu a zobrazit se jako problém se službou.
Konzistence: Bezserverová platforma SQL je navržená primárně pro úlohy čtení. Proto ověřte, jestli byly během procesu zřizování a vytváření dat Data Lake provedeny všechny kontroly konzistence. Mějte přehled o nových funkcích, jako je opensourcová vrstva úložiště Delta Lake , která poskytuje podporu pro acid (atomicity, konzistence, izolace a stálost) záruk pro transakce. Tato funkce umožňuje implementovat efektivní architektury lambda nebo kappa, které podporují případy streamování i dávkového použití. Nezapomeňte svůj návrh vyhodnotit, aby se příležitosti k uplatnění nových možností použily, ale ne na úkor časové osy nebo nákladů projektu.
Zálohování: Zkontrolujte všechny požadavky na zotavení po havárii, které byly identifikovány během posouzení. Ověřte je v návrhu bezserverového SQL pro obnovení. Sql serverless sám nemá vlastní vrstvu úložiště, která by vyžadovala zpracování snímků a záložních kopií vašich dat. Úložiště dat, ke které přistupuje bezserverový SQL, je externí (ADLS Gen2). Zkontrolujte návrh obnovení v projektu pro tyto datové sady.

Zabezpečení

Organizace vašich dat je důležitá pro vytváření flexibilních základů zabezpečení. Ve většině případů budou různé procesy a uživatelé vyžadovat různá oprávnění a přístup k určitým dílčím oblastem datového jezera nebo logického datového skladu.

Pro zabezpečení vyhodnoťte následující body.

Úložiště dat: Pomocí informací shromážděných během fáze posouzení určete, jestli je nutné místo nezávislých účtů úložiště umístit typické oblasti nezpracovaných, dílčích a kurátorovaných oblastí datového jezera do stejného účtu úložiště. Druhá možnost může vést k větší flexibilitě z hlediska rolí a oprávnění. Může také přidat další kapacitu vstupně-výstupních operací za sekundu (IOPS), která může být nutná, pokud vaše architektura musí podporovat náročné a souběžné úlohy čtení a zápisu (například scénáře IoT v reálném čase). Ověřte, jestli potřebujete oddělení dále tím, že ponecháte izolované a hlavní oblasti dat v samostatných účtech úložiště. Většina uživatelů nebude muset aktualizovat ani odstraňovat data, takže nepotřebují oprávnění k zápisu do datového jezera s výjimkou sandboxu a privátních oblastí.
V informacích o posouzení určete, jestli některé požadavky závisejí na funkcích zabezpečení, jako je always Encrypted, dynamické maskování dat nebo zabezpečení na úrovni řádků. Ověřte dostupnost těchto funkcí v konkrétních scénářích, jako je použití s funkcí OPENROWSET. Předpovídejte potenciální alternativní řešení, která můžou být nutná.
V informacích o posouzení určete, jaké jsou nejlepší metody ověřování. Zvažte instanční objekty Microsoft Entra, sdílený přístupový podpis (SAS) a kdy a jak se dá předávací ověřování použít a integrovat do nástroje pro zkoumání podle výběru zákazníka. Vyhodnoťte návrh a ověřte, že nejlepší metodu ověřování v rámci návrhu.

Další aspekty

Zkontrolujte svůj návrh a zkontrolujte, jestli jste zavedli osvědčené postupy a doporučení. Věnujte zvláštní pozornost optimalizaci filtru a kolaci, abyste zajistili, že predikát pushdown funguje správně.

Další kroky

V dalším článku o úspěchu Azure Synapse podle řady návrhů se dozvíte, jak vyhodnotit návrh fondu Sparku, abyste identifikovali problémy a ověřili, že splňuje pokyny a požadavky.

Sdílet prostřednictvím