Sdílená metadata služby Azure Synapse Analytics
Azure Synapse Analytics umožňuje různým výpočetním modulům pracovních prostorů sdílet databáze a tabulky mezi fondy Apache Sparku a bezserverovým fondem SQL.
Sdílení podporuje takzvaný model moderního datového skladu a pracovnímu prostoru poskytuje moduly SQL přístup k databázím a tabulkám vytvořeným pomocí Sparku. Umožňuje také modulům SQL vytvářet vlastní objekty, které se nesdílejí s ostatními moduly.
Podpora moderního datového skladu
Model sdílených metadat podporuje moderní model datového skladu následujícím způsobem:
Data z datového jezera se efektivně připravují a strukturují pomocí Sparku tím, že se ukládají do (případně dělených) tabulek Parquet obsažených v několika databázích.
Vytvořené databáze Sparku a všechny jejich tabulky se zobrazí v libovolné instanci fondu Sparku Azure Synapse pracovního prostoru a dají se použít z libovolné úlohy Sparku. Tato funkce podléhá oprávněním , protože všechny fondy Sparku v pracovním prostoru sdílejí stejné základní úložiště metakatalogu.
Vytvořené databáze Sparku a jejich tabulky založené na Parquetu nebo CSV se zobrazí v bezserverovém fondu SQL pracovního prostoru. Databáze se vytvářejí automaticky v metadatech bezserverového fondu SQL a externí i spravované tabulky vytvořené úlohou Sparku jsou přístupné jako externí tabulky v metadatech bezserverového fondu SQL ve schématu
dbo
odpovídající databáze.
Synchronizace objektů probíhá asynchronně. Objekty budou mít mírné zpoždění několik sekund, dokud se nezobrazí v kontextu SQL. Jakmile se zobrazí, mohou být dotazovány, ale moduly SQL, které k nim mají přístup, nebudou aktualizovány ani změněny.
Objekty sdílených metadat
Spark umožňuje vytvářet databáze, externí tabulky, spravované tabulky a zobrazení. Vzhledem k tomu, že zobrazení Sparku ke zpracování definujících příkazů Spark SQL vyžadují modul Spark a nemůže je zpracovat modul SQL, sdílí se s modulem SQL pracovního prostoru pouze databáze a jejich obsažené externí a spravované tabulky, které používají formát úložiště Parquet nebo CSV. Zobrazení Sparku se sdílí pouze mezi instancemi fondu Sparku.
Model zabezpečení v přehledu
Databáze a tabulky Spark spolu s jejich synchronizovanými reprezentacemi v modulu SQL jsou zabezpečené na úrovni základního úložiště. Když se na tabulku dotazuje některý z modulů, které má odesilatel dotazu právo používat, předává se objekt zabezpečení odesílatele dotazu do podkladových souborů. Oprávnění se kontrolují na úrovni systému souborů.
Další informace najdete v tématu sdílená databáze Azure Synapse Analytics.
Změna údržby
Pokud se objekt metadat odstraní nebo změní pomocí Sparku, změny se vyberou a rozšíří do bezserverového fondu SQL. Synchronizace je asynchronní a změny se projeví ve stroji SQL po krátké prodlevě.