Sdílet prostřednictvím


Zrcadlení Azure Cosmos DB (Preview)

Zrcadlení v Microsoft Fabric poskytuje bezproblémové prostředí bez ETL pro integraci stávajících dat Azure Cosmos DB se zbývajícími daty v Microsoft Fabricu. Vaše data Azure Cosmos DB se nepřetržitě replikují přímo do Fabric OneLake téměř v reálném čase, aniž by to mělo vliv na výkon transakčních úloh nebo spotřebovávají jednotky žádostí (RU).

Data v OneLake jsou uložená v open-source delta formátu a automaticky jsou k dispozici všem analytickým modulům v platformě Fabric.

K přístupu k datům v režimu OneLake v režimu DirectLake můžete použít integrované funkce Power BI. Díky vylepšením v Copilot můžete využít sílu generativní umělé inteligence k získání klíčových poznatků o obchodních datech. Kromě Power BI můžete použít T-SQL ke spouštění složitých agregačních dotazů nebo ke zkoumání dat používat Spark. K datům v poznámkových blocích můžete bezproblémově přistupovat a používat datové vědy k vytváření modelů strojového učení.

Důležité

Zrcadlení služby Azure Cosmos DB je aktuálně ve verzi Preview. Produkční úlohy nejsou ve verzi Preview podporované. V současné době se podporují jenom účty Azure Cosmos DB for NoSQL.

Proč používat zrcadlení ve Fabric?

Díky zrcadlení ve Fabric nemusíte kombinovat různé služby od několika dodavatelů. Místo toho si můžete vychutnat vysoce integrovaný, ucelený a snadno použitelný produkt, který je navržený tak, aby zjednodušil vaše analytické potřeby a byl vytvořen s důrazem na otevřenost.

Pokud hledáte sestavy BI nebo analýzy provozních dat ve službě Azure Cosmos DB, zrcadlení poskytuje:

  • Ekonomický přístup k datům v Azure Cosmos DB v téměř reálném čase bez ovlivnění spotřeby jednotek požadavku
  • Snadné přenesení dat mezi různými zdroji do Fabric OneLake
  • Optimalizace tabulek Delta s pořadím v pro bleskově rychlé čtení
  • Integrace jedním kliknutím s Power BI s Direct Lake a Copilot
  • Bohaté obchodní přehledy spojením dat mezi různými zdroji
  • Rozsáhlejší integrace aplikací pro přístup k dotazům a zobrazením

Data OneLake jsou uložená ve opensourcovém formátu Delta Lake, takže je můžete používat s různými řešeními v rámci Microsoftu i mimo ni. Tento formát dat usnadňuje vytváření jednoho datového majetku pro vaše analytické potřeby.

Jaká analytická prostředí jsou integrovaná?

Zrcadlené databáze jsou položka v Fabric Data Warehousing odlišná od Warehouse a koncového bodu SQL analytics endpoint.

Diagram zrcadlení Fabric pro Azure Cosmos DB.

Každá zrcadlené databáze Azure Cosmos DB má tři položky, se kterými můžete pracovat v pracovním prostoru Fabric:

  • Zrcadlová položka databáze. Zrcadlení spravuje replikaci dat do OneLake a převod na Parquet v analytickém formátu. To umožňuje podřízené scénáře, jako jsou datové inženýrství, datové vědy a další.
  • Koncový bod analýzy SQL, který se automaticky vygeneruje
  • Výchozí sémantický model, který se automaticky vygeneruje

Zrcadlené databáze

Zrcadlené databáze zobrazuje stav replikace a ovládací prvky pro zastavení nebo spuštění replikace v Fabric OneLake. Zdrojovou databázi můžete zobrazit také v režimu jen pro čtení pomocí Průzkumníka dat Azure Cosmos DB. Pomocí Průzkumníka dat můžete zobrazit kontejnery ve zdrojové databázi Azure Cosmos DB a dotazovat se na ně. Tyto operace spotřebovávají jednotky žádostí (RU) z vašeho účtu služby Azure Cosmos DB. Všechny změny zdrojové databáze se okamžitě projeví v zobrazení zdrojové databáze Fabric. Zápis do zdrojové databáze není z Fabric povolený, protože data můžete pouze prohlížet.

Koncový bod analýzy SQL

Každá zrcadlená databáze má automaticky vygenerovaný koncový bod analýzy SQL, který poskytuje bohaté analytické prostředí nad tabulkami Delta OneLake vytvořenými procesem zrcadlení. Máte přístup ke známým příkazům T-SQL, které můžou definovat a dotazovat datové objekty, ale ne manipulovat s daty z koncového bodu analýzy SQL, protože se jedná o kopii určenou jen pro čtení.

V koncovém bodu analýzy SQL můžete provést následující akce:

  • Prozkoumejte tabulky Delta Lake pomocí T-SQL. Každá tabulka se mapuje na kontejner z databáze Azure Cosmos DB.
  • Vytvářejte dotazy a zobrazení bez kódu a prozkoumejte je vizuálně, aniž byste museli psát řádek kódu.
  • Připojte a dotazujte data v jiných zrcadlených databázích, skladech a Lakehouses v rámci stejného pracovního prostoru.
  • Sestavy BI můžete snadno vizualizovat a vytvářet na základě dotazů nebo zobrazení SQL.

Kromě editoru dotazů SQL existuje široký ekosystém nástrojů. Mezi tyto nástroje patří rozšíření mssql se sadou Visual Studio Code, SQL Server Management Studio (SSMS) a dokonce i GitHub Copilot. Pomocí nástroje podle vašeho výběru můžete výrazně zefektivnit analýzu a tvorbu přehledů.

Sémantický model

Výchozí sémantický model je automaticky zřízený sémantický model Power BI. Tato funkce umožňuje vytvářet, sdílet a opakovaně používat obchodní metriky. Další informace najdete v sémantických modelech.

Jak funguje replikace téměř v reálném čase?

Když povolíte zrcadlení v databázi Azure Cosmos DB, vkládací, aktualizační a mazací operace na vašich datech pro zpracování online transakcí (OLTP) se průběžně replikují do Fabric OneLake pro analytické účely.

Funkce průběžného zálohování je předpokladem pro zrcadlení. V účtu služby Azure Cosmos DB můžete povolit průběžné zálohování 7 dnů nebo 30 dnů. Pokud povolujete průběžné zálohování speciálně pro zrcadlení, doporučuje se 7denní průběžné zálohování, protože je to zdarma.

Poznámka:

Zrcadlení nepoužívá analytické úložiště ani kanál změn databáze Azure Cosmos DB jako zdroj zachytávání změn dat. Tyto funkce můžete používat dál nezávisle, včetně zrcadlení.

Replikace dat Azure Cosmos DB do Fabric OneLake může trvat několik minut. V závislosti na počátečním snímku dat nebo četnosti aktualizací/odstranění může replikace v některých případech trvat i déle. Replikace nemá vliv na jednotky žádostí (RU), které jste přidělili vašim transakčním úlohám.

Co očekávat od zrcadlení

Před zrcadlení byste měli zvážit několik aspektů a podporovaných scénářů.

Důležité informace o nastavení

Databáze musí být již zřízena v Azure, aby mohla být zrcadlena. Jako předpoklad musíte pro účet povolit průběžné zálohování.

  • Každou databázi můžete zrcadlit pouze jednotlivě. Můžete zvolit, která databáze se má zrcadlit.
  • Stejnou databázi můžete zrcadlit vícekrát ve stejném pracovním prostoru. Osvědčeným postupem je využití jedné kopie databáze pro více lakehousů, skladů nebo dalších zrcadlených databází. Neměli byste nastavovat více zrcadlek do stejné databáze.
  • Stejnou databázi můžete také zrcadlit v různých pracovních prostorech nebo tenantech v rámci Fabric.
  • Změny kontejnerů Azure Cosmos DB, jako je přidání nových a odstranění stávajících, jsou hladce replikovány do Fabric. Můžete například začít zrcadlit prázdnou databázi bez kontejnerů a zrcadlení plynule přebírá kontejnery přidané později.

Podpora vnořených dat

V tabulkách koncových bodů SQL Analytics se vnořená data zobrazují jako řetězec JSON. K selektivnímu rozšíření těchto dat můžete použít OPENJSON, CROSS APPLY a OUTER APPLY v dotazech nebo zobrazeních jazyka T-SQL. Pokud používáte Power Query, můžete tuto funkci použít ToJson také k rozšíření těchto dat.

Poznámka:

Fabric má omezení pro řetězcové sloupce o velikosti 8 KB. Další informace najdete v tématu Omezení datového skladu.

Zpracování změn schématu

Zrcadlení automaticky replikuje vlastnosti napříč položkami služby Azure Cosmos DB se změnami schématu. Všechny nové vlastnosti zjištěné v položce se zobrazí jako nové sloupce a chybějící vlastnosti, pokud existují, jsou v systému Fabric reprezentovány jako null.

Pokud vlastnost v položce přejmenujete, tabulky Fabric zachovávají staré i nové sloupce. Starý sloupec zobrazí hodnotu null a nový sloupec zobrazí nejnovější hodnotu pro všechny položky, které se replikují po operaci přejmenování.

Pokud změníte datový typ vlastnosti v položkách služby Azure Cosmos DB, podporují se změny kompatibilních datových typů, které je možné převést. Pokud datové typy nejsou kompatibilní pro převod v delta, jsou reprezentovány jako hodnoty null.

Tabulky koncových bodů SQL Analytics převádějí datové typy Delta na datové typy T-SQL.

Duplicitní názvy sloupců

Azure Cosmos DB podporuje názvy sloupců bez rozlišování malých a velkých písmen na základě standardu JSON. Zrcadlení podporuje tyto duplicitní názvy sloupců přidáním _n do názvu sloupce, kde n by byla číselná hodnota.

Pokud má například položka Azure Cosmos DB addressName a AddressName jako jedinečné vlastnosti, tabulky prostředků infrastruktury mají odpovídající sloupce addressName a AddressName_1. Další informace najdete v tématu Omezení replikace.

Zabezpečení

Připojení ke zdrojové databázi jsou založená na klíčích účtu pro vaše účty Azure Cosmos DB. Pokud klíče otočíte nebo znovu vygenerujete, musíte připojení aktualizovat, aby replikace fungovala. Další informace najdete v tématu připojení.

Klíče účtu nejsou po nastavení připojení přímo viditelné pro ostatní uživatele Fabric. Můžete omezit, kdo má přístup k připojením vytvořeným ve Fabricu. Zápisy do databáze Azure Cosmos DB nejsou povolené z Průzkumníka dat ani z koncového bodu analýzy ve vaší zrcadlené databázi.

Zrcadlení v současné době nepodporuje ověřování pomocí klíčů účtu pro čtení, jednotné přihlašování (SSO) s identifikátory Microsoft Entra a řízení přístupu na základě role nebo spravované identity.

Po replikaci dat do Fabric OneLake je potřeba zabezpečit přístup k datům.

Funkce ochrany dat

Granulární zabezpečení je možné nakonfigurovat v zrcadlené databázi v Microsoft Fabric. Další informace najdete v podrobných oprávněních v Microsoft Fabric.

Filtry sloupců a filtry řádků založené na predikátech můžete zabezpečit u tabulek pro role a uživatele v Microsoft Fabric:

Citlivá data můžete také maskovat od uživatelů, kteří nejsou správci, pomocí dynamického maskování dat:

Zabezpečení sítě

Zrcadlení v současné době nepodporuje privátní koncové body ani klíče spravované zákazníkem (CMK) na OneLake. Zrcadlení se nepodporuje u účtů služby Azure Cosmos DB s konfiguracemi zabezpečení sítě méně povolujícími než u všech sítí, používající koncové body služby, privátní koncové body, IP adresy nebo jakákoli jiná nastavení, která by mohla omezit přístup z veřejné sítě k účtu. Účty Azure Cosmos DB by měly být otevřené pro všechny sítě, aby fungovaly se zrcadlením.

Latence zotavení po havárii a replikace

V rámci služby Fabric můžete obsah nasadit do datových center v jiných regionech než v domovském regionu tenanta Fabric. Další informace naleznete v části podpora multi-geo.

U účtu služby Azure Cosmos DB s primární oblastí zápisu a několika oblastmi čtení zvolí zrcadlení oblast čtení služby Azure Cosmos DB nejblíže oblasti, ve které je nakonfigurovaná kapacita Fabric. Tento výběr pomáhá zajistit replikaci s nízkou latencí pro zrcadlení.

Když přepnete váš účet služby Azure Cosmos DB do oblasti obnovení, zrcadlení automaticky vybere znovu nejbližší oblast Azure Cosmos DB.

Poznámka:

Zrcadlení nepodporuje účty s více oblastmi zápisu.

Data cosmos DB replikovaná do OneLake musí být nakonfigurovaná tak, aby zpracovávala výpadky v celé oblasti. Další informace najdete v tématu zotavení po havárii ve OneLake.

Prozkoumejte svá data pomocí zrcadlení

Ve OneLake můžete přímo zobrazit zrcadlová data a přistupovat k němu. Bez nutnosti dalšího přesunu dat můžete bez problémů přistupovat ke zrcadleným datům.

Přečtěte si další informace o přístupu k OneLake pomocí rozhraní API nebo sady SDK ADLS Gen2, Průzkumníka souborů OneLake a Průzkumníka služby Azure Storage.

Ke koncovému bodu analýzy SQL se můžete připojit z nástrojů, jako je SQL Server Management Studio (SSMS), nebo pomocí ovladačů, jako je Microsoft Open Database Connectivity (ODBC) a Java Database Connectivity (JDBC). Další informace najdete v tématu Připojení koncového bodu analýzy SQL.

K zrcadleným datům můžete přistupovat také pomocí služeb, jako jsou:

  • Služby Azure, jako jsou Azure Databricks, Azure HDInsight nebo Azure Synapse Analytics
  • Fabric Lakehouse s využitím zkratek pro scénáře datového inženýrství a datové vědy
  • Zrcadlené databáze a sklady ve Fabric pracovním prostoru

Můžete také sestavit řešení architektury medallion, vyčistit a transformovat data, která přicházejí ve zrcadlené databázi jako bronzová vrstva. Další informace najdete v tématu podpora medailonové architektury v rámci Fabric.

Ceny

Výpočetní prostředky infrastruktury používané k replikaci dat Cosmos DB do Fabric OneLake jsou zdarma. Úložiště ve OneLake je bezplatné na základě velikosti kapacity. Další informace najdete v cenách OneLake pro zrcadlení. Využití výpočetního výkonu pro dotazování dat prostřednictvím SQL, Power BI nebo Spark je stále účtováno na základě kapacity "Fabric".

Pokud používáte Průzkumníka dat v rámci zrcadlení Fabric, vznikají typické náklady na základě využití jednotky žádostí (RU) při průzkumu kontejnerů a dotazování na položky ve zdrojové databázi Azure Cosmos DB. Funkce průběžného zálohování služby Azure Cosmos DB je předpokladem pro zrcadlení: Platí se standardní poplatky za průběžné zálohování. Za zrcadlení při průběžné zálohové fakturaci se neúčtují žádné další poplatky. Další informace najdete v tématu o cenách služby Azure Cosmos DB.

Další krok