Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)

Artykuł
11/19/2024

Dublowanie w usłudze Microsoft Fabric zapewnia bezproblemowe środowisko bez etL w celu zintegrowania istniejących danych usługi Azure Cosmos DB z resztą danych w usłudze Microsoft Fabric. Dane usługi Azure Cosmos DB są stale replikowane bezpośrednio do usługi Fabric OneLake niemal w czasie rzeczywistym, bez wpływu na wydajność obciążeń transakcyjnych lub zużywających jednostki żądań (RU).

Dane w usłudze OneLake są przechowywane w formacie różnicowym typu open source i automatycznie udostępniane wszystkim aparatom analitycznym w sieci szkieletowej.

Wbudowane funkcje usługi Power BI umożliwiają uzyskiwanie dostępu do danych w usłudze OneLake w trybie DirectLake. Dzięki Copilot ulepszeniom w usłudze Fabric możesz użyć możliwości generowania sztucznej inteligencji, aby uzyskać kluczowe szczegółowe informacje na temat danych biznesowych. Oprócz usługi Power BI można używać języka T-SQL do uruchamiania złożonych zagregowanych zapytań lub używania platformy Spark do eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach i używać nauki o danych do tworzenia modeli uczenia maszynowego.

Ważne

Dublowanie dla usługi Azure Cosmos DB jest obecnie dostępne w wersji zapoznawczej. Obciążenia produkcyjne nie są obsługiwane w wersji zapoznawczej. Obecnie obsługiwane są tylko konta usługi Azure Cosmos DB for NoSQL.

Dlaczego warto używać dublowania w sieci szkieletowej?

W przypadku dublowania w sieci szkieletowej nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych i skompilowania pod kątem otwartości.

Jeśli szukasz raportów analizy biznesowej lub analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:

Brak etL, ekonomiczny dostęp niemal w czasie rzeczywistym do danych usługi Azure Cosmos DB bez wpływu na użycie jednostek żądania
Łatwość noszenia danych między różnymi źródłami w usłudze Fabric OneLake
Optymalizacje tabeli delta z kolejnością wirtualną dla błyskawicznych operacji odczytu
Integracja jednym kliknięciem z usługą Power BI z usługą Direct Lake i Copilot
Rozbudowane szczegółowe informacje biznesowe dzięki dołączaniu danych do różnych źródeł
Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków

Dane usługi OneLake są przechowywane w formacie usługi Delta Lake typu open source, co umożliwia używanie ich z różnymi rozwiązaniami w firmie Microsoft i poza nią. Ten format danych ułatwia tworzenie pojedynczego majątku danych dla potrzeb analitycznych.

Jakie środowiska analityczne są wbudowane?

Dublowane bazy danych są elementem w usłudze Fabric Magazyn danych odrębnym od punktu końcowego magazynu i analizy SQL.

Diagram dublowania sieci szkieletowej dla usługi Azure Cosmos DB.

Każda dublowana baza danych usługi Azure Cosmos DB ma trzy elementy, z którymi można korzystać w obszarze roboczym usługi Fabric:

Element dublowanej bazy danych. Dublowanie zarządza replikacją danych do usługi OneLake i konwersją na Parquet w formacie gotowym do analizy. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
Punkt końcowy analizy SQL, który jest generowany automatycznie
Domyślny model semantyczny, który jest generowany automatycznie

Dublowana baza danych

Dublowana baza danych pokazuje stan replikacji oraz kontrolki, które mają zatrzymać lub uruchomić replikację w usłudze Fabric OneLake. Możesz również wyświetlić źródłową bazę danych w trybie tylko do odczytu przy użyciu Eksploratora danych usługi Azure Cosmos DB. Za pomocą Eksploratora danych możesz wyświetlać kontenery w źródłowej bazie danych usługi Azure Cosmos DB i wykonywać względem nich zapytania. Te operacje zużywają jednostki żądań (RU) z konta usługi Azure Cosmos DB. Wszelkie zmiany źródłowej bazy danych są natychmiast odzwierciedlane w widoku źródłowej bazy danych sieci Szkieletowej. Zapisywanie w źródłowej bazie danych nie jest dozwolone z sieci szkieletowej, ponieważ można wyświetlać tylko dane.

Punkt końcowy analizy SQL

Każda dublowana baza danych ma automatycznie wygenerowany punkt końcowy analizy SQL, który zapewnia zaawansowane środowisko analityczne na podstawie tabel delty usługi OneLake utworzonych przez proces dublowania. Masz dostęp do znanych poleceń języka T-SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi z punktu końcowego analizy SQL, ponieważ jest to kopia tylko do odczytu.

Następujące akcje można wykonać w punkcie końcowym analizy SQL:

Eksplorowanie tabel usługi Delta Lake przy użyciu języka T-SQL. Każda tabela jest mapowana na kontener z bazy danych usługi Azure Cosmos DB.
Tworzenie zapytań i widoków bez kodu oraz eksplorowanie ich wizualnie bez konieczności pisania wiersza kodu.
Dołączanie i wykonywanie zapytań o dane w innych dublowanych bazach danych, magazynach i usłudze Lakehouse w tym samym obszarze roboczym.
Raporty analizy biznesowej można łatwo wizualizować i tworzyć na podstawie zapytań LUB widoków SQL.

Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi. Te narzędzia obejmują rozszerzenie mssql z programem Visual Studio Code, programem SQL Server Management Studio (SSMS), a nawet usługą GitHub Copilot. Możesz doładować analizę i generowanie szczegółowych informacji z wybranego narzędzia.

Model semantyczny

Domyślny model semantyczny to automatycznie aprowizowany model semantyczny usługi Power BI. Ta funkcja umożliwia tworzenie, udostępnianie i ponowne używanie metryk biznesowych. Aby uzyskać więcej informacji, zobacz semantyczne modele.

Jak działa replikacja niemal w czasie rzeczywistym?

Po włączeniu dublowania w bazie danych usługi Azure Cosmos DB operacje wstawiania, aktualizowania i usuwania danych przetwarzania transakcji online (OLTP) są stale replikowane do usługi Fabric OneLake na potrzeby analizy.

Funkcja ciągłej kopii zapasowej jest wymaganiem wstępnym do dublowania. Możesz włączyć 7-dniową lub 30-dniową ciągłą kopię zapasową na koncie usługi Azure Cosmos DB. Jeśli włączasz ciągłą kopię zapasową specjalnie na potrzeby dublowania, zalecane jest wykonywanie 7-dniowej ciągłej kopii zapasowej, ponieważ jest to bezpłatne.

Uwaga

Dublowanie nie używa magazynu analitycznego ani zestawienia zmian usługi Azure Cosmos DB jako źródła przechwytywania danych zmian. Te możliwości można nadal używać niezależnie wraz z dublowaniem.

Replikacja danych usługi Azure Cosmos DB do usługi Fabric OneLake może potrwać kilka minut. W zależności od początkowej migawki danych lub częstotliwości aktualizacji/usuwania replikacja może również trwać dłużej w niektórych przypadkach. Replikacja nie ma wpływu na jednostki żądań przydzielone dla obciążeń transakcyjnych.

Czego można oczekiwać od dublowania

Istnieje kilka zagadnień i obsługiwanych scenariuszy, które należy wziąć pod uwagę przed dublowaniem.

Zagadnienia dotyczące konfiguracji

Aby zdublować bazę danych, należy ją już aprowizować na platformie Azure. Musisz włączyć ciągłą kopię zapasową na koncie jako wymaganie wstępne.

W danym momencie można dublować tylko każdą bazę danych pojedynczo. Możesz wybrać bazę danych do dublowania.
Tę samą bazę danych można dublować wiele razy w tym samym obszarze roboczym. Najlepszym rozwiązaniem jest ponowne użycie pojedynczej kopii bazy danych w magazynach typu lakehouse, magazynach lub innych dublowanych bazach danych. Nie należy konfigurować wielu dublowania w tej samej bazie danych.
Tę samą bazę danych można również dublować w różnych obszarach roboczych lub dzierżawach usługi Fabric.
Zmiany w kontenerach usługi Azure Cosmos DB, takie jak dodawanie nowych kontenerów i usuwanie istniejących, są bezproblemowo replikowane do sieci szkieletowej. Możesz rozpocząć dublowanie pustej bazy danych bez kontenerów, na przykład, a dublowanie bezproblemowo pobiera kontenery dodane w późniejszym punkcie w czasie.

Obsługa zagnieżdżonych danych

Zagnieżdżone dane są wyświetlane jako ciąg JSON w tabelach punktów końcowych analizy SQL. Do selektywnego rozszerzania tych danych można używać OPENJSONzapytań , CROSS APPLYi OUTER APPLY w zapytaniach języka T-SQL lub widokach. Jeśli używasz dodatku Power Query, możesz również zastosować funkcję w celu rozwinięcia ToJson tych danych.

Uwaga

Sieć szkieletowa ma ograniczenie dotyczące kolumn ciągów o rozmiarze 8 KB. Aby uzyskać więcej informacji, zobacz Ograniczenia magazynu danych.

Obsługa zmian schematu

Dublowanie automatycznie replikuje właściwości między elementami usługi Azure Cosmos DB z zmianami schematu. Wszystkie nowe właściwości odnalezione w elemencie są wyświetlane jako nowe kolumny, a brakujące właściwości , jeśli istnieją, są reprezentowane jako null w sieci szkieletowej.

Jeśli zmienisz nazwę właściwości w elemencie, tabele sieci szkieletowej zachowają zarówno stare, jak i nowe kolumny. Stara kolumna będzie zawierać wartość null, a nowa będzie zawierać najnowszą wartość dla wszystkich elementów replikowanych po operacji zmiany nazwy.

W przypadku zmiany typu danych właściwości w elementach usługi Azure Cosmos DB zmiany są obsługiwane w przypadku zgodnych typów danych, które można przekonwertować. Jeśli typy danych nie są zgodne z konwersją w funkcji Delta, są one reprezentowane jako wartości null.

Tabele punktów końcowych analizy SQL konwertują typy danych różnicowych na typy danych T-SQL.

Zduplikowane nazwy kolumn

Usługa Azure Cosmos DB obsługuje nazwy kolumn bez uwzględniania wielkości liter na podstawie standardu JSON. Funkcja dublowania obsługuje te zduplikowane nazwy kolumn, dodając _n do nazwy kolumny, gdzie n byłaby wartością liczbową.

Jeśli na przykład element usługi Azure Cosmos DB ma addressName unikatowe właściwości i AddressName jako unikatowe, tabele sieci szkieletowej mają odpowiednie addressName kolumny i AddressName_1 . Aby uzyskać więcej informacji, zobacz Ograniczenia replikacji.

Zabezpieczenia

Połączenia ze źródłową bazą danych są oparte na kluczach kont usługi Azure Cosmos DB. W przypadku rotacji lub ponownego generowania kluczy należy zaktualizować połączenia, aby upewnić się, że replikacja działa. Aby uzyskać więcej informacji, zobacz połączenia.

Klucze konta nie są bezpośrednio widoczne dla innych użytkowników sieci Szkieletowej po skonfigurowaniu połączenia. Możesz ograniczyć, kto ma dostęp do połączeń utworzonych w usłudze Fabric. Zapisy nie są dozwolone w bazie danych usługi Azure Cosmos DB z eksploratora danych lub punktu końcowego analizy w dublowanej bazie danych.

Dublowanie nie obsługuje obecnie uwierzytelniania przy użyciu kluczy kont tylko do odczytu, logowania jednokrotnego (SSO) z identyfikatorami Firmy Microsoft Entra i kontrolą dostępu opartą na rolach lub tożsamościami zarządzanymi.

Gdy dane są replikowane do usługi Fabric OneLake, musisz zabezpieczyć dostęp do tych danych.

Funkcje ochrony danych

Szczegółowe zabezpieczenia można skonfigurować w dublowanej bazie danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz szczegółowe uprawnienia w usłudze Microsoft Fabric.

Filtry kolumn i filtry wierszy oparte na predykacie można zabezpieczyć w tabelach do ról i użytkowników w usłudze Microsoft Fabric:

Możesz również maskować poufne dane od użytkowników niebędących administratorami przy użyciu dynamicznego maskowania danych:

Dynamiczne maskowanie danych w magazynowaniu danych w sieci szkieletowej

Bezpieczeństwo sieci

Obecnie dublowanie nie obsługuje prywatnych punktów końcowych ani kluczy zarządzanych przez klienta (CMK) w usłudze OneLake. Dublowanie nie jest obsługiwane w przypadku kont usługi Azure Cosmos DB z konfiguracjami zabezpieczeń sieci mniej permissywnymi niż wszystkie sieci, przy użyciu punktów końcowych usługi, używania prywatnych punktów końcowych, adresów IP ani innych ustawień, które mogą ograniczyć dostęp do sieci publicznej do konta. Konta usługi Azure Cosmos DB powinny być otwarte dla wszystkich sieci do pracy z dublowaniem.

Odzyskiwanie po awarii i opóźnienie replikacji

W sieci szkieletowej można wdrożyć zawartość w centrach danych w regionach innych niż region macierzysny dzierżawy sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Obsługa wielu regionów geograficznych.

W przypadku konta usługi Azure Cosmos DB z podstawowym regionem zapisu i wieloma regionami odczytu funkcja dublowania wybiera region odczytu usługi Azure Cosmos DB najbliżej regionu, w którym skonfigurowano pojemność sieci szkieletowej. Ten wybór pomaga zapewnić replikację o małych opóźnieniach na potrzeby dublowania.

Po przełączeniu konta usługi Azure Cosmos DB do regionu odzyskiwania funkcja dublowania automatycznie wybiera najbliższy region usługi Azure Cosmos DB ponownie.

Uwaga

Dublowanie nie obsługuje kont z wieloma regionami zapisu.

Dane usługi Cosmos DB replikowane do usługi OneLake muszą być skonfigurowane do obsługi awarii w całym regionie. Aby uzyskać więcej informacji, zobacz Odzyskiwanie po awarii w usłudze OneLake.

Eksplorowanie danych za pomocą dublowania

Dane dublowane można wyświetlać bezpośrednio i uzyskiwać do nich dostęp w usłudze OneLake. Możesz również bezproblemowo uzyskiwać dostęp do danych dublowanych bez dalszego przenoszenia danych.

Dowiedz się więcej na temat uzyskiwania dostępu do usługi OneLake przy użyciu interfejsów API lub zestawu SDK usługi ADLS Gen2, Eksploratora plików usługi OneLake i Eksploratora usługi Azure Storage.

Możesz nawiązać połączenie z punktem końcowym analizy SQL za pomocą narzędzi, takich jak SQL Server Management Studio (SSMS) lub używając sterowników, takich jak Microsoft Open Database Connectivity (ODBC) i Java Database Connectivity (JDBC). Aby uzyskać więcej informacji, zobacz Łączność punktów końcowych analizy SQL.

Dostęp do danych dublowanych można również uzyskać za pomocą usług, takich jak:

Usługi platformy Azure, takie jak Azure Databricks, Azure HDInsight lub Azure Synapse Analytics
Usługa Fabric Lakehouse korzystająca ze skrótów do scenariuszy inżynierii danych i nauki o danych
Inne dublowane bazy danych lub magazyny w obszarze roboczym Sieć szkieletowa

Możesz również tworzyć rozwiązania architektury medalonu, czyścić i przekształcać dane docelowe w dublowaną bazę danych jako warstwę z brązu. Aby uzyskać więcej informacji, zobacz obsługa architektury medalonu w usłudze Fabric.

Cennik

Dublowanie jest bezpłatne w przypadku obliczeń używanych do replikowania danych usługi Cosmos DB do usługi Fabric OneLake. Magazyn w usłudze OneLake jest bezpłatny w oparciu o określone warunki. Aby uzyskać więcej informacji, zobacz Cennik usługi OneLake na potrzeby dublowania. Użycie zasobów obliczeniowych do wykonywania zapytań dotyczących danych za pośrednictwem usług SQL, Power BI lub Spark jest nadal naliczane na podstawie pojemności sieci szkieletowej.

Jeśli używasz eksploratora danych w funkcji dublowania sieci szkieletowej, naliczasz typowe koszty na podstawie użycia jednostek żądań (RU) w celu eksplorowania kontenerów i wykonywania zapytań o elementy w źródłowej bazie danych usługi Azure Cosmos DB. Funkcja ciągłej kopii zapasowej usługi Azure Cosmos DB jest wymaganiem wstępnym do dublowania: obowiązują standardowe opłaty za ciągłą kopię zapasową. Nie są naliczane dodatkowe opłaty za dublowanie w rozliczeniach ciągłej kopii zapasowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure Cosmos DB.

Następny krok

Samouczek: konfigurowanie dublowanych baz danych usługi Microsoft Fabric z usługi Azure Cosmos DB (wersja zapoznawcza)

Udostępnij za pośrednictwem

Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)

Dlaczego warto używać dublowania w sieci szkieletowej?

Jakie środowiska analityczne są wbudowane?

Dublowana baza danych

Punkt końcowy analizy SQL

Model semantyczny

Jak działa replikacja niemal w czasie rzeczywistym?

Czego można oczekiwać od dublowania

Zagadnienia dotyczące konfiguracji

Obsługa zagnieżdżonych danych

Obsługa zmian schematu

Zduplikowane nazwy kolumn

Zabezpieczenia

Funkcje ochrony danych

Bezpieczeństwo sieci

Odzyskiwanie po awarii i opóźnienie replikacji

Eksplorowanie danych za pomocą dublowania

Cennik

Następny krok

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)

Dlaczego warto używać dublowania w sieci szkieletowej?

Jakie środowiska analityczne są wbudowane?

Dublowana baza danych

Punkt końcowy analizy SQL

Model semantyczny

Jak działa replikacja niemal w czasie rzeczywistym?

Czego można oczekiwać od dublowania

Zagadnienia dotyczące konfiguracji

Obsługa zagnieżdżonych danych

Obsługa zmian schematu

Zduplikowane nazwy kolumn

Zabezpieczenia

Funkcje ochrony danych

Bezpieczeństwo sieci

Odzyskiwanie po awarii i opóźnienie replikacji

Eksplorowanie danych za pomocą dublowania

Cennik

Następny krok

Powiązana zawartość

Opinia

Dodatkowe zasoby