Dublowanie usługi Azure Cosmos DB (wersja zapoznawcza)
Dublowanie w usłudze Microsoft Fabric zapewnia bezproblemowe środowisko bez etL w celu zintegrowania istniejących danych usługi Azure Cosmos DB z resztą danych w usłudze Microsoft Fabric. Dane usługi Azure Cosmos DB są stale replikowane bezpośrednio do usługi Fabric OneLake niemal w czasie rzeczywistym, bez wpływu na wydajność obciążeń transakcyjnych lub zużywających jednostki żądań (RU).
Dane w usłudze OneLake są przechowywane w formacie różnicowym typu open source i automatycznie udostępniane wszystkim aparatom analitycznym w sieci szkieletowej.
Wbudowane funkcje usługi Power BI umożliwiają uzyskiwanie dostępu do danych w usłudze OneLake w trybie DirectLake. Dzięki Copilot ulepszeniom w usłudze Fabric możesz użyć możliwości generowania sztucznej inteligencji, aby uzyskać kluczowe szczegółowe informacje na temat danych biznesowych. Oprócz usługi Power BI można używać języka T-SQL do uruchamiania złożonych zagregowanych zapytań lub używania platformy Spark do eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach i używać nauki o danych do tworzenia modeli uczenia maszynowego.
Ważne
Dublowanie dla usługi Azure Cosmos DB jest obecnie dostępne w wersji zapoznawczej. Obciążenia produkcyjne nie są obsługiwane w wersji zapoznawczej. Obecnie obsługiwane są tylko konta usługi Azure Cosmos DB for NoSQL.
Dlaczego warto używać dublowania w sieci szkieletowej?
W przypadku dublowania w sieci szkieletowej nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych i skompilowania pod kątem otwartości.
Jeśli szukasz raportów analizy biznesowej lub analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:
- Brak etL, ekonomiczny dostęp niemal w czasie rzeczywistym do danych usługi Azure Cosmos DB bez wpływu na użycie jednostek żądania
- Łatwość noszenia danych między różnymi źródłami w usłudze Fabric OneLake
- Optymalizacje tabeli delta z kolejnością wirtualną dla błyskawicznych operacji odczytu
- Integracja jednym kliknięciem z usługą Power BI z usługą Direct Lake i Copilot
- Rozbudowane szczegółowe informacje biznesowe dzięki dołączaniu danych do różnych źródeł
- Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków
Dane usługi OneLake są przechowywane w formacie usługi Delta Lake typu open source, co umożliwia używanie ich z różnymi rozwiązaniami w firmie Microsoft i poza nią. Ten format danych ułatwia tworzenie pojedynczego majątku danych dla potrzeb analitycznych.
Jakie środowiska analityczne są wbudowane?
Dublowane bazy danych są elementem w usłudze Fabric Magazyn danych odrębnym od punktu końcowego magazynu i analizy SQL.
Każda dublowana baza danych usługi Azure Cosmos DB ma trzy elementy, z którymi można korzystać w obszarze roboczym usługi Fabric:
- Element dublowanej bazy danych. Dublowanie zarządza replikacją danych do usługi OneLake i konwersją na Parquet w formacie gotowym do analizy. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
- Punkt końcowy analizy SQL, który jest generowany automatycznie
- Domyślny model semantyczny, który jest generowany automatycznie
Dublowana baza danych
Dublowana baza danych pokazuje stan replikacji oraz kontrolki, które mają zatrzymać lub uruchomić replikację w usłudze Fabric OneLake. Możesz również wyświetlić źródłową bazę danych w trybie tylko do odczytu przy użyciu Eksploratora danych usługi Azure Cosmos DB. Za pomocą Eksploratora danych możesz wyświetlać kontenery w źródłowej bazie danych usługi Azure Cosmos DB i wykonywać względem nich zapytania. Te operacje zużywają jednostki żądań (RU) z konta usługi Azure Cosmos DB. Wszelkie zmiany źródłowej bazy danych są natychmiast odzwierciedlane w widoku źródłowej bazy danych sieci Szkieletowej. Zapisywanie w źródłowej bazie danych nie jest dozwolone z sieci szkieletowej, ponieważ można wyświetlać tylko dane.
Punkt końcowy analizy SQL
Każda dublowana baza danych ma automatycznie wygenerowany punkt końcowy analizy SQL, który zapewnia zaawansowane środowisko analityczne na podstawie tabel delty usługi OneLake utworzonych przez proces dublowania. Masz dostęp do znanych poleceń języka T-SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi z punktu końcowego analizy SQL, ponieważ jest to kopia tylko do odczytu.
Następujące akcje można wykonać w punkcie końcowym analizy SQL:
- Eksplorowanie tabel usługi Delta Lake przy użyciu języka T-SQL. Każda tabela jest mapowana na kontener z bazy danych usługi Azure Cosmos DB.
- Tworzenie zapytań i widoków bez kodu oraz eksplorowanie ich wizualnie bez konieczności pisania wiersza kodu.
- Dołączanie i wykonywanie zapytań o dane w innych dublowanych bazach danych, magazynach i usłudze Lakehouse w tym samym obszarze roboczym.
- Raporty analizy biznesowej można łatwo wizualizować i tworzyć na podstawie zapytań LUB widoków SQL.
Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi. Te narzędzia obejmują rozszerzenie mssql z programem Visual Studio Code, programem SQL Server Management Studio (SSMS), a nawet usługą GitHub Copilot. Możesz doładować analizę i generowanie szczegółowych informacji z wybranego narzędzia.
Model semantyczny
Domyślny model semantyczny to automatycznie aprowizowany model semantyczny usługi Power BI. Ta funkcja umożliwia tworzenie, udostępnianie i ponowne używanie metryk biznesowych. Aby uzyskać więcej informacji, zobacz semantyczne modele.
Jak działa replikacja niemal w czasie rzeczywistym?
Po włączeniu dublowania w bazie danych usługi Azure Cosmos DB operacje wstawiania, aktualizowania i usuwania danych przetwarzania transakcji online (OLTP) są stale replikowane do usługi Fabric OneLake na potrzeby analizy.
Funkcja ciągłej kopii zapasowej jest wymaganiem wstępnym do dublowania. Możesz włączyć 7-dniową lub 30-dniową ciągłą kopię zapasową na koncie usługi Azure Cosmos DB. Jeśli włączasz ciągłą kopię zapasową specjalnie na potrzeby dublowania, zalecane jest wykonywanie 7-dniowej ciągłej kopii zapasowej, ponieważ jest to bezpłatne.
Uwaga
Dublowanie nie używa magazynu analitycznego ani zestawienia zmian usługi Azure Cosmos DB jako źródła przechwytywania danych zmian. Te możliwości można nadal używać niezależnie wraz z dublowaniem.
Replikacja danych usługi Azure Cosmos DB do usługi Fabric OneLake może potrwać kilka minut. W zależności od początkowej migawki danych lub częstotliwości aktualizacji/usuwania replikacja może również trwać dłużej w niektórych przypadkach. Replikacja nie ma wpływu na jednostki żądań przydzielone dla obciążeń transakcyjnych.
Czego można oczekiwać od dublowania
Istnieje kilka zagadnień i obsługiwanych scenariuszy, które należy wziąć pod uwagę przed dublowaniem.
Zagadnienia dotyczące konfiguracji
Aby zdublować bazę danych, należy ją już aprowizować na platformie Azure. Musisz włączyć ciągłą kopię zapasową na koncie jako wymaganie wstępne.
- W danym momencie można dublować tylko każdą bazę danych pojedynczo. Możesz wybrać bazę danych do dublowania.
- Tę samą bazę danych można dublować wiele razy w tym samym obszarze roboczym. Najlepszym rozwiązaniem jest ponowne użycie pojedynczej kopii bazy danych w magazynach typu lakehouse, magazynach lub innych dublowanych bazach danych. Nie należy konfigurować wielu dublowania w tej samej bazie danych.
- Tę samą bazę danych można również dublować w różnych obszarach roboczych lub dzierżawach usługi Fabric.
- Zmiany w kontenerach usługi Azure Cosmos DB, takie jak dodawanie nowych kontenerów i usuwanie istniejących, są bezproblemowo replikowane do sieci szkieletowej. Możesz rozpocząć dublowanie pustej bazy danych bez kontenerów, na przykład, a dublowanie bezproblemowo pobiera kontenery dodane w późniejszym punkcie w czasie.
Obsługa zagnieżdżonych danych
Zagnieżdżone dane są wyświetlane jako ciąg JSON w tabelach punktów końcowych analizy SQL. Do selektywnego rozszerzania tych danych można używać OPENJSON
zapytań , CROSS APPLY
i OUTER APPLY
w zapytaniach języka T-SQL lub widokach. Jeśli używasz dodatku Power Query, możesz również zastosować funkcję w celu rozwinięcia ToJson
tych danych.
Uwaga
Sieć szkieletowa ma ograniczenie dotyczące kolumn ciągów o rozmiarze 8 KB. Aby uzyskać więcej informacji, zobacz Ograniczenia magazynu danych.
Obsługa zmian schematu
Dublowanie automatycznie replikuje właściwości między elementami usługi Azure Cosmos DB z zmianami schematu. Wszystkie nowe właściwości odnalezione w elemencie są wyświetlane jako nowe kolumny, a brakujące właściwości , jeśli istnieją, są reprezentowane jako null w sieci szkieletowej.
Jeśli zmienisz nazwę właściwości w elemencie, tabele sieci szkieletowej zachowają zarówno stare, jak i nowe kolumny. Stara kolumna będzie zawierać wartość null, a nowa będzie zawierać najnowszą wartość dla wszystkich elementów replikowanych po operacji zmiany nazwy.
W przypadku zmiany typu danych właściwości w elementach usługi Azure Cosmos DB zmiany są obsługiwane w przypadku zgodnych typów danych, które można przekonwertować. Jeśli typy danych nie są zgodne z konwersją w funkcji Delta, są one reprezentowane jako wartości null.
Tabele punktów końcowych analizy SQL konwertują typy danych różnicowych na typy danych T-SQL.
Zduplikowane nazwy kolumn
Usługa Azure Cosmos DB obsługuje nazwy kolumn bez uwzględniania wielkości liter na podstawie standardu JSON. Funkcja dublowania obsługuje te zduplikowane nazwy kolumn, dodając _n
do nazwy kolumny, gdzie n
byłaby wartością liczbową.
Jeśli na przykład element usługi Azure Cosmos DB ma addressName
unikatowe właściwości i AddressName
jako unikatowe, tabele sieci szkieletowej mają odpowiednie addressName
kolumny i AddressName_1
. Aby uzyskać więcej informacji, zobacz Ograniczenia replikacji.
Zabezpieczenia
Połączenia ze źródłową bazą danych są oparte na kluczach kont usługi Azure Cosmos DB. W przypadku rotacji lub ponownego generowania kluczy należy zaktualizować połączenia, aby upewnić się, że replikacja działa. Aby uzyskać więcej informacji, zobacz połączenia.
Klucze konta nie są bezpośrednio widoczne dla innych użytkowników sieci Szkieletowej po skonfigurowaniu połączenia. Możesz ograniczyć, kto ma dostęp do połączeń utworzonych w usłudze Fabric. Zapisy nie są dozwolone w bazie danych usługi Azure Cosmos DB z eksploratora danych lub punktu końcowego analizy w dublowanej bazie danych.
Dublowanie nie obsługuje obecnie uwierzytelniania przy użyciu kluczy kont tylko do odczytu, logowania jednokrotnego (SSO) z identyfikatorami Firmy Microsoft Entra i kontrolą dostępu opartą na rolach lub tożsamościami zarządzanymi.
Gdy dane są replikowane do usługi Fabric OneLake, musisz zabezpieczyć dostęp do tych danych.
Funkcje ochrony danych
Szczegółowe zabezpieczenia można skonfigurować w dublowanej bazie danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz szczegółowe uprawnienia w usłudze Microsoft Fabric.
Filtry kolumn i filtry wierszy oparte na predykacie można zabezpieczyć w tabelach do ról i użytkowników w usłudze Microsoft Fabric:
- Zabezpieczenia na poziomie wiersza w magazynowaniu danych sieci szkieletowej
- Zabezpieczenia na poziomie kolumny w magazynowaniu danych sieci szkieletowej
Możesz również maskować poufne dane od użytkowników niebędących administratorami przy użyciu dynamicznego maskowania danych:
Bezpieczeństwo sieci
Obecnie dublowanie nie obsługuje prywatnych punktów końcowych ani kluczy zarządzanych przez klienta (CMK) w usłudze OneLake. Dublowanie nie jest obsługiwane w przypadku kont usługi Azure Cosmos DB z konfiguracjami zabezpieczeń sieci mniej permissywnymi niż wszystkie sieci, przy użyciu punktów końcowych usługi, używania prywatnych punktów końcowych, adresów IP ani innych ustawień, które mogą ograniczyć dostęp do sieci publicznej do konta. Konta usługi Azure Cosmos DB powinny być otwarte dla wszystkich sieci do pracy z dublowaniem.
Odzyskiwanie po awarii i opóźnienie replikacji
W sieci szkieletowej można wdrożyć zawartość w centrach danych w regionach innych niż region macierzysny dzierżawy sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Obsługa wielu regionów geograficznych.
W przypadku konta usługi Azure Cosmos DB z podstawowym regionem zapisu i wieloma regionami odczytu funkcja dublowania wybiera region odczytu usługi Azure Cosmos DB najbliżej regionu, w którym skonfigurowano pojemność sieci szkieletowej. Ten wybór pomaga zapewnić replikację o małych opóźnieniach na potrzeby dublowania.
Po przełączeniu konta usługi Azure Cosmos DB do regionu odzyskiwania funkcja dublowania automatycznie wybiera najbliższy region usługi Azure Cosmos DB ponownie.
Uwaga
Dublowanie nie obsługuje kont z wieloma regionami zapisu.
Dane usługi Cosmos DB replikowane do usługi OneLake muszą być skonfigurowane do obsługi awarii w całym regionie. Aby uzyskać więcej informacji, zobacz Odzyskiwanie po awarii w usłudze OneLake.
Eksplorowanie danych za pomocą dublowania
Dane dublowane można wyświetlać bezpośrednio i uzyskiwać do nich dostęp w usłudze OneLake. Możesz również bezproblemowo uzyskiwać dostęp do danych dublowanych bez dalszego przenoszenia danych.
Dowiedz się więcej na temat uzyskiwania dostępu do usługi OneLake przy użyciu interfejsów API lub zestawu SDK usługi ADLS Gen2, Eksploratora plików usługi OneLake i Eksploratora usługi Azure Storage.
Możesz nawiązać połączenie z punktem końcowym analizy SQL za pomocą narzędzi, takich jak SQL Server Management Studio (SSMS) lub używając sterowników, takich jak Microsoft Open Database Connectivity (ODBC) i Java Database Connectivity (JDBC). Aby uzyskać więcej informacji, zobacz Łączność punktów końcowych analizy SQL.
Dostęp do danych dublowanych można również uzyskać za pomocą usług, takich jak:
- Usługi platformy Azure, takie jak Azure Databricks, Azure HDInsight lub Azure Synapse Analytics
- Usługa Fabric Lakehouse korzystająca ze skrótów do scenariuszy inżynierii danych i nauki o danych
- Inne dublowane bazy danych lub magazyny w obszarze roboczym Sieć szkieletowa
Możesz również tworzyć rozwiązania architektury medalonu, czyścić i przekształcać dane docelowe w dublowaną bazę danych jako warstwę z brązu. Aby uzyskać więcej informacji, zobacz obsługa architektury medalonu w usłudze Fabric.
Cennik
Dublowanie jest bezpłatne w przypadku obliczeń używanych do replikowania danych usługi Cosmos DB do usługi Fabric OneLake. Magazyn w usłudze OneLake jest bezpłatny w oparciu o określone warunki. Aby uzyskać więcej informacji, zobacz Cennik usługi OneLake na potrzeby dublowania. Użycie zasobów obliczeniowych do wykonywania zapytań dotyczących danych za pośrednictwem usług SQL, Power BI lub Spark jest nadal naliczane na podstawie pojemności sieci szkieletowej.
Jeśli używasz eksploratora danych w funkcji dublowania sieci szkieletowej, naliczasz typowe koszty na podstawie użycia jednostek żądań (RU) w celu eksplorowania kontenerów i wykonywania zapytań o elementy w źródłowej bazie danych usługi Azure Cosmos DB. Funkcja ciągłej kopii zapasowej usługi Azure Cosmos DB jest wymaganiem wstępnym do dublowania: obowiązują standardowe opłaty za ciągłą kopię zapasową. Nie są naliczane dodatkowe opłaty za dublowanie w rozliczeniach ciągłej kopii zapasowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure Cosmos DB.