Co to jest dublowanie w sieci szkieletowej?
Dublowanie w sieci szkieletowej to rozwiązanie o niskich kosztach i małych opóźnieniach, które umożliwia łączenie danych z różnych systemów w jedną platformę analizy. Istniejące zasoby danych można stale replikować bezpośrednio do usługi OneLake sieci Szkieletowej z różnych baz danych platformy Azure i zewnętrznych źródeł danych.
Dzięki najbardziej aktualnym danym w formacie z możliwością wykonywania zapytań w usłudze OneLake możesz teraz używać wszystkich różnych usług w usłudze Fabric, takich jak uruchamianie analiz za pomocą platformy Spark, wykonywanie notesów, inżynierii danych, wizualizowanie za pośrednictwem raportów usługi Power BI i nie tylko.
Dublowanie w sieci szkieletowej umożliwia użytkownikom korzystanie z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych. Opracowane pod kątem otwartości i współpracy między firmą Microsoft oraz rozwiązania technologiczne, które mogą odczytywać format tabeli usługi Delta Lake typu open source, dublowanie jest rozwiązaniem o niskich kosztach i małych opóźnieniach, które umożliwia utworzenie repliki danych w usłudze OneLake, które może być używane dla wszystkich potrzeb analitycznych.
Tabele delty mogą być następnie używane wszędzie w sieci szkieletowej, co umożliwia użytkownikom przyspieszenie podróży do sieci szkieletowej.
Dlaczego warto używać funkcji dublowania w sieci szkieletowej?
Obecnie wiele organizacji ma krytyczne dane operacyjne lub analityczne siedzące w silosach.
Uzyskiwanie dostępu do tych danych i praca z nimi wymaga obecnie złożonych potoków ETL (Wyodrębnij transformację ładowania), procesów biznesowych i silosów decyzyjnych, tworząc:
- Ograniczony i ograniczony dostęp do ważnych, ciągle zmieniających się danych
- Tarcie między ludźmi, procesem i technologią
- Długie czasy oczekiwania na tworzenie potoków danych i procesów w celu krytycznego znaczenia danych
- Brak swobody korzystania z narzędzi potrzebnych do wygodnego analizowania i udostępniania szczegółowych informacji
- Brak właściwej podstawy, aby ludzie dzielili się danymi i współpracowali nad nimi
- Brak typowych, otwartych formatów danych dla wszystkich scenariuszy analitycznych — analizy biznesowej, sztucznej inteligencji, integracji, inżynierii, a nawet aplikacji
Dublowanie w sieci szkieletowej zapewnia łatwe środowisko umożliwiające przyspieszenie czasu uzyskiwania szczegółowych informacji i decyzji oraz podział silosów danych między rozwiązaniami technologicznymi:
- Niemal w czasie rzeczywistym replikacja danych i metadanych do usługi SaaS data-lake z wbudowaną funkcją analizy biznesowej i sztucznej inteligencji
Platforma Microsoft Fabric jest oparta na oparciu o oprogramowanie jako usługę (SaaS), która ma prostotę i integrację na zupełnie nowym poziomie. Aby dowiedzieć się więcej o usłudze Microsoft Fabric, zobacz Co to jest microsoft fabric?
Dublowanie tworzy trzy elementy w obszarze roboczym usługi Fabric:
- Dublowanie zarządza replikacją danych i metadanych do usługi OneLake i konwersją na Parquet w formacie gotowym do analizy. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
- Punkt końcowy analizy SQL
- Domyślny model semantyczny
Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi, w tym SQL Server Management Studio (SSMS), rozszerzenie mssql z programem Visual Studio Code, a nawet GitHub Copilot.
Udostępnianie umożliwia łatwość kontroli dostępu i zarządzania, aby upewnić się, że możesz kontrolować dostęp do poufnych informacji. Udostępnianie umożliwia również bezpieczne i zdemokratyzowane podejmowanie decyzji w całej organizacji.
Typy dublowania
Sieć szkieletowa oferuje trzy różne podejścia do instalowania danych w usłudze OneLake przez dublowanie.
- Dublowanie baz danych — dublowanie bazy danych w usłudze Microsoft Fabric umożliwia replikację całych baz danych i tabel, umożliwiając łączenie danych z różnych systemów w jedną platformę analizy.
- Dublowanie metadanych — dublowanie metadanych w sieci szkieletowej synchronizuje metadane (takie jak nazwy katalogów, schematy i tabele) zamiast fizycznie przenosić dane. Takie podejście wykorzystuje skróty, zapewniając, że dane pozostają w jego źródle, a jednocześnie są łatwo dostępne w sieci Szkieletowej.
- Otwieranie dublowania — otwieranie dublowania w sieci szkieletowej jest przeznaczone do rozszerzania dublowania na podstawie otwartego formatu tabeli usługi Delta Lake. Ta funkcja umożliwia każdemu deweloperowi zapisywanie danych zmian aplikacji bezpośrednio w element dublowanej bazy danych w usłudze Microsoft Fabric w oparciu o otwarte podejście dublowania i publiczne interfejsy API.
Obecnie dostępne są następujące zewnętrzne bazy danych:
Jak działa replikacja dublowania bazy danych niemal w czasie rzeczywistym?
Dublowanie jest włączone przez utworzenie bezpiecznego połączenia ze źródłem danych operacyjnych. Decydujesz, czy replikować całą bazę danych, czy poszczególne tabele, a dublowanie automatycznie zachowa synchronizację danych. Po skonfigurowaniu dane będą stale replikowane do usługi OneLake na potrzeby użycia analiz.
Poniżej przedstawiono podstawowe założenia dublowania:
Włączanie dublowania w sieci szkieletowej jest proste i intuicyjne, bez konieczności tworzenia złożonych potoków ETL, przydzielania innych zasobów obliczeniowych i zarządzania przenoszeniem danych.
Dublowanie w sieci szkieletowej to w pełni zarządzana usługa, więc nie musisz martwić się o hostowanie, konserwowanie i zarządzanie replikacją dublowanego połączenia.
Jak działa dublowanie metadanych?
Dublowanie nie tylko umożliwia replikację danych, ale można również przeprowadzić za pomocą skrótów lub dublowania metadanych, a nie pełnej replikacji danych, co pozwala na dostępność danych bez fizycznego przenoszenia lub duplikowania. Dublowanie w tym kontekście odnosi się do replikowania tylko metadanych, takich jak nazwy katalogów, schematy i tabele, a nie rzeczywiste dane. Takie podejście umożliwia sieci szkieletowej udostępnianie danych z różnych źródeł bez duplikowania ich, upraszczanie zarządzania danymi i minimalizowanie potrzeb związanych z magazynem.
Na przykład podczas uzyskiwania dostępu do danych zarejestrowanych w wykazie aparatu Unity sieć szkieletowa odzwierciedla tylko strukturę wykazu z usługi Azure Databricks, umożliwiając dostęp do danych bazowych za pomocą skrótów. Ta metoda gwarantuje, że wszelkie zmiany w danych źródłowych zostaną natychmiast odzwierciedlone w sieci szkieletowej bez konieczności przenoszenia danych, utrzymania synchronizacji w czasie rzeczywistym i zwiększenia wydajności uzyskiwania dostępu do aktualnych informacji.
Jak działa otwieranie dublowania?
Oprócz dublowania umożliwiającego replikację danych przez utworzenie bezpiecznego połączenia ze źródłem danych można również wybrać istniejącego dostawcę danych lub napisać własną aplikację, aby umieścić dane w dublowanej bazie danych. Po utworzeniu otwartej dublowanej bazy danych za pośrednictwem publicznego interfejsu API lub portalu sieci szkieletowej będzie można uzyskać adres URL strefy docelowej w usłudze OneLake, gdzie można wylądować zmiany danych na otwartą specyfikację dublowania.
Gdy dane znajdą się w strefie docelowej z odpowiednim formatem, replikacja zacznie działać i zarządza złożonością scalania zmian z aktualizacjami, wstawianiem i usuwaniem, które mają zostać odzwierciedlone w tabelach różnicowych. Ta metoda gwarantuje, że wszystkie dane zapisane w strefie docelowej będą natychmiast i będą aktualne w sieci szkieletowej.
Udostępnianie
Udostępnianie zapewnia łatwość kontroli dostępu i zarządzania, a mechanizmy zabezpieczeń, takie jak zabezpieczenia na poziomie wiersza i zabezpieczenia na poziomie obiektu (OLS), a także zapewniają kontrolę dostępu do poufnych informacji. Udostępnianie umożliwia również bezpieczne i zdemokratyzowane podejmowanie decyzji w całej organizacji.
Dzięki udostępnianiu użytkownicy udzielają innym użytkownikom lub grupie użytkowników dostępu do dublowanej bazy danych bez udzielania dostępu do obszaru roboczego i pozostałych elementów. Gdy ktoś udostępnia dublowaną bazę danych, udziela również dostępu do punktu końcowego analizy SQL i skojarzonego domyślnego modelu semantycznego.
Aby uzyskać więcej informacji, zobacz Udostępnianie dublowanej bazy danych i zarządzanie uprawnieniami.
Zapytania obejmujące wiele baz danych
Dzięki danych z dublowanej bazy danych przechowywanej w usłudze OneLake można zapisywać zapytania obejmujące wiele baz danych, łącząc dane z dublowanych baz danych, magazynów i punktów końcowych analizy SQL usługi Lakehouse w jednym zapytaniu T-SQL. Aby uzyskać więcej informacji, zobacz Pisanie zapytania obejmującego wiele baz danych.
Można na przykład odwołać się do tabeli z dublowanych baz danych i magazynów przy użyciu trzyczęściowego nazewnictwa. W poniższym przykładzie użyj trzyczęściowej nazwy, aby odwołać się do ContosoSalesTable
w magazynie ContosoWarehouse
. Z innych baz danych lub magazynów pierwsza część standardowej trójczęściowej konwencji nazewnictwa SQL to nazwa dublowanej bazy danych.
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
inżynierowie danych z dublowanych danych bazy danych
Usługa Microsoft Fabric oferuje różne możliwości inżynierii danych, aby zapewnić łatwy dostęp do danych, dobrze zorganizowany i wysokiej jakości. Z poziomu inżynierowie danych sieci szkieletowej można wykonywać następujące czynności:
- Tworzenie danych i zarządzanie nimi na platformie Spark przy użyciu usługi Lakehouse
- Projektowanie potoków w celu skopiowania danych do usługi Lakehouse
- Przesyłanie zadania wsadowego/przesyłania strumieniowego do klastra Spark przy użyciu definicji zadań platformy Spark
- Używanie notesów do pisania kodu na potrzeby pozyskiwania, przygotowywania i przekształcania danych
Nauka o danych z dublowanych danych bazy danych
Usługa Microsoft Fabric oferuje usługę Fabric Nauka o danych, aby umożliwić użytkownikom kompleksowe przepływy pracy nauki o danych na potrzeby wzbogacania danych i szczegółowych informacji biznesowych. Możesz ukończyć szeroką gamę działań w całym procesie nauki o danych, od eksploracji danych, przygotowywania i czyszczenia po eksperymenty, modelowanie, ocenianie modeli i obsługę analiz predykcyjnych do raportów analizy biznesowej.
Użytkownicy usługi Microsoft Fabric mogą uzyskiwać dostęp do obciążeń Nauka o danych. Z tego miejsca mogą odnajdywać różne odpowiednie zasoby i uzyskiwać do nich dostęp. Mogą na przykład tworzyć eksperymenty, modele i notesy uczenia maszynowego. Mogą również importować istniejące notesy na stronie głównej Nauka o danych.
Baza danych SQL w sieci szkieletowej
Możesz również bezpośrednio utworzyć bazę danych SQL i zarządzać nią w usłudze Microsoft Fabric (wersja zapoznawcza) w portalu sieci szkieletowej. W oparciu o usługę Azure SQL Database baza danych SQL w sieci szkieletowej jest automatycznie dublowana do celów analitycznych i umożliwia łatwe tworzenie operacyjnej bazy danych w sieci szkieletowej. Baza danych SQL to strona główna w sieci szkieletowej dla obciążeń OLTP i może być zintegrowana z integracją kontroli źródła sieci szkieletowej.