Omówienie magazynów danych w sieci szkieletowej

Ukończone

Usługa Fabric Lakehouse to kolekcja plików, folderów, tabel i skrótów, które działają jak baza danych w usłudze Data Lake. Jest on używany przez aparat Spark i aparat SQL do przetwarzania danych big data i ma funkcje transakcji ACID podczas korzystania z tabel sformatowanych przez funkcję delta typu open source.

Środowisko magazynu danych usługi Fabric umożliwia przejście z widoku typu lake usługi Lakehouse (obsługującego inżynierię danych i platformę Apache Spark) do środowisk SQL, które zapewnia tradycyjny magazyn danych. Usługa Lakehouse umożliwia odczytywanie tabel i używanie punktu końcowego analizy SQL, natomiast magazyn danych umożliwia manipulowanie danymi.

W środowisku magazynu danych modelujesz dane przy użyciu tabel i widoków, uruchamiasz język T-SQL, aby wykonywać zapytania o dane w magazynie danych i usłudze Lakehouse, używać języka T-SQL do wykonywania operacji DML na danych wewnątrz magazynu danych i obsługiwać warstwy raportowania, takie jak usługa Power BI.

Teraz, gdy znasz podstawowe zasady architektury schematu relacyjnego magazynu danych, zobaczmy, jak utworzyć magazyn danych.

Opisywanie magazynu danych w usłudze Fabric

W środowisku magazynu danych w usłudze Fabric można utworzyć warstwę relacyjną na podstawie danych fizycznych w usłudze Lakehouse i udostępnić ją narzędziom do analizy i raportowania. Magazyn danych można utworzyć bezpośrednio w usłudze Fabric z poziomu centrum tworzenia lub obszaru roboczego. Po utworzeniu pustego magazynu można do niego dodać obiekty.

Zrzut ekranu przedstawiający interfejs użytkownika sieci szkieletowej ze strzałką wskazującą centrum tworzenia.

Po utworzeniu magazynu można tworzyć tabele bezpośrednio w interfejsie sieci szkieletowej przy użyciu języka T-SQL.

Pozyskiwanie danych do magazynu danych

Istnieje kilka sposobów pozyskiwania danych do magazynu danych sieci szkieletowej, w tym potoków, przepływów danych, wykonywania zapytań między bazami danych i polecenia COPY INTO. Po pozyskaniu dane stają się dostępne do analizy przez wiele grup biznesowych, które mogą używać funkcji, takich jak wykonywanie zapytań między bazami danych i udostępnianie w celu uzyskania do nich dostępu.

Utwórz tabele

Aby utworzyć tabelę w magazynie danych, możesz użyć programu SQL Server Management Studio (SSMS) lub innego klienta SQL, aby nawiązać połączenie z magazynem danych i uruchomić instrukcję CREATE TABLE. Tabele można również tworzyć bezpośrednio w interfejsie użytkownika sieci szkieletowej.

Dane z lokalizacji zewnętrznej można skopiować do tabeli w magazynie danych przy użyciu COPY INTO składni . Na przykład:

COPY INTO dbo.Region 
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH ( 
            FILE_TYPE = 'CSV'
            ,CREDENTIAL = ( 
                IDENTITY = 'Shared Access Signature'
                , SECRET = 'xxx'
                )
            ,FIRSTROW = 2
            )
GO

To zapytanie SQL ładuje dane z pliku CSV przechowywanego w usłudze Azure Blob Storage do tabeli o nazwie "Region" w magazynie danych sieci szkieletowej.

Zrzut ekranu edytora zapytań SQL z otwartym zapytaniem.

Klonowanie tabel

Możesz utworzyć klony tabeli bez kopiowania z minimalnymi kosztami magazynowania w magazynie danych. Klony te są zasadniczo replikami tabel utworzonych przez skopiowanie metadanych, jednocześnie odwołując się do tych samych plików danych w usłudze OneLake. Oznacza to, że bazowe dane przechowywane jako pliki parquet nie są zduplikowane, co pomaga zaoszczędzić koszty magazynowania.

Klony tabel są szczególnie przydatne w kilku scenariuszach.

  • Programowanie i testowanie: Klony umożliwiają deweloperom i testerom tworzenie kopii tabel w niższych środowiskach, ułatwianie programowania, debugowania, testowania i walidacji procesów.
  • Odzyskiwanie danych: w przypadku niepowodzenia wydania lub uszkodzenia danych klony tabel mogą zachować poprzedni stan danych, umożliwiając odzyskiwanie danych.
  • Raportowanie historyczne: pomagają tworzyć raporty historyczne, które odzwierciedlają stan danych w określonych punktach w czasie i zachowują dane w określonych punktach kontrolnych firmy.

Sklonowanie tabeli można utworzyć przy użyciu CREATE TABLE AS CLONE OF polecenia T-SQL.

Aby dowiedzieć się więcej o klonach tabel, zobacz Samouczek: klonowanie tabeli przy użyciu języka T-SQL w usłudze Microsoft Fabric.

Zagadnienia dotyczące tabeli

Po utworzeniu tabel w magazynie danych należy wziąć pod uwagę proces ładowania danych do tych tabel. Typowym podejściem jest użycie tabel przejściowych. W sieci szkieletowej można użyć poleceń języka T-SQL, aby załadować dane z plików do tabel przejściowych w magazynie danych.

Tabele przejściowe to tabele tymczasowe, które mogą służyć do czyszczenia danych, przekształcania danych i walidacji danych. Tabele przejściowe umożliwiają również ładowanie danych z wielu źródeł do pojedynczej tabeli docelowej.

Zwykle ładowanie danych jest wykonywane jako okresowy proces wsadowy, w którym operacje wstawiania i aktualizacji magazynu danych są koordynowane w regularnych odstępach czasu (na przykład codziennie, co tydzień lub co miesiąc).

Ogólnie rzecz biorąc, należy zaimplementować proces ładowania magazynu danych, który wykonuje zadania w następującej kolejności:

  1. Pozyskaj nowe dane do załadowania do magazynu typu data lake, stosując czyszczenie przed obciążeniem lub przekształcenia zgodnie z potrzebami.
  2. Załaduj dane z plików do tabel przejściowych w relacyjnym magazynie danych.
  3. Załaduj tabele wymiarów z danych wymiarów w tabelach przejściowych, aktualizując istniejące wiersze lub wstawiając nowe wiersze i generując w razie potrzeby wartości klucza zastępczego.
  4. Załaduj tabele faktów z danych faktów w tabelach przejściowych, wyszukując odpowiednie klucze zastępcze dla powiązanych wymiarów.
  5. Przeprowadź optymalizację po załadowaniu, aktualizując indeksy i statystyki dystrybucji tabel.

Jeśli masz tabele w usłudze Lakehouse i chcesz mieć możliwość wykonywania zapytań względem niego w magazynie — ale nie wprowadzasz zmian — w magazynie danych usługi Fabric nie musisz kopiować danych z magazynu lakehouse do magazynu danych. Dane w usłudze Lakehouse można wykonywać bezpośrednio z magazynu danych przy użyciu zapytań obejmujących wiele baz danych.

Ważne

Praca z tabelami w magazynie danych sieci szkieletowej ma obecnie pewne ograniczenia. Aby uzyskać więcej informacji, zobacz Tabele w magazynowaniu danych w usłudze Microsoft Fabric .