Omówienie magazynów danych w sieci szkieletowej
Usługa Fabric Lakehouse to kolekcja plików, folderów, tabel i skrótów, które działają jak baza danych w usłudze Data Lake. Jest on używany przez aparat Spark i aparat SQL do przetwarzania danych big data i ma funkcje transakcji ACID podczas korzystania z tabel sformatowanych przez funkcję delta typu open source.
Środowisko magazynu danych usługi Fabric umożliwia przejście z widoku typu lake usługi Lakehouse (obsługującego inżynierię danych i platformę Apache Spark) do środowisk SQL, które zapewnia tradycyjny magazyn danych. Usługa Lakehouse umożliwia odczytywanie tabel i używanie punktu końcowego analizy SQL, natomiast magazyn danych umożliwia manipulowanie danymi.
W środowisku magazynu danych modelujesz dane przy użyciu tabel i widoków, uruchamiasz język T-SQL, aby wykonywać zapytania o dane w magazynie danych i usłudze Lakehouse, używać języka T-SQL do wykonywania operacji DML na danych wewnątrz magazynu danych i obsługiwać warstwy raportowania, takie jak usługa Power BI.
Teraz, gdy znasz podstawowe zasady architektury schematu relacyjnego magazynu danych, zobaczmy, jak utworzyć magazyn danych.
Opisywanie magazynu danych w usłudze Fabric
W środowisku magazynu danych w usłudze Fabric można utworzyć warstwę relacyjną na podstawie danych fizycznych w usłudze Lakehouse i udostępnić ją narzędziom do analizy i raportowania. Magazyn danych można utworzyć bezpośrednio w usłudze Fabric z poziomu centrum tworzenia lub obszaru roboczego. Po utworzeniu pustego magazynu można do niego dodać obiekty.
Po utworzeniu magazynu można tworzyć tabele bezpośrednio w interfejsie sieci szkieletowej przy użyciu języka T-SQL.
Pozyskiwanie danych do magazynu danych
Istnieje kilka sposobów pozyskiwania danych do magazynu danych sieci szkieletowej, w tym potoków, przepływów danych, wykonywania zapytań między bazami danych i polecenia COPY INTO. Po pozyskaniu dane stają się dostępne do analizy przez wiele grup biznesowych, które mogą używać funkcji, takich jak wykonywanie zapytań między bazami danych i udostępnianie w celu uzyskania do nich dostępu.
Utwórz tabele
Aby utworzyć tabelę w magazynie danych, możesz użyć programu SQL Server Management Studio (SSMS) lub innego klienta SQL, aby nawiązać połączenie z magazynem danych i uruchomić instrukcję CREATE TABLE. Tabele można również tworzyć bezpośrednio w interfejsie użytkownika sieci szkieletowej.
Dane z lokalizacji zewnętrznej można skopiować do tabeli w magazynie danych przy użyciu COPY INTO
składni . Na przykład:
COPY INTO dbo.Region
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH (
FILE_TYPE = 'CSV'
,CREDENTIAL = (
IDENTITY = 'Shared Access Signature'
, SECRET = 'xxx'
)
,FIRSTROW = 2
)
GO
To zapytanie SQL ładuje dane z pliku CSV przechowywanego w usłudze Azure Blob Storage do tabeli o nazwie "Region" w magazynie danych sieci szkieletowej.
Klonowanie tabel
Możesz utworzyć klony tabeli bez kopiowania z minimalnymi kosztami magazynowania w magazynie danych. Klony te są zasadniczo replikami tabel utworzonych przez skopiowanie metadanych, jednocześnie odwołując się do tych samych plików danych w usłudze OneLake. Oznacza to, że bazowe dane przechowywane jako pliki parquet nie są zduplikowane, co pomaga zaoszczędzić koszty magazynowania.
Klony tabel są szczególnie przydatne w kilku scenariuszach.
- Programowanie i testowanie: Klony umożliwiają deweloperom i testerom tworzenie kopii tabel w niższych środowiskach, ułatwianie programowania, debugowania, testowania i walidacji procesów.
- Odzyskiwanie danych: w przypadku niepowodzenia wydania lub uszkodzenia danych klony tabel mogą zachować poprzedni stan danych, umożliwiając odzyskiwanie danych.
- Raportowanie historyczne: pomagają tworzyć raporty historyczne, które odzwierciedlają stan danych w określonych punktach w czasie i zachowują dane w określonych punktach kontrolnych firmy.
Sklonowanie tabeli można utworzyć przy użyciu CREATE TABLE AS CLONE OF
polecenia T-SQL.
Aby dowiedzieć się więcej o klonach tabel, zobacz Samouczek: klonowanie tabeli przy użyciu języka T-SQL w usłudze Microsoft Fabric.
Zagadnienia dotyczące tabeli
Po utworzeniu tabel w magazynie danych należy wziąć pod uwagę proces ładowania danych do tych tabel. Typowym podejściem jest użycie tabel przejściowych. W sieci szkieletowej można użyć poleceń języka T-SQL, aby załadować dane z plików do tabel przejściowych w magazynie danych.
Tabele przejściowe to tabele tymczasowe, które mogą służyć do czyszczenia danych, przekształcania danych i walidacji danych. Tabele przejściowe umożliwiają również ładowanie danych z wielu źródeł do pojedynczej tabeli docelowej.
Zwykle ładowanie danych jest wykonywane jako okresowy proces wsadowy, w którym operacje wstawiania i aktualizacji magazynu danych są koordynowane w regularnych odstępach czasu (na przykład codziennie, co tydzień lub co miesiąc).
Ogólnie rzecz biorąc, należy zaimplementować proces ładowania magazynu danych, który wykonuje zadania w następującej kolejności:
- Pozyskaj nowe dane do załadowania do magazynu typu data lake, stosując czyszczenie przed obciążeniem lub przekształcenia zgodnie z potrzebami.
- Załaduj dane z plików do tabel przejściowych w relacyjnym magazynie danych.
- Załaduj tabele wymiarów z danych wymiarów w tabelach przejściowych, aktualizując istniejące wiersze lub wstawiając nowe wiersze i generując w razie potrzeby wartości klucza zastępczego.
- Załaduj tabele faktów z danych faktów w tabelach przejściowych, wyszukując odpowiednie klucze zastępcze dla powiązanych wymiarów.
- Przeprowadź optymalizację po załadowaniu, aktualizując indeksy i statystyki dystrybucji tabel.
Jeśli masz tabele w usłudze Lakehouse i chcesz mieć możliwość wykonywania zapytań względem niego w magazynie — ale nie wprowadzasz zmian — w magazynie danych usługi Fabric nie musisz kopiować danych z magazynu lakehouse do magazynu danych. Dane w usłudze Lakehouse można wykonywać bezpośrednio z magazynu danych przy użyciu zapytań obejmujących wiele baz danych.
Ważne
Praca z tabelami w magazynie danych sieci szkieletowej ma obecnie pewne ograniczenia. Aby uzyskać więcej informacji, zobacz Tabele w magazynowaniu danych w usłudze Microsoft Fabric .