Udostępnij za pośrednictwem


Czym jest magazynowanie danych w usłudze Azure Databricks?

Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Ten artykuł zawiera kluczowe pojęcia dotyczące tworzenia magazynu danych w usłudze Data Lakehouse.

Magazynowanie danych w usłudze Lakehouse

Architektura usługi Lakehouse i usługa Databricks SQL zapewniają możliwości magazynowania danych w chmurze w magazynach danych. Korzystając ze znanych struktur danych, relacji i narzędzi do zarządzania, można modelować wysoce wydajny, ekonomiczny magazyn danych działający bezpośrednio w usłudze Data Lake. Aby uzyskać więcej informacji, zobacz Co to jest data lakehouse?

Architektura usługi Lakehouse z najwyższą warstwą obejmującą magazynowanie danych, inżynierię danych, przesyłanie strumieniowe danych oraz naukę o danych i uczenie maszynowe

Podobnie jak w przypadku tradycyjnego magazynu danych, modelujesz dane zgodnie z wymaganiami biznesowymi, a następnie udostępniasz je użytkownikom końcowym na potrzeby analiz i raportów. W przeciwieństwie do tradycyjnego magazynu danych można uniknąć silosowania danych analizy biznesowej lub tworzenia nadmiarowych kopii, które szybko stają się nieaktualne.

Tworzenie magazynu danych wewnątrz usługi Lakehouse umożliwia przeniesienie wszystkich danych do jednego systemu i korzystanie z funkcji, takich jak Wykaz aparatu Unity i usługa Delta Lake.

Wykaz aparatu Unity dodaje ujednolicony model zapewniania ładu, dzięki czemu można zabezpieczyć i przeprowadzić inspekcję dostępu do danych oraz udostępnić informacje o pochodzenia w tabelach podrzędnych. Usługa Delta Lake dodaje transakcje ACID i ewolucję schematu, między innymi zaawansowane narzędzia do zapewniania niezawodności, skalowalności i wysokiej jakości danych.

Co to jest usługa Databricks SQL?

Uwaga

Usługa Databricks SQL Serverless nie jest dostępna na platformie Azure w Chinach. Usługa Databricks SQL nie jest dostępna w regionach usługi Azure Government.

Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Usługa Databricks SQL obsługuje otwarte formaty i standardową usługę ANSI SQL. Edytor SQL platformy i narzędzia do pulpitu nawigacyjnego umożliwiają członkom zespołu współpracę z innymi użytkownikami usługi Databricks bezpośrednio w obszarze roboczym. Usługa Databricks SQL integruje się również z różnymi narzędziami, dzięki czemu analitycy mogą tworzyć zapytania i pulpity nawigacyjne w swoich ulubionych środowiskach bez dostosowywania się do nowej platformy.

Usługa Databricks SQL udostępnia ogólne zasoby obliczeniowe, które są wykonywane względem tabel w usłudze Lakehouse. Usługa Databricks SQL jest obsługiwana przez magazyny SQL, dawniej nazywane punktami końcowymi SQL, oferując skalowalne zasoby obliczeniowe SQL oddzielone od magazynu.

Aby uzyskać więcej informacji na temat domyślnych i opcji usługi SQL Warehouse, zobacz Nawiązywanie połączenia z usługą SQL Warehouse .

Usługa Databricks SQL integruje się z katalogiem aparatu Unity, dzięki czemu można odnajdywać, przeprowadzać inspekcję i zarządzać zasobami danych z jednego miejsca. Aby dowiedzieć się więcej, zobacz Co to jest wykaz aparatu Unity?

Modelowanie danych w usłudze Azure Databricks

Jezioro obsługuje różne style modelowania. Na poniższej ilustracji przedstawiono sposób, w jaki dane są wyselekcjonowane i modelowane podczas przechodzenia przez różne warstwy jeziora.

Diagram przedstawiający różne modele danych na każdym poziomie archtektury nad jeziorem medalonu.

Architektura medalionu

Architektura medalionu to wzorzec projektowania danych, który opisuje serię przyrostowo uściślionych warstw danych, które zapewniają podstawową strukturę w lakehouse. Brązowe, srebrne i złote warstwy oznaczają zwiększenie jakości danych na każdym poziomie, a złoto reprezentuje najwyższą jakość. Aby uzyskać więcej informacji, zobacz Co to jest architektura medalonu lakehouse?.

Wewnątrz jeziora każda warstwa może zawierać co najmniej jedną tabelę. Magazyn danych jest modelowany w warstwie srebrnej i generuje wyspecjalizowane składnice danych w warstwie złota.

Warstwa z brązu

Dane mogą wprowadzać swoje jezioro w dowolnym formacie i za pośrednictwem dowolnej kombinacji transakcji wsadowych lub parowych. Warstwa z brązu zapewnia miejsce docelowe dla wszystkich danych pierwotnych w oryginalnym formacie. Te dane są konwertowane na tabele delty.

Warstwa srebrna

Warstwa srebrna łączy dane z różnych źródeł. W ramach firmy, która koncentruje się na aplikacjach nauki o danych i uczeniu maszynowym, zaczynasz curować znaczące zasoby danych. Ten proces jest często oznaczony przez skupienie się na szybkości i elastyczności.

Warstwa srebrna to również miejsce, w którym można starannie zintegrować dane z różnych źródeł w celu utworzenia magazynu danych zgodnie z istniejącymi procesami biznesowymi. Często te dane są zgodne z trzecim modelem formularza normalnego (3NF) lub magazynu danych. Określanie ograniczeń klucza podstawowego i obcego umożliwia użytkownikom końcowym zrozumienie relacji tabel podczas korzystania z wykazu aparatu Unity. Magazyn danych powinien służyć jako pojedyncze źródło prawdy dla składnic danych.

Sam magazyn danych to schemat na zapis i niepodzielne. Jest ona zoptymalizowana pod kątem zmian, dzięki czemu można szybko zmodyfikować magazyn danych w celu dopasowania ich do bieżących potrzeb, gdy procesy biznesowe zmieniają się lub ewoluują.

Warstwa złota

Warstwa złota to warstwa prezentacji, która może zawierać co najmniej jedną składnicę danych. Często składnice danych są modelami wymiarowymi w postaci zestawu powiązanych tabel, które przechwytują określoną perspektywę biznesową.

Warstwa złota zawiera również piaskownice działu i nauki o danych, aby umożliwić samoobsługową analizę i naukę o danych w całym przedsiębiorstwie. Udostępnienie tych piaskownic i własnych oddzielnych klastrów obliczeniowych uniemożliwia zespołom biznesowym tworzenie kopii danych poza magazynem typu lakehouse.

Następny krok

Aby dowiedzieć się więcej na temat zasad i najlepszych rozwiązań dotyczących implementowania i obsługi usługi Lakehouse przy użyciu usługi Databricks, zobacz Wprowadzenie do dobrze zaprojektowanego magazynu typu data lakehouse.