Najlepsze rozwiązania dotyczące współdziałania i użyteczności
W tym artykule opisano najlepsze rozwiązania dotyczące współdziałania i użyteczności uporządkowane według zasad architektury wymienionych w poniższych sekcjach.
1. Definiowanie standardów integracji
Używanie standardowych i wielokrotnego użytku wzorców integracji na potrzeby integracji zewnętrznej
Standardy integracji są ważne, ponieważ zawierają wytyczne dotyczące sposobu reprezentowania, wymiany i przetwarzania danych w różnych systemach i aplikacjach. Te standardy pomagają zapewnić, że dane są zgodne, wysokiej jakości i współdziałają w różnych źródłach i miejscach docelowych.
Usługa Databricks Lakehouse zawiera kompleksowy interfejs API REST, który umożliwia programowe zarządzanie niemal wszystkimi aspektami platformy. Serwer interfejsu API REST działa na płaszczyźnie sterowania i zapewnia ujednolicony punkt końcowy do zarządzania platformą usługi Azure Databricks.
Interfejs API REST zapewnia najniższy poziom integracji, który zawsze może być używany. Preferowanym sposobem integracji z usługą Azure Databricks jest jednak użycie abstrakcji wyższego poziomu, takich jak zestawy SDK usługi Databricks lub narzędzia interfejsu wiersza polecenia. Narzędzia interfejsu wiersza polecenia są oparte na powłoce i umożliwiają łatwą integrację platformy Databricks z przepływami pracy ciągłej integracji/ciągłego wdrażania i metodyki MLOps.
Używanie zoptymalizowanych łączników do pozyskiwania źródeł danych do usługi Lakehouse
Usługa Azure Databricks oferuje różne sposoby pozyskiwania danych do usługi Delta Lake.
Usługa Databricks udostępnia zoptymalizowane łączniki dla usług przesyłania komunikatów strumieniowych, takich jak Apache Kafka w celu pozyskiwania danych niemal w czasie rzeczywistym.
Usługa Databricks zapewnia wbudowane integracje z wieloma natywnymi systemami danych w chmurze i rozszerzalną obsługą JDBC w celu nawiązania połączenia z innymi systemami danych.
Jedną z opcji integracji źródeł danych bez etL jest federacja lakehouse. Federacja lakehouse to platforma federacyjna zapytań dla usługi Databricks. Termin Federacja zapytań opisuje kolekcję funkcji, które umożliwiają użytkownikom i systemom uruchamianie zapytań względem wielu źródeł danych bez konieczności migrowania wszystkich danych do ujednoliconego systemu. Databricks używa Unity Catalog do zarządzania federacją zapytań. Narzędzia do zarządzania i śledzenia danych w katalogu Unity zapewniają, że dostęp do danych jest zarządzany i audytowany dla wszystkich zapytań federacyjnych wykonywanych przez użytkowników w obszarach roboczych usługi Databricks.
Uwaga
Każde zapytanie na platformie usługi Databricks korzystające ze źródła federacyjnego usługi Lakehouse jest wysyłane do tego źródła. Upewnij się, że system źródłowy może obsłużyć obciążenie. Należy również pamiętać, że w przypadku wdrożenia systemu źródłowego w innym regionie chmury lub chmurze koszt ruchu wychodzącego dla każdego zapytania.
Rozważ odciążenie dostępu do bazowych baz danych za pośrednictwem zmaterializowanych widoków, aby uniknąć dużych/współbieżnych obciążeń w operacyjnych bazach danych i zmniejszyć koszty ruchu wychodzącego.
Korzystanie z certyfikowanych narzędzi partnerskich
Organizacje mają różne potrzeby i żadne pojedyncze narzędzie nie może spełnić ich wszystkich. Program Partner Connect umożliwia eksplorowanie i łatwą integrację z naszymi partnerami, którzy obejmują wszystkie aspekty usługi Lakehouse: pozyskiwanie danych, przygotowywanie i przekształcanie, analizy biznesowej i wizualizacji, uczenie maszynowe, jakość danych i nie tylko. Program Partner Connect umożliwia tworzenie kont wersji próbnej z wybranymi partnerami technologii usługi Databricks i łączenie obszaru roboczego usługi Azure Databricks z rozwiązaniami partnerskimi z poziomu interfejsu użytkownika usługi Azure Databricks. Wypróbuj rozwiązania partnerskie korzystające z danych w usłudze Databricks Lakehouse, a następnie zastosuj rozwiązania, które najlepiej spełniają Twoje potrzeby biznesowe.
Zmniejszanie złożoności potoków inżynierii danych
Inwestowanie w zmniejszenie złożoności potoków inżynierii danych pozwala na szybsze rozszerzanie i wprowadzanie innowacji w skalowalność, elastyczność i elastyczność. Uproszczone potoki ułatwiają zarządzanie i dostosowywanie wszystkich potrzeb operacyjnych potoku inżynierii danych: orkiestracja zadań, zarządzanie klastrem, monitorowanie, jakość danych i obsługa błędów.
Delta Live Tables to struktura umożliwiająca tworzenie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych. Definiujesz przekształcenia, które mają być wykonywane na danych, a tabele Delta Live Tables obsługują aranżację zadań, zarządzanie klastrem, monitorowanie, jakość danych i obsługę błędów. Zobacz Co to jest Delta Live Tables?.
Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze. Może niezawodnie odczytywać pliki danych z magazynu w chmurze. Ważnym aspektem zarówno Delta Live Tables, jak i Auto Loader jest ich deklaratywny charakter: bez nich należałoby tworzyć złożone potoki, które integrują różne serwisy w chmurze, takie jak serwis powiadomień i serwis kolejkowania, aby niezawodnie odczytywać pliki w chmurze na podstawie zdarzeń oraz łączyć źródła wsadowe i przesyłane strumieniowo.
Auto Loader i Delta Live Tables zmniejszają zależności systemowe i złożoność oraz znacznie zwiększają interoperacyjność z przechowywaniem danych w chmurze i między różnymi paradygmatami, takimi jak przetwarzanie wsadowe i przetwarzanie strumieniowe. Jako efekt uboczny prostota potoków zwiększa użyteczność platformy.
Używanie infrastruktury jako kodu (IaC) na potrzeby wdrożeń i konserwacji
HashiCorp Terraform to popularne narzędzie typu open source do tworzenia bezpiecznej i przewidywalnej infrastruktury chmury u kilku dostawców chmury. Zobacz Doskonałość operacyjna: używanie infrastruktury jako kodu na potrzeby wdrożeń i konserwacji
2. Korzystanie z otwartych interfejsów i otwartych formatów danych
Używanie otwartych formatów danych
Użycie otwartego formatu danych oznacza, że nie ma żadnych ograniczeń dotyczących jego użycia. Jest to ważne, ponieważ eliminuje bariery dostępu do danych i używania ich do analizy i uzyskiwania szczegółowych informacji biznesowych. Otwarte formaty, takie jak te utworzone na platformie Apache Spark, dodają również funkcje zwiększające wydajność dzięki obsłudze transakcji ACID, ujednoliconego przesyłania strumieniowego i przetwarzania danych wsadowych. Ponadto oprogramowanie open source jest oparte na społeczności, co oznacza, że społeczność nieustannie pracuje nad ulepszaniem istniejących funkcji i dodawaniem nowych, co ułatwia użytkownikom uzyskanie jak największej ilości swoich projektów.
Podstawowym formatem danych używanym na platformie analizy danych jest usługa Delta Lake, w pełni otwarty format danych, który oferuje wiele korzyści, od funkcji niezawodności po ulepszenia wydajności, zobacz Używanie formatu danych obsługującego transakcje ACID i najlepsze rozwiązania dotyczące wydajności.
Ze względu na otwarty charakter usługa Delta Lake jest wyposażona w duży ekosystem. Dziesiątki narzędzi i aplikacji innych firm obsługują usługę Delta Lake.
Aby jeszcze bardziej zwiększyć interoperacyjność, format Delta Universal (UniForm) umożliwia odczytywanie tabel Delta z użyciem klientów odczytu Iceberg. Aplikacja UniForm automatycznie generuje asynchroniczne metadane góry lodowej bez ponownego zapisywania danych, dzięki czemu klienci góry lodowej mogą odczytywać tabele delty tak, jakby były tabelami góry lodowej. Pojedyncza kopia plików danych obsługuje oba formaty.
Włączanie bezpiecznego udostępniania danych i sztucznej inteligencji dla wszystkich zasobów danych
Udostępnianie danych i zasobów sztucznej inteligencji może prowadzić do lepszej współpracy i podejmowania decyzji. Jednak podczas udostępniania danych ważne jest, aby zachować kontrolę, chronić dane i zapewnić zgodność z odpowiednimi przepisami i przepisami dotyczącymi udostępniania danych.
Usługa Delta Sharing to otwarty protokół opracowany przez usługę Databricks do bezpiecznego udostępniania danych innym organizacjom, niezależnie od używanych platform obliczeniowych. Jeśli chcesz udostępniać dane użytkownikom spoza obszaru roboczego usługi Databricks, niezależnie od tego, czy korzystają z usługi Databricks, możesz bezpiecznie udostępniać dane za pomocą funkcji udostępniania różnicowego. Jeśli chcesz udostępnić dane użytkownikom, którzy mają obszar roboczy Databricks z włączonym Unity Catalog, możesz użyć funkcji Databricks-to-Databricks Delta Sharing.
W obu przypadkach można udostępniać tabele , widoki , woluminy , modele oraz notesy .
Użyj otwartego protokołu udostępniania różnicowego do udostępniania danych partnerom.
Udostępnianie różnicowe zapewnia otwarte rozwiązanie do bezpiecznego udostępniania danych na żywo z usługi Lakehouse do dowolnej platformy obliczeniowej. Adresaci nie muszą znajdować się na platformie Databricks, na tej samej chmurze ani wcale. Funkcja Delta Sharing natywnie integruje się z Unity Catalog, umożliwiając organizacjom centralne zarządzanie i audytowanie udostępnionych danych oraz zasobów sztucznej inteligencji w całym przedsiębiorstwie. Pozwala również na ich bezpieczne udostępnianie, zgodne z wymogami dotyczącymi zabezpieczeń i zgodności.
Dostawcy danych mogą udostępniać dane na żywo i modele sztucznej inteligencji, z których są przechowywane na platformie danych bez replikowania ani przenoszenia ich do innego systemu. Takie podejście zmniejsza koszty operacyjne danych i udostępniania sztucznej inteligencji, ponieważ dostawcy danych nie muszą replikować danych wiele razy w chmurach, lokalizacjach geograficznych lub platformach danych do każdego użytkownika danych.
Użyj funkcji udostępniania różnicowego usługi Databricks między użytkownikami usługi Databricks.
Jeśli chcesz udostępnić dane użytkownikom, którzy nie mają dostępu do Twojego metastore Unity Catalog, możesz użyć funkcji Databricks-to-Databricks Delta Sharing, pod warunkiem że adresaci posiadają dostęp do obszaru roboczego Databricks z włączonym Unity Catalog. Udostępnianie usługi Databricks-to-Databricks umożliwia udostępnianie danych użytkownikom na innych kontach usługi Databricks, w różnych regionach chmury i u dostawców chmury. Jest to doskonały sposób bezpiecznego udostępniania danych w różnych metasklepach Unity Catalog na własnym koncie Databricks.
Używanie otwartych standardów zarządzania cyklem życia uczenia maszynowego
Podobnie jak w przypadku korzystania z formatu danych typu open source, używanie otwartych standardów dla przepływów pracy sztucznej inteligencji ma podobne korzyści w zakresie elastyczności, elastyczności, kosztów i zabezpieczeń.
MLflow to platforma typu open source do zarządzania cyklem życia uczenia maszynowego i sztucznej inteligencji. Usługa Databricks oferuje w pełni zarządzaną i hostowaną wersję platformy MLflow zintegrowaną z funkcjami zabezpieczeń przedsiębiorstwa, wysoką dostępnością i innymi funkcjami obszaru roboczego usługi Databricks, takimi jak eksperymentowanie i uruchamianie funkcji zarządzania i śledzenia poprawek notesu.
Podstawowe składniki to
3. Uproszczenie implementacji nowego przypadku użycia
Zapewnianie samoobsługowego środowiska na platformie
Istnieje kilka zalet platformy, w której użytkownicy mają autonomię, aby korzystać z narzędzi i możliwości w zależności od ich potrzeb. Inwestowanie w tworzenie samoobsługowej platformy ułatwia skalowanie w celu obsługi większej liczby użytkowników i zwiększa wydajność, minimalizując potrzebę zaangażowania człowieka w aprowizowanie użytkowników, rozwiązywanie problemów i przetwarzanie żądań dostępu.
Platforma analizy danych usługi Databricks ma wszystkie możliwości potrzebne do zapewnienia samoobsługowego środowiska. Chociaż może istnieć obowiązkowy krok zatwierdzania, najlepszym rozwiązaniem jest pełne zautomatyzowanie konfiguracji, gdy jednostka biznesowa żąda dostępu do usługi Lakehouse. Automatycznie aprowizuje swoje nowe środowisko, synchronizuj użytkowników i używaj logowania jednokrotnego do uwierzytelniania, zapewnia kontrolę dostępu do udostępnionych danych i oddzielne magazyny obiektów dla własnych danych itd. Wraz z centralnym katalogiem danych o semantycznej spójności i gotowości do użycia w biznesie, nowe jednostki biznesowe mogą szybko i bezpiecznie uzyskiwać dostęp do możliwości lakehouse oraz do potrzebnych im danych.
Korzystanie z obliczeń bezserwerowych
W przypadku bezserwerowych obliczeń na platformie Azure Databricks warstwa obliczeniowa jest uruchamiana na koncie usługi Databricks klienta. Administratorzy chmury nie muszą już zarządzać złożonymi środowiskami chmury, które wymagają dostosowywania limitów przydziału, tworzenia i utrzymywania zasobów sieciowych oraz nawiązywania połączenia ze źródłami rozliczeniowymi. Użytkownicy korzystają z opóźnienia uruchamiania klastra niemal zerowego i ulepszonej współbieżności zapytań.
Korzystanie ze wstępnie zdefiniowanych szablonów obliczeniowych
Wstępnie zdefiniowane szablony ułatwiają kontrolowanie sposobu użycia lub tworzenia zasobów obliczeniowych przez użytkowników: ogranicz tworzenie klastra użytkowników do określonych ustawień lub określonej liczby, upraszcza interfejs użytkownika lub kontroluje koszty, ograniczając maksymalny koszt klastra.
Platforma analizy danych realizuje to na dwa sposoby:
- Udostępnianie klastrów jako natychmiastowych środowisk dla użytkowników. W tych klastrach użyj skalowania automatycznego w dół do bardzo minimalnej liczby węzłów, aby uniknąć wysokich kosztów bezczynności.
- W przypadku standardowego środowiska należy użyć zasad obliczeniowych, aby ograniczyć rozmiar klastra lub funkcje lub zdefiniować klastry o rozmiarze koszulki (S, M, L).
Korzystanie z funkcji sztucznej inteligencji w celu zwiększenia produktywności
Oprócz zwiększania produktywności narzędzia sztucznej inteligencji mogą również pomóc w identyfikowaniu wzorców błędów i dostarczać dodatkowe szczegółowe informacje na podstawie danych wejściowych. Ogólnie rzecz biorąc, włączenie tych narzędzi do procesu programowania może znacznie zmniejszyć błędy i ułatwić podejmowanie decyzji - co prowadzi do szybszego czasu wydania.
Usługa Databricks IQ, oparta na sztucznej inteligencji, jest sercem platformy analizy danych. Wykorzystuje metadane katalogu Unity do zrozumienia tabel, kolumn, opisów i znanych zasobów danych w organizacji w celu dostarczania spersonalizowanych odpowiedzi. Umożliwia ona korzystanie z kilku funkcji, które zwiększają produktywność podczas pracy z platformą, na przykład:
- Asystent usługi Databricks umożliwia wykonywanie zapytań o dane za pośrednictwem interfejsu konwersacyjnego, co zwiększa produktywność w usłudze Databricks. Opisz zadanie w języku angielskim i pozwól kreatorowi wygenerować zapytania SQL, wyjaśnić złożony kod i automatycznie naprawić błędy.
- komentarze generowane przez sztuczną inteligencję dla dowolnej tabeli lub kolumny tabeli zarządzanej przez Unity Catalog przyspieszają proces zarządzania metadanymi. Jednak modele sztucznej inteligencji nie zawsze są dokładne i przed zapisaniem należy przejrzeć komentarze. Usługa Databricks zdecydowanie zaleca przegląd komentarzy generowanych przez sztuczną inteligencję w celu sprawdzenia, czy nie ma niedokładności.
4. Zapewnianie spójności danych i użyteczności
Oferowanie produktów do wielokrotnego użytku, którym firma może ufać
Organizacje, które chcą stać się opartą na sztucznej inteligencji i danych, często muszą zapewnić swoim zespołom wewnętrznym wysokiej jakości wiarygodne dane. Jednym z podejść do określania priorytetów jakości i użyteczności jest zastosowanie myślenia o produktach do opublikowanych zasobów danych przez utworzenie dobrze zdefiniowanych "produktów danych". Tworzenie takich produktów danych gwarantuje, że organizacje ustanowią standardy i zaufaną podstawę prawdy biznesowej dla swoich celów dotyczących danych i sztucznej inteligencji. Produkty danych ostatecznie dostarczają wartość, gdy użytkownicy i aplikacje mają odpowiednie dane, w odpowiednim czasie, z odpowiednią jakością, w odpowiednim formacie. Chociaż ta wartość tradycyjnie została zrealizowana w postaci bardziej wydajnych operacji dzięki niższym kosztom, szybszym procesom i zmniejszeniu ryzyka, nowoczesne produkty danych mogą również utorować drogę do nowych ofert dodanych wartości i możliwości udostępniania danych w ekosystemie branżowym lub partnerskim organizacji.
Publikowanie produktów danych semantycznie spójnych w przedsiębiorstwie
Usługa Data Lake zwykle zawiera dane z wielu systemów źródłowych. Te systemy mogą mieć różne nazwy dla tej samej koncepcji (np. klienta a konta) lub użyć tego samego identyfikatora, aby odwoływać się do różnych pojęć. Aby użytkownicy biznesowi mogli łatwo połączyć te zestawy danych w zrozumiały sposób, dane muszą być jednorodne we wszystkich źródłach, aby były spójnie spójne. Ponadto aby niektóre dane były przydatne do analizy, należy prawidłowo zastosować wewnętrzne reguły biznesowe, takie jak rozpoznawanie przychodów. Aby zapewnić, że wszyscy użytkownicy używają poprawnie interpretowanych danych, zestawy danych spełniające te zasady muszą być udostępniane i publikowane w Unity Catalog. Dostęp do danych źródłowych musi być ograniczony do zespołów, które rozumieją prawidłowe użycie.
Zapewnić centralny katalog do odkrywania i śledzenia pochodzenia
Centralny katalog do odkrywania i śledzenia rodowodu danych pomaga konsumentom danych uzyskiwać dostęp do danych z wielu źródeł w całym przedsiębiorstwie, zmniejszając tym samym obciążenie operacyjne dla centralnego zespołu zarządzającego.
W katalogu Unity administratorzy i zarządcy danych zarządzają użytkownikami i ich dostępem do danych centralnie we wszystkich obszarach roboczych na koncie usługi Azure Databricks. Użytkownicy w różnych obszarach roboczych mogą współdzielić te same dane i, w zależności od przywilejów użytkowników przyznanych centralnie w Unity Catalog, mogą uzyskiwać wspólnie dostęp do danych.
W przypadku odnajdywania danych katalog Unity zapewnia użytkownikom takie możliwości jak:
- Catalog Explorer jest podstawowym interfejsem użytkownika dla wielu funkcji Unity Catalog. Eksplorator wykazu umożliwia wyświetlanie szczegółów schematu, podgląd przykładowych danych oraz wyświetlanie szczegółów i właściwości tabeli. Administratorzy mogą wyświetlać i zmieniać właścicieli, a administratorzy i właściciele obiektów danych mogą udzielać i odwoływać uprawnienia. Możesz również użyć usługi Databricks Search, która umożliwia użytkownikom łatwe i bezproblemowe znajdowanie zasobów danych (takich jak tabele, kolumny, widoki, pulpity nawigacyjne, modele itd.). Użytkownicy są wyświetlane wyniki, które są istotne dla ich żądań wyszukiwania i że mają dostęp.
- Pochodzenie danych we wszystkich zapytaniach uruchamianych w klastrze usługi Azure Databricks lub usłudze SQL Warehouse. Pochodzenie danych jest obsługiwane dla wszystkich języków i jest odwzorowywane na poziomie kolumn. Dane pochodzenia obejmują notesy, zadania i pulpity nawigacyjne związane z zapytaniem. Pochodzenie można wizualizować w Eksploratorze katalogu prawie w czasie rzeczywistym i pobierać za pomocą interfejsu API REST usługi Azure Databricks.
Aby umożliwić przedsiębiorstwom zapewnienie użytkownikom całościowego widoku wszystkich danych na wszystkich platformach danych, usługa Unity Catalog zapewnia integrację z wykazami danych przedsiębiorstwa (czasami nazywanym "wykazem katalogów").