Udostępnij za pośrednictwem


Zakres platformy lakehouse

Nowoczesna platforma danych i sztucznej inteligencji

Aby omówić zakres platformy analizy danych usługi Databricks, warto najpierw zdefiniować podstawową strukturę dla nowoczesnej platformy danych i sztucznej inteligencji:

Struktura analizy danych w chmurze

Omówienie zakresu lakehouse

Platforma analizy danych usługi Databricks obejmuje kompletną nowoczesną platformę danych. Jest ona oparta na architekturze typu lakehouse i obsługiwana przez aparat analizy danych, który rozumie unikatowe cechy danych. Jest to otwarta i ujednolicona podstawa dla obciążeń ETL, ML/AI i DWH/BI oraz wykaz unity jako centralne rozwiązanie do zarządzania danymi i sztuczną inteligencją.

Personas platformy

Struktura obejmuje członków podstawowego zespołu danych (personas) pracujących z aplikacjami w strukturze:

  • Inżynierowie danych udostępniają analitykom danych i analitykom biznesowym dokładne i powtarzalne dane na potrzeby terminowego podejmowania decyzji i szczegółowych informacji w czasie rzeczywistym. Implementują wysoce spójne i niezawodne procesy ETL, aby zwiększyć zaufanie użytkowników i zaufanie do danych. Zapewniają one, że dane są dobrze zintegrowane z różnymi filarami działalności biznesowej i zwykle stosują najlepsze rozwiązania w zakresie inżynierii oprogramowania.
  • Analitycy danych łączą wiedzę analityczną i wiedzę biznesową, aby przekształcić dane w strategiczne analizy i modele predykcyjne. Są one biegłe w tłumaczeniu wyzwań biznesowych na rozwiązania oparte na danych, czy to za pomocą retrospektywnych analiz analitycznych lub przyszłościowego modelowania predykcyjnego. Korzystając z technik modelowania danych i uczenia maszynowego, projektują, opracowują i wdrażają modele, które ujawniają wzorce, trendy i prognozy na podstawie danych. Działają one jako most, przekształcając złożone narracje danych w zrozumiałe historie, zapewniając uczestnikom biznesowym nie tylko zrozumienie, ale także może działać na podstawie zaleceń opartych na danych, co z kolei napędza podejście skoncentrowane na danych do rozwiązywania problemów w organizacji.
  • Inżynierowie uczenia maszynowego (inżynierowie uczenia maszynowego) prowadzą praktyczną aplikację nauki o danych w produktach i rozwiązaniach, tworząc, wdrażając i utrzymując modele uczenia maszynowego. Ich głównym celem jest ukierunkowanie na aspekt inżynieryjny tworzenia i wdrażania modelu. Inżynierowie ml zapewniają niezawodność, niezawodność i skalowalność systemów uczenia maszynowego w środowiskach na żywo, zajmując się wyzwaniami związanymi z jakością danych, infrastrukturą i wydajnością. Dzięki integracji modeli sztucznej inteligencji i uczenia maszynowego z operacyjnymi procesami biznesowymi i produktami dostępnymi dla użytkowników ułatwiają wykorzystanie nauki o danych w rozwiązywaniu wyzwań biznesowych, zapewniając, że modele nie tylko pozostają w badaniach, ale napędzają namacalną wartość biznesową.
  • Analitycy biznesowi umożliwiają uczestnikom projektu i zespołom biznesowym podejmowanie działań przy użyciu danych z możliwością działania. Często interpretują dane i tworzą raporty lub inną dokumentację dla kierownictwa przy użyciu standardowych narzędzi analizy biznesowej. Zazwyczaj są one punktem kontaktowym dla współpracowników nietechnicznych i operacyjnych w celu uzyskania szybkich pytań analitycznych.
  • Partnerzy biznesowi są ważnymi uczestnikami projektu w coraz bardziej sieciowym świecie biznesowym. Są one definiowane jako firma lub osoby fizyczne, z którymi firma ma formalne relacje w celu osiągnięcia wspólnego celu, i mogą obejmować dostawców, dostawców, dystrybutorów i innych partnerów innych firm. Udostępnianie danych jest ważnym aspektem partnerstwa biznesowego, ponieważ umożliwia transfer i wymianę danych w celu zwiększenia współpracy i podejmowania decyzji opartych na danych.

Domeny platformy

Platforma składa się z wielu domen:

  • Magazyn: W chmurze dane są przechowywane głównie w skalowalnym, wydajnym i odpornym magazynie obiektów u dostawców chmury.

  • Ład: możliwości związane z ładem danych, takie jak kontrola dostępu, inspekcja, zarządzanie metadanymi, śledzenie pochodzenia i monitorowanie wszystkich danych i zasobów sztucznej inteligencji.

  • Aparat sztucznej inteligencji: aparat sztucznej inteligencji zapewnia możliwości generowania sztucznej inteligencji dla całej platformy.

  • Pozyskiwanie i przekształcanie: możliwości obciążeń ETL.

  • Analiza zaawansowana, uczenie maszynowe i sztuczna inteligencja: wszystkie możliwości związane z uczeniem maszynowym, sztuczną inteligencją, generowaniem sztucznej inteligencji, a także analizą strumieniową.

  • Magazyn danych: domena obsługująca przypadki użycia DWH i BI.

  • Aranżacja: centralne zarządzanie przepływami pracy przetwarzania danych, uczenia maszynowego i potoków analitycznych.

  • Narzędzia ETL i DS: narzędzia frontonu używane głównie do pracy przez inżynierów danych, analityków danych i inżynierów uczenia maszynowego.

  • Narzędzia analizy biznesowej: narzędzia frontonu używane głównie przez analityków analizy biznesowej do pracy.

  • Współpraca: możliwości udostępniania danych między co najmniej dwiema stronami.

Zakres platformy usługi Databricks

Platforma analizy danych usługi Databricks i jej składniki można zamapować na platformę w następujący sposób:

Zakres jeziora

Pobieranie: Zakres lakehouse — składniki usługi Databricks

Obciążenia danych w usłudze Azure Databricks

Co najważniejsze, platforma analizy danych usługi Databricks obejmuje wszystkie odpowiednie obciążenia dla domeny danych na jednej platformie, a aparat Apache Spark/Photon:

  • Pozyskiwanie i przekształcanie

    W przypadku pozyskiwania danych automatycznie ładujący przyrostowo i automatycznie przetwarza pliki docelowe w magazynie w chmurze w zaplanowanych lub ciągłych zadaniach — bez konieczności zarządzania informacjami o stanie. Po pozyskiwaniu nieprzetworzone dane muszą zostać przekształcone, aby były gotowe do analizy biznesowej i uczenia maszynowego/sztucznej inteligencji. Usługa Databricks oferuje zaawansowane funkcje ETL dla inżynierów danych, analityków danych i analityków.

    Funkcja Delta Live Tables (DLT) umożliwia pisanie zadań ETL w sposób deklaratywny, upraszczając cały proces implementacji. Jakość danych można poprawić, definiując oczekiwania dotyczące danych.

  • Zaawansowana analiza, uczenie maszynowe i sztuczna inteligencja

    Platforma obejmuje sztuczną inteligencję mozaiki usługi Databricks, zestaw w pełni zintegrowanych narzędzi uczenia maszynowego i sztucznej inteligencji na potrzeby klasycznego uczenia maszynowego i głębokiego, a także generowania sztucznej inteligencji i dużych modeli językowych (LLMs). Obejmuje cały przepływ pracy od przygotowywania danych do tworzenia modeli uczenia maszynowego i uczenia głębokiego po usługę Mozaika AI Model Serving.

    Przesyłanie strumieniowe ze strukturą platformy Spark i biblioteka DLT umożliwiają analizę w czasie rzeczywistym.

  • Magazyn danych

    Platforma analizy danych usługi Databricks ma również kompletne rozwiązanie magazynu danych z usługą Databricks SQL, centralnie zarządzane przez usługę Unity Catalog z precyzyjną kontrolą dostępu.

Konspekt obszarów funkcji usługi Azure Databricks

Jest to mapowanie funkcji platformy analizy danych usługi Databricks na inne warstwy struktury od dołu do góry:

  • Magazyn w chmurze

    Wszystkie dane usługi Lakehouse są przechowywane w magazynie obiektów dostawcy usług w chmurze. Usługa Databricks obsługuje trzech dostawców usług w chmurze: AWS, Azure i GCP. Pliki w różnych formatach ustrukturyzowanych i częściowo ustrukturyzowanych (na przykład Parquet, CSV, JSON i Avro), a także formatach bez struktury (takich jak obrazy i dokumenty) są pozyskiwane i przekształcane przy użyciu procesów wsadowych lub przesyłanych strumieniowo.

    Usługa Delta Lake jest zalecanym formatem danych dla usługi Lakehouse (transakcje plików, niezawodność, spójność, aktualizacje itd.) i jest całkowicie open source, aby uniknąć blokady. Program Delta Universal Format (UniForm) umożliwia odczytywanie tabel delty przy użyciu klientów czytnika Góry lodowej.

    W usłudze Databricks Data Intelligence Platform nie są używane żadne zastrzeżone formaty danych.

  • Nadzór nad danymi

    Oprócz warstwy magazynu katalog aparatu Unity oferuje szeroką gamę funkcji zapewniania ładu danych, w tym zarządzanie metadanymi w magazynie metadanych, kontrolę dostępu, inspekcję, odnajdywanie danych, pochodzenie danych.

    Monitorowanie usługi Lakehouse zapewnia gotowe metryki jakości dla danych i zasobów sztucznej inteligencji oraz pulpity nawigacyjne generowane automatycznie w celu wizualizacji tych metryk.

    Zewnętrzne źródła SQL można zintegrować z usługami Lakehouse i Unity Catalog za pośrednictwem federacji lakehouse.

  • Aparat sztucznej inteligencji

    Platforma analizy danych jest oparta na architekturze lakehouse i ulepszona przez aparat analizy danych DatabricksIQ. Usługa DatabricksIQ łączy generowanie sztucznej inteligencji z zaletami ujednolicania architektury typu lakehouse w celu zrozumienia unikatowych semantyki danych. Inteligentne wyszukiwanie i Asystent usługi Databricks to przykłady usług opartych na sztucznej inteligencji, które upraszczają pracę z platformą dla każdego użytkownika.

  • Aranżacja

    Zadania usługi Databricks umożliwiają uruchamianie różnych obciążeń dla pełnych danych i cyklu życia sztucznej inteligencji w dowolnej chmurze. Umożliwiają one organizowanie zadań, a także tabel delta live tables dla sql, Spark, notesów, DBT, modeli uczenia maszynowego i innych.

  • Narzędzia ETL i DS

    W warstwie zużycia inżynierowie danych i inżynierowie uczenia maszynowego zwykle pracują z platformą przy użyciu ide. Analitycy danych często wolą notesy i używają środowisk uruchomieniowych uczenia maszynowego i sztucznej inteligencji oraz systemu przepływu pracy uczenia maszynowego MLflow do śledzenia eksperymentów i zarządzania cyklem życia modelu.

  • Narzędzia analizy biznesowej

    Analitycy biznesowi zazwyczaj używają preferowanego narzędzia analizy biznesowej do uzyskiwania dostępu do magazynu danych usługi Databricks. Usługa Databricks SQL może być odpytywane przez różne narzędzia analizy i analizy biznesowej, zobacz Analizy i wizualizacje

    Ponadto platforma oferuje gotowe narzędzia do wykonywania zapytań i analizy:

    • Pulpity nawigacyjne do przeciągania i upuszczania wizualizacji danych oraz udostępniania szczegółowych informacji.
    • Edytor SQL dla analityków SQL do analizowania danych.
  • Współpraca

    Usługa Delta Sharing to otwarty protokół opracowany przez usługę Databricks na potrzeby bezpiecznego udostępniania danych innym organizacjom niezależnie od używanych platform obliczeniowych.

    Databricks Marketplace to otwarte forum wymiany produktów danych. Dzięki udostępnianiu funkcji Delta Sharing dostawcy danych mogą udostępniać produkty danych bezpiecznie i użytkownikom danych możliwość eksplorowania i rozszerzania dostępu do potrzebnych im danych i usług danych.