Udostępnij za pośrednictwem


Co to jest usługa Azure Databricks?

Usługa Azure Databricks to ujednolicona, otwarta platforma analityczna do tworzenia, wdrażania, udostępniania i obsługi danych klasy korporacyjnej, analiz i rozwiązań sztucznej inteligencji na dużą skalę. Platforma Databricks Data Intelligence integruje się z magazynem i zabezpieczeniami w Twoim koncie chmurowym oraz zarządza i wdraża infrastrukturę chmurową w Twoim imieniu.

Jak działa platforma analizy danych?

Usługa Azure Databricks używa generatywnej sztucznej inteligencji w połączeniu z Data Lakehouse w celu zrozumienia unikalnej semantyki danych. Następnie automatycznie optymalizuje wydajność i zarządza infrastrukturą zgodnie z potrzebami biznesowymi.

Przetwarzanie języka naturalnego uczy się języka firmy, dzięki czemu możesz wyszukiwać i odnajdywać dane, zadając pytanie własnymi słowami. Pomoc w języku naturalnym ułatwia pisanie kodu, rozwiązywanie problemów z błędami i znajdowanie odpowiedzi w dokumentacji.

Na koniec twoje dane i aplikacje sztucznej inteligencji mogą polegać na silnym ładzie i bezpieczeństwie. Możesz zintegrować interfejsy API, takie jak OpenAI, bez naruszania prywatności danych i kontroli adresów IP.

Do czego służy usługa Azure Databricks?

Usługa Azure Databricks udostępnia narzędzia, które ułatwiają łączenie źródeł danych z jedną platformą w celu przetwarzania, przechowywania, udostępniania, analizowania, modelowania i zarabiania zestawów danych za pomocą rozwiązań z analizy biznesowej do generowania sztucznej inteligencji.

Obszar roboczy usługi Azure Databricks udostępnia ujednolicony interfejs i narzędzia dla większości zadań danych, w tym:

  • Planowanie i zarządzanie przetwarzaniem danych, w szczególności ETL
  • Generowanie pulpitów nawigacyjnych i wizualizacji
  • Zarządzanie zabezpieczeniami, ładem, wysoką dostępnością i odzyskiwaniem po awarii
  • Odnajdywanie, adnotacja i eksploracja danych
  • Modelowanie, śledzenie i obsługa modeli uczenia maszynowego
  • Generowanie rozwiązań sztucznej inteligencji

Zarządzana integracja z rozwiązaniem open source

Usługa Databricks ma silne zaangażowanie w społeczność open source. Usługa Databricks zarządza aktualizacjami integracji typu open source w wersjach środowiska Databricks Runtime. Następujące technologie to projekty typu open source utworzone pierwotnie przez pracowników usługi Databricks:

Narzędzia i dostęp programowy

Usługa Azure Databricks utrzymuje szereg zastrzeżonych narzędzi, które integrują i rozszerzają te technologie, aby dodać zoptymalizowaną wydajność i łatwość użycia, na przykład następujące:

Oprócz interfejsu użytkownika obszaru roboczego można programowo korzystać z usługi Azure Databricks przy użyciu następujących narzędzi:

  • Interfejs API REST
  • Interfejs wiersza polecenia
  • Terraform

Jak usługa Azure Databricks współpracuje z platformą Azure?

Architektura platformy Azure Databricks składa się z dwóch podstawowych części:

  • Infrastruktura używana przez Azure Databricks do wdrażania, konfigurowania i zarządzania platformą oraz usługami.
  • Infrastruktura należąca do klienta zarządzana we współpracy przez usługę Azure Databricks i Twoją firmę.

W przeciwieństwie do wielu firm danych przedsiębiorstwa usługa Azure Databricks nie wymusza migrowania danych do zastrzeżonych systemów magazynowania w celu korzystania z platformy. Zamiast tego skonfigurujesz obszar roboczy usługi Azure Databricks, konfigurując bezpieczne integracje między platformą Azure Databricks i kontem w chmurze, a następnie usługa Azure Databricks wdraża klastry obliczeniowe przy użyciu zasobów w chmurze na koncie w celu przetwarzania i przechowywania danych w magazynie obiektów oraz innych zintegrowanych usług, które kontrolujesz.

Katalog Unity dodatkowo rozszerza tę relację, umożliwiając zarządzanie uprawnieniami dostępu do danych przy użyciu znanej składni SQL w Azure Databricks.

Obszary robocze usługi Azure Databricks spełniają wymagania dotyczące zabezpieczeń i sieci niektórych największych i najbardziej znanych firm na świecie. Usługa Azure Databricks ułatwia nowym użytkownikom rozpoczęcie pracy na platformie. Usuwa wiele obciążeń i problemów związanych z pracą z infrastrukturą chmury, nie ograniczając dostosowań i kontroli, na które liczą doświadczeni specjaliści od danych, operacji oraz zespoły ds. bezpieczeństwa.

Jakie są typowe przypadki użycia usługi Azure Databricks?

Przypadki użycia w usłudze Azure Databricks są tak zróżnicowane, jak dane przetwarzane na platformie i pracownicy, którzy pracują z danymi jako podstawową częścią swojej pracy. W poniższych przypadkach użycia opisano, jak użytkownicy w całej organizacji mogą korzystać z usługi Azure Databricks do wykonywania zadań niezbędnych do przetwarzania, przechowywania i analizowania danych, które napędzają krytyczne funkcje biznesowe i decyzje.

Zbuduj data lakehouse dla firmy

Usługa Lakehouse łączy mocne strony przedsiębiorstwowych hurtowni danych i jezior danych w celu przyspieszenia, uproszczenia i ujednolicenia rozwiązań do analizy danych przedsiębiorstwa. Inżynierowie danych, analitycy danych i systemy produkcyjne mogą używać usługi Data Lakehouse jako jednego źródła prawdy, co pozwala na terminowy dostęp do spójnych danych i zmniejsza złożoność tworzenia, utrzymywania i synchronizowania wielu rozproszonych systemów danych. Zobacz Co to jest usługa Data Lakehouse?.

ETL i inżynieria danych

Niezależnie od tego, czy generujesz pulpity nawigacyjne, czy obsługujesz aplikacje sztucznej inteligencji, inżynieria danych zapewnia szkielet dla firm skoncentrowanych na danych, upewniając się, że dane są dostępne, czyste i przechowywane w modelach danych, które umożliwiają efektywne odnajdywanie i używanie. Azure Databricks łączy możliwości platformy Apache Spark z Delta Lake i narzędziami dostosowanymi do potrzeb, aby zapewnić niezrównane doświadczenie ETL (wyodrębnianie, przekształcanie, ładowanie). Za pomocą języków SQL, Python i Scala można tworzyć logikę ETL, a następnie organizować zaplanowane wdrażanie zadań za pomocą zaledwie kilku kliknięć.

DLT jeszcze bardziej upraszcza proces ETL dzięki inteligentnemu zarządzaniu zależnościami między zestawami danych a automatycznym wdrażaniem i skalowaniem infrastruktury produkcyjnej w celu zapewnienia terminowego i dokładnego dostarczania danych zgodnie ze specyfikacjami.

Usługa Azure Databricks udostępnia szereg niestandardowych narzędzi do pozyskiwania danych, w tym Auto Loader, wydajnego i skalowalnego narzędzia do przyrostowego i idempotentnego ładowania danych z obiektowych magazynów w chmurze oraz jezior danych do data lakehouse.

Uczenie maszynowe, sztuczna inteligencja i nauka o danych

Uczenie maszynowe usługi Azure Databricks rozszerza podstawowe funkcje platformy przy użyciu zestawu narzędzi dostosowanych do potrzeb analityków danych i inżynierów uczenia maszynowego, w tym MLflow i Databricks Runtime for Machine Learning.

Duże modele językowe i generowanie sztucznej inteligencji

Środowisko Databricks Runtime for Machine Learning zawiera biblioteki, takie jak Hugging Face Transformers , które umożliwiają integrację istniejących wstępnie wytrenowanych modeli lub innych bibliotek typu open source z przepływem pracy. Integracja usługi Databricks MLflow ułatwia korzystanie z usługi śledzenia MLflow z potokami przekształcania, modelami i składnikami przetwarzania. Ponadto możesz zintegrować modele OpenAI lub rozwiązania od partnerów, takich jak John Snow Labs , w przepływach pracy usługi Databricks.

Za pomocą usługi Azure Databricks możesz dostosować LLM, bazując na twoich danych, do konkretnego zadania. Dzięki obsłudze narzędzi open source, takich jak Hugging Face i DeepSpeed, możesz efektywnie korzystać z podstawowego modelu LLM i zacząć trenować z własnymi danymi, aby zwiększyć dokładność w swojej dziedzinie i dla swojego obciążenia roboczego.

Ponadto usługa Azure Databricks udostępnia funkcje sztucznej inteligencji, których analitycy danych SQL mogą używać do uzyskiwania dostępu do modeli LLM, w tym z platformy OpenAI, bezpośrednio w swoich potokach danych i przepływach pracy. Zobacz Funkcje sztucznej inteligencji w usłudze Azure Databricks.

Magazynowanie danych, analityka i Business Intelligence

Usługa Azure Databricks łączy przyjazne dla użytkownika interfejsy użytkownika z kosztowo efektywnymi zasobami obliczeniowymi i nieskończenie skalowalnym, przystępnym cenowo przechowywaniem, aby zapewnić zaawansowaną platformę do uruchamiania zapytań analitycznych. Administratorzy konfigurują skalowalne klastry obliczeniowe jako magazyny SQL, umożliwiając użytkownikom końcowym wykonywanie zapytań bez obaw o złożoność pracy w chmurze. Użytkownicy SQL mogą uruchamiać zapytania dla danych w Lakehouse przy użyciu edytora zapytań SQL SQL query editor lub w notesach. Notesy obsługują języki Python, R i Scala oprócz języka SQL i umożliwiają użytkownikom osadzanie tych samych wizualizacji dostępnych na starszych pulpitach nawigacyjnych obok linków, obrazów i komentarzy napisanych w języku Markdown.

Nadzór nad danymi i bezpieczne udostępnianie danych

Unity Catalog zapewnia ujednolicony model zarządzania danymi dla jeziora danych. Administratorzy chmury konfigurują i integrują ogólne uprawnienia kontroli dostępu dla Unity Catalog, a następnie administratorzy Azure Databricks mogą zarządzać uprawnieniami dla zespołów i osób indywidualnych. Uprawnienia są zarządzane za pomocą list kontroli dostępu (ACL) za pomocą przyjaznych dla użytkownika interfejsów użytkownika lub składni SQL, co ułatwia administratorom bazy danych zabezpieczanie dostępu do danych bez konieczności skalowania zarządzania dostępem do tożsamości natywnych dla chmury (IAM) i sieci.

Katalog Unity upraszcza uruchamianie bezpiecznych analiz w chmurze i zapewnia podział odpowiedzialności, który pomaga ograniczyć przekwalifikowanie lub podnoszenie kwalifikacji niezbędne zarówno dla administratorów, jak i użytkowników końcowych platformy. Zobacz Co to jest katalog Unity?.

Usługa Lakehouse udostępnia dane w organizacji w sposób równie prosty, jak przyznanie dostępu do zapytań dla tabeli czy widoku. W celu udostępniania poza bezpiecznym środowiskiem, Katalog Unity oferuje zarządzaną wersję Delta Sharing.

DevOps, ciągła integracja/ciągłe wdrażanie i orkiestracja zadań

Cykle rozwoju dla potoków ETL, modeli uczenia maszynowego i pulpitów nawigacyjnych do analizy mają swoje unikalne wyzwania. Usługa Azure Databricks umożliwia wszystkim użytkownikom korzystanie z jednego źródła danych, co zmniejsza zduplikowane nakłady pracy i raportowanie poza synchronizacją. Ponadto udostępniając zestaw typowych narzędzi do przechowywania wersji, automatyzowania, planowania, wdrażania kodu i zasobów produkcyjnych, można uprościć obciążenie związane z monitorowaniem, orkiestracją i operacjami. Zadania planują uruchomienie notesów usługi Azure Databricks, zapytań SQL i innego dowolnego kodu. foldery Git umożliwiają synchronizowanie projektów usługi Azure Databricks z wieloma popularnymi dostawcami usługi Git. Aby zapoznać się z pełnym omówieniem narzędzi, zobacz Lokalne narzędzia programistyczne.

Analiza danych w czasie rzeczywistym i analiza danych strumieniowych

Usługa Azure Databricks wykorzystuje strukturalne przesyłanie strumieniowe platformy Apache Spark do obsługi danych przesyłanych strumieniowo i przyrostowych zmian danych. Strukturalne przesyłanie strumieniowe ściśle integruje się z usługą Delta Lake, a te technologie zapewniają podstawy zarówno dla DLT, jak i Auto Loader. Zobacz Streaming w usłudze Azure Databricks.