Omówienie kluczowych pojęć

3 min

Azure Databricks to pojedyncza platforma usługi z wieloma technologiami, które umożliwiają pracę z danymi na dużą skalę. W przypadku korzystania z usługi Azure Databricks istnieją pewne kluczowe pojęcia, które należy zrozumieć.

Obszary robocze

Obszar roboczy to środowisko do uzyskiwania dostępu do wszystkich zasobów usługi Databricks. Udostępnia interfejs użytkownika do zarządzania notesami, bibliotekami i eksperymentami. Obszary robocze można organizować w foldery i udostępniać między członkami zespołu, ułatwiając współpracę i zarządzanie zasobami.

Notesy

Notesy usługi Databricks to interaktywne dokumenty zawierające kod uruchamiany, wizualizacje i tekst narracji. Obsługują one wiele języków, w tym Python, R, Scala i SQL, które mogą być używane jednocześnie w tym samym notesie. Notesy są centralne dla projektów współpracy i są idealne do eksploracyjnej analizy danych, wizualizacji danych i złożonych przepływów pracy danych.

Klastry

Klastry to aparaty obliczeniowe usługi Azure Databricks. Użytkownicy mogą tworzyć i skalować klastry zgodnie z wymaganymi zasobami obliczeniowymi. Klastry można skonfigurować ręcznie lub ustawić na skalowanie automatyczne na podstawie obciążenia. Obsługują różne typy węzłów dla różnych zadań, takich jak węzły sterowników i procesów roboczych, zapewniając efektywne wykorzystanie zasobów.

Stanowiska

Zadania w usłudze Azure Databricks służą do planowania i uruchamiania zautomatyzowanych zadań. Te zadania mogą być uruchamianiem notesu, zadaniami platformy Spark lub dowolnymi wykonaniami kodu. Zadania można wyzwalać zgodnie z harmonogramem lub uruchamiać w odpowiedzi na określone zdarzenia, co ułatwia automatyzowanie przepływów pracy i okresowych zadań przetwarzania danych.

Databricks Runtime

Środowisko Databricks Runtime to zestaw zoptymalizowanych pod kątem wydajności wersji platformy Apache Spark. Obejmuje on ulepszenia ulepszonej wydajności i dodatkowe funkcje wykraczające poza standardową platformę Spark, takie jak optymalizacje obciążeń uczenia maszynowego, przetwarzanie grafów i genomiki.

Delta Lake

Usługa Delta Lake to warstwa magazynu typu open source, która zapewnia niezawodność i skalowalność magazynów typu data lake. Zapewnia ona transakcje ACID, skalowalną obsługę metadanych oraz jednoczy przetwarzanie danych przesyłanych strumieniowo i wsadowych, co ma kluczowe znaczenie dla zarządzania danymi na dużą skalę w spójny i odporny na błędy sposób.

Język SQL usługi Databricks

Usługa Databricks SQL umożliwia wykonywanie zapytań SQL dotyczących danych w usłudze Azure Databricks. Umożliwia ona analitykom danych uruchamianie szybkich zapytań ad hoc i tworzenie raportów bezpośrednio na danych big data. Obejmuje on edytor SQL, pulpity nawigacyjne i narzędzia do automatycznego wizualizacji, dzięki czemu jest przyjazny dla użytkowników przyzwyczajonych do środowisk SQL.

MLflow

MLflow to platforma typu open source do zarządzania całym cyklem życia uczenia maszynowego. Obejmuje ona funkcje śledzenia eksperymentów, zarządzania modelami i wdrażania, pomagając praktykom efektywnie zarządzać i udostępniać swoje modele uczenia maszynowego oraz eksperymenty.