Zadanie notesu dla zadań
Użyj zadania notesu, aby wdrożyć notesy usługi Databricks.
Konfigurowanie zadania notesu
Przed rozpoczęciem musisz mieć notes w lokalizacji dostępnej dla użytkownika konfigurując zadanie.
Uwaga
Interfejs użytkownika zadań wyświetla opcje dynamicznie na podstawie innych skonfigurowanych ustawień.
Aby rozpocząć przepływ w celu skonfigurowania Notebook
zadania:
- Przejdź do karty Zadania w interfejsie użytkownika zadań.
- W menu rozwijanym typu , select
Notebook
.
Konfigurowanie źródła
W menu rozwijanym źródła
Obszar roboczy
Użyj obszaru roboczego , aby skonfigurować notes przechowywany w obszarze roboczym, wykonując następujące kroki:
- Kliknij pole Ścieżka. Zostanie wyświetlone okno dialogowe notatnika Select.
- Przejdź do notesu, kliknij, aby wyróżnić plik, a następnie kliknij przycisk Potwierdź.
Uwaga
Za pomocą tej opcji można skonfigurować zadanie dla notesu przechowywanego w folderze Git usługi Databricks. Usługa Databricks zaleca używanie opcji dostawcy Git i zdalnego repozytorium Git do przechowywania wersji zasobów zaplanowanych za pomocą zadań.
Dostawca usługi Git
Użyj dostawcy git, aby skonfigurować notes w zdalnym repozytorium Git.
Opcje wyświetlane przez interfejs użytkownika zależą od tego, czy dostawca git został już skonfigurowany w innym miejscu. Tylko jedno zdalne repozytorium Git może być używane dla wszystkich zadań w zadaniu. Zobacz Używanie usługi Git z zadaniami.
Ważne
Notesy utworzone przez zadania usługi Azure Databricks uruchamiane ze zdalnych repozytoriów Git są efemeryczne i nie można polegać na śledzeniu przebiegów, eksperymentów lub modeli MLflow. Podczas tworzenia notesu na podstawie zadania użyj eksperymentu MLflow obszaru roboczego (zamiast eksperymentu MLflow notesu) i wywołaj mlflow.set_experiment("/path/to/experiment")
go w notesie obszaru roboczego przed uruchomieniem dowolnego kodu śledzenia MLflow. Aby uzyskać więcej informacji, zobacz Zapobieganie utracie danych w eksperymentach MLflow.
Pole Ścieżka zostanie wyświetlone po skonfigurowaniu odwołania git.
Wprowadź ścieżkę względną notesu, na przykład etl/bronze/ingest.py
.
Ważne
Po wprowadzeniu ścieżki względnej nie zaczynaj się od /
ani ./
. Jeśli na przykład ścieżka bezwzględna notesu, do którego chcesz uzyskać dostęp, to /etl/bronze/ingest.py
, wprowadź etl/bronze/ingest.py
wartość w polu Ścieżka .
Konfigurowanie bibliotek obliczeniowych i zależnych
- Użyj Compute do select lub skonfiguruj klaster obsługujący logikę w zeszycie.
- Jeśli używasz
Serverless
do obliczeń, użyj pola środowiska i bibliotek , aby select, edytować lub dodać nowe środowisko. Zobacz Instalowanie zależności notesu. - Dla wszystkich innych konfiguracji obliczeniowych kliknij pozycję + Dodaj w obszarze Biblioteki zależne. Zostanie wyświetlone okno dialogowe Dodawanie biblioteki zależnej .
- Możesz select istniejącą bibliotekę lub przekazać nową bibliotekę.
- Biblioteki przechowywane w lokalizacji obsługiwanej przez konfiguracje obliczeniowe można używać tylko w lokalizacji. Zobacz Obsługa biblioteki języka Python.
- Każde źródło biblioteki ma inny przepływ do wybierania lub przekazywania biblioteki. Zobacz Biblioteki.
Finalizowanie konfiguracji zadania
- (Opcjonalnie) Skonfiguruj Parameters jako pary klucz-wartość, do których można uzyskać dostęp w notebooku za pomocą
dbutils.widgets
. Zobacz Skonfiguruj zadanie parameters. - Kliknij pozycję Zapisz zadanie.
Ograniczenia
Łączne dane wyjściowe komórki notesu (połączone dane wyjściowe wszystkich komórek notesu) podlegają rozmiarowi 20 MB limit. Dodatkowo, wyjściowe dane pojedynczej komórki są ograniczone do rozmiaru 8 MB limit. Jeśli łączne dane wyjściowe komórki przekraczają rozmiar 20 MB lub dane wyjściowe pojedynczej komórki są większe niż 8 MB, przebieg zostanie anulowany i oznaczony jako niepowodzenie.
Jeśli potrzebujesz pomocy w znalezieniu komórek w pobliżu lub poza limit, uruchom notatnik dla klastra ogólnego przeznaczenia i użyj tej techniki automatycznego zapisywania notatnika .