Integracja z usługą Git definicji zadań platformy Spark
W tym artykule wyjaśniono, jak działa integracja usługi Git z definicjami zadań platformy Spark (SJD) w usłudze Microsoft Fabric. Dowiedz się, jak skonfigurować połączenie repozytorium, zarządzać zmianami definicji zadań platformy Spark za pomocą kontroli źródła i wdrażać je w różnych obszarach roboczych.
Włączenie integracji z usługą Git dla definicji zadań platformy Spark w usłudze Azure DevOps umożliwia śledzenie zmian za pośrednictwem pełnej historii usługi Git. Jeśli wybrano opcję PySpark lub SparkR, główny plik definicji i plik referencyjny są dołączane jako część zatwierdzenia. Zmiany kodu źródłowego w tych plikach również są śledzone.
Ważne
Ta funkcja jest dostępna w wersji zapoznawczej.
Konfigurowanie połączenia
Z poziomu ustawień obszaru roboczego można łatwo skonfigurować połączenie z repozytorium w celu zatwierdzania i synchronizowania zmian. Aby skonfigurować połączenie, zobacz artykuł Wprowadzenie do integracji z usługą Git. Po nawiązaniu połączenia elementy, takie jak definicje zadań platformy Spark, będą widoczne w panelu sterowania Źródło.
Po zatwierdzeniu definicji zadania platformy Spark w repozytorium Git struktura folderu definicji zadania zostanie wyświetlona w repozytorium.
Reprezentacja definicji zadania platformy Spark w usłudze Git
Na poniższej ilustracji przedstawiono przykład struktury plików każdego elementu definicji zadania platformy Spark w repozytorium:
Po zatwierdzeniu elementu definicji zadania platformy Spark w repozytorium zostanie utworzony folder git dla każdego elementu i nazwany zgodnie z tym schematem: <Nazwa> elementu + "SparkJobDefinition". Nie zmieniaj nazwy folderu, ponieważ służy do śledzenia elementu w obszarze roboczym. Jeśli na przykład nazwa elementu to "sjd1", nazwa folderu git to "sjd1SparkJobDefinition".
W folderze git znajdują się dwa podfoldery. Są one główne i odwołanie. Folder główny zawiera plik definicji głównej, a folder referencyjny zawiera plik referencyjny.
Oprócz plików głównych i referencyjnych istnieje również plik SparkJobDefinitionV1.json . Przechowuje metadane elementu definicji zadania platformy Spark, więc nie modyfikuj go. Plik platformy zawiera informacje o platformie związane z konfiguracją> usługi Git, których nie należy modyfikować.
Uwaga
- Jeśli wybierzesz język Java lub Scala jako język, pliki główne i referencyjne nie zostaną zatwierdzone podczas przekazywania jako pliku .jar.
- Dołączone środowisko jest utrwalane w definicji zadania platformy Spark po zsynchronizowaniu z repozytorium z obszarem roboczym sieć szkieletowa. Obecnie środowiska referencyjne między obszarami roboczymi nie są obsługiwane. Aby uruchomić definicję zadania, musisz ręcznie dołączyć do nowego środowiska lub użyć domyślnych ustawień obszaru roboczego.
- Definicja zadania platformy Spark zachowuje domyślny identyfikator usługi Lakehouse podczas synchronizacji z repozytorium do obszaru roboczego sieć szkieletowa. Jeśli zatwierdzisz notes przy użyciu domyślnego magazynu lakehouse, musisz ręcznie odwołać się do nowo utworzonego elementu lakehouse. Aby uzyskać więcej informacji, zobacz Integracja z usługą Git w usłudze Lakehouse.