Kontrola źródła w usłudze Azure Data Factory
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
Domyślnie autorzy środowiska użytkownika (UX) usługi Azure Data Factory bezpośrednio w usłudze fabryka danych. To środowisko ma następujące ograniczenia:
- Usługa Data Factory nie zawiera repozytorium do przechowywania jednostek JSON dla Twoich zmian. Jedynym sposobem zapisania zmian jest użycie przycisku Publikuj wszystko , a wszystkie zmiany są publikowane bezpośrednio w usłudze fabryki danych.
- Usługa Data Factory nie jest zoptymalizowana pod kątem współpracy i kontroli wersji.
- Szablon usługi Azure Resource Manager wymagany do wdrożenia samej usługi Data Factory nie jest dołączony.
Aby zapewnić lepsze środowisko tworzenia, usługa Azure Data Factory umożliwia skonfigurowanie repozytorium Git za pomocą usługi Azure Repos lub GitHub. Git to system kontroli wersji, który umożliwia łatwiejsze śledzenie zmian i współpracę. W tym artykule opisano sposób konfigurowania i pracy w repozytorium git wraz z wyróżnianiem najlepszych rozwiązań i przewodnikiem rozwiązywania problemów.
Możesz również odwołać się do ciągłej integracji i ciągłego dostarczania (CI/CD) w usłudze Azure Data Factory , aby dowiedzieć się więcej na temat większego wzorca ciągłej integracji/ciągłego wdrażania, którego kontrola źródła jest krytycznym aspektem.
Uwaga
Dodaliśmy publiczną pomoc techniczną usługi GitHub w usługach Azure Gov i Microsoft Azure obsługiwanych przez firmę 21Vianet. Zapoznaj się z blogem z ogłoszeniem.
Aby dowiedzieć się więcej o tym, jak usługa Azure Data Factory integruje się z usługą Git, zobacz 15-minutowy samouczek poniżej:
Korzyści wynikające z integracji z usługą Git
Poniżej znajduje się lista niektórych zalet integracji git zapewnia środowisko tworzenia:
- Kontrola źródła: W miarę jak obciążenia fabryki danych stają się kluczowe, warto zintegrować fabrykę z usługą Git, aby zastosować kilka korzyści związanych z kontrolą źródła, takich jak następujące:
- Możliwość śledzenia/inspekcji zmian.
- Możliwość przywracania zmian, które wprowadziły błędy.
- Zapisywanie częściowe: podczas tworzenia w usłudze fabryki danych nie można zapisywać zmian jako wersji roboczej, a wszystkie publikowane muszą przejść weryfikację fabryki danych. Bez względu na to, czy potoki nie są gotowe, czy po prostu nie chcesz tracić zmian w przypadku awarii komputera, integracja usługi Git umożliwia przyrostowe zmiany zasobów fabryki danych niezależnie od stanu, w którym się znajdują. Skonfigurowanie repozytorium Git umożliwia zapisanie zmian, dzięki czemu można publikować je tylko po przetestowaniu zmian w twoim zadowoleniu.
- Współpraca i kontrola: jeśli masz wielu członków zespołu współtworzynych w tej samej fabryce, możesz pozwolić członkom zespołu współpracować ze sobą za pośrednictwem procesu przeglądu kodu. Możesz również skonfigurować fabrykę tak, aby nie każdy współautor miał równe uprawnienia. Niektórzy członkowie zespołu mogą wprowadzać zmiany tylko za pośrednictwem usługi Git, a tylko niektóre osoby w zespole mogą publikować zmiany w fabryce.
- Lepsza ciągła integracja/ciągłe wdrażanie: jeśli wdrażasz w wielu środowiskach przy użyciu procesu ciągłego dostarczania, integracja z usługą Git ułatwia pewne akcje. Niektóre z tych akcji obejmują:
- Skonfiguruj potok wydania, aby był wyzwalany automatycznie po wprowadzeniu zmian w fabryce "dev".
- Dostosuj właściwości w fabryce, które są dostępne jako parametry w szablonie usługi Resource Manager. Może to być przydatne, aby zachować tylko wymagany zestaw właściwości jako parametry i mieć wszystkie inne trwale zakodowane.
- Lepsza wydajność: średnia fabryka z integracją usługi Git ładuje się 10 razy szybciej niż jedna usługa fabryki danych. Ta poprawa wydajności wynika z faktu, że zasoby są pobierane za pośrednictwem usługi Git.
Uwaga
Tworzenie bezpośrednio z usługą Data Factory jest wyłączone w środowisku użytkownika usługi Azure Data Factory po skonfigurowaniu repozytorium Git. Zmiany wprowadzone za pośrednictwem programu PowerShell lub zestawu SDK są publikowane bezpośrednio w usłudze Data Factory i nie są wprowadzane do usługi Git.
Nawiązywanie połączenia z repozytorium Git
Istnieją cztery różne sposoby łączenia repozytorium Git z fabryką danych dla usług Azure Repos i GitHub. Po nawiązaniu połączenia z repozytorium Git możesz wyświetlić konfigurację i zarządzać nią w centrum zarządzania w obszarze Konfiguracja usługi Git w sekcji Kontrola źródła.
Metoda konfiguracji 1: strona główna
Na stronie głównej usługi Azure Data Factory wybierz pozycję Skonfiguruj repozytorium kodu u góry.
Metoda konfiguracji 2. Tworzenie kanwy
Na kanwie tworzenia środowiska użytkownika usługi Azure Data Factory wybierz menu rozwijane Fabryka danych , a następnie wybierz pozycję Skonfiguruj repozytorium kodu.
Metoda konfiguracji 3: Centrum zarządzania
Przejdź do centrum zarządzania w narzędziu Azure Data Factory Studio. Wybierz pozycję Konfiguracja usługi Git w sekcji Kontrola źródła. Jeśli nie masz połączonego repozytorium, wybierz pozycję Konfiguruj.
Metoda konfiguracji 4: Podczas tworzenia fabryki
Podczas tworzenia nowej fabryki danych w witrynie Azure Portal można skonfigurować informacje o repozytorium Git na karcie Konfiguracja usługi Git.
Uwaga
Podczas konfigurowania narzędzia Git w witrynie Azure Portal ustawienia, takie jak nazwa projektu i nazwa repozytorium, muszą zostać wprowadzone ręcznie, zamiast być częścią listy rozwijanej.
Tworzenie za pomocą integracji usługi Azure Repos z usługą Git
Tworzenie wizualne za pomocą integracji usługi Azure Repos Git obsługuje kontrolę źródła i współpracę w celu pracy nad potokami fabryki danych. Fabrykę danych można skojarzyć z repozytorium organizacji git usługi Azure Repos na potrzeby kontroli źródła, współpracy, przechowywania wersji itd. Jedna organizacja usługi Git usługi Azure Repos może mieć wiele repozytoriów, ale repozytorium Git usługi Azure Repos może być skojarzone tylko z jedną fabryką danych. Jeśli nie masz organizacji lub repozytorium usługi Azure Repos, postępuj zgodnie z tymi instrukcjami , aby utworzyć zasoby.
Uwaga
Skrypty i pliki danych można przechowywać w repozytorium Git usługi Azure Repos. Należy jednak ręcznie przekazać pliki do usługi Azure Storage. Potok fabryki danych nie przekazuje automatycznie skryptu ani plików danych przechowywanych w repozytorium Git usługi Azure Repos do usługi Azure Storage. Dodatkowe pliki, takie jak szablony usługi ARM, skrypty lub pliki konfiguracji, mogą być przechowywane w repozytorium poza zamapowanym folderem. W takim przypadku należy pamiętać, że do kompilowania/wdrażania i interakcji z plikami przechowywanymi poza zamapowanym folderem usługi Azure DevOps jest wymagane dodatkowe zadanie.
Ustawienia usługi Azure Repos
Okienko konfiguracji zawiera szczegółowe instrukcje konfigurowania każdego z następujących ustawień repozytorium kodu:
Ustawienie | opis | Wartość |
---|---|---|
Typ repozytorium | Typ repozytorium kodu usługi Azure Repos. |
Usługa Azure DevOps Git lub GitHub |
Tożsamość Microsoft Entra | Nazwa dzierżawy firmy Microsoft Entra. | <your tenant name> |
Organizacja usługi Azure Repos | Nazwa organizacji usługi Azure Repos. Nazwę organizacji usługi Azure Repos można znaleźć pod adresem https://{organization name}.visualstudio.com . Możesz zalogować się do organizacji usługi Azure Repos, aby uzyskać dostęp do profilu programu Visual Studio i wyświetlić repozytoria i projekty. |
<your organization name> |
ProjectName | Nazwa projektu usługi Azure Repos. Nazwę projektu usługi Azure Repos można znaleźć pod adresem https://{organization name}.visualstudio.com/{project name} . |
<your Azure Repos project name> |
Nazwa repozytorium | Nazwa repozytorium kodu usługi Azure Repos. Projekty usługi Azure Repos zawierają repozytoria Git do zarządzania kodem źródłowym w miarę rozwoju projektu. Możesz utworzyć nowe repozytorium lub użyć istniejącego repozytorium, które znajduje się już w projekcie. | <your Azure Repos code repository name> |
Gałąź współpracy | Gałąź współpracy usługi Azure Repos używana do publikowania. Domyślnie jest main to . Zmień to ustawienie w przypadku, gdy chcesz opublikować zasoby z innej gałęzi. |
<your collaboration branch name> |
Publikowanie gałęzi | Gałąź Publikowanie jest gałęzią w repozytorium, w którym są przechowywane i aktualizowane powiązane szablony usługi ARM. Domyślnie jest adf_publish to . |
<your publish branch name> |
Folder główny | Folder główny w gałęzi współpracy usługi Azure Repos. | <your root folder name> |
Importowanie istniejących zasobów usługi Data Factory do repozytorium | Określa, czy mają być importowane istniejące zasoby fabryki danych z kanwy tworzenia środowiska użytkownika do repozytorium Git usługi Azure Repos. Zaznacz pole, aby zaimportować zasoby fabryki danych do skojarzonego repozytorium Git w formacie JSON. Ta akcja eksportuje każdy zasób indywidualnie (czyli połączone usługi i zestawy danych są eksportowane do oddzielnych nazw JSON). Jeśli to pole nie zostanie zaznaczone, istniejące zasoby nie zostaną zaimportowane. | Wybrane (ustawienie domyślne) |
Gałąź do zaimportowania zasobu do | Określa, do której gałęzi są importowane zasoby fabryki danych (potoki, zestawy danych, połączone usługi itp.). Zasoby można zaimportować do jednej z następujących gałęzi: a. Współpraca b. Utwórz nowy c. Użyj istniejącej |
Uwaga
Jeśli używasz przeglądarki Microsoft Edge i nie widzisz żadnych wartości na liście rozwijanej Konto usługi Azure DevOps, dodaj adres https://*.visualstudio.com do listy zaufanych witryn.
Edytowanie ustawień repozytorium
Jeśli należy wprowadzić jakiekolwiek zmiany w ustawieniach skonfigurowanego repozytorium Git usługi Azure Repos, możesz wybrać opcję Edytuj.
Możesz zaktualizować gałąź publikowania i zdecydować, czy wyłączyć przycisk publikowania z programu ADF Studio. Jeśli zdecydujesz się wyłączyć przycisk publikowania z programu Studio, przycisk publikowania będzie wyszaryzowany w programie Studio. Pomaga to uniknąć zastępowania ostatniego zautomatyzowanego wdrożenia publikowania.
Korzystanie z innej dzierżawy firmy Microsoft Entra
Repozytorium Git usługi Azure Repos może znajdować się w innej dzierżawie firmy Microsoft Entra. Aby określić inną dzierżawę firmy Microsoft Entra, musisz mieć uprawnienia administratora dla używanej subskrypcji platformy Azure. Aby uzyskać więcej informacji, zobacz Zmienianie administratora subskrypcji.
Ważne
Aby nawiązać połączenie z innym identyfikatorem Entra firmy Microsoft, zalogowany użytkownik musi być częścią tej usługi Active Directory.
Korzystanie z osobistego konta Microsoft
Aby korzystać z osobistego konta Microsoft na potrzeby integracji z usługą Git, możesz połączyć osobiste repozytorium platformy Azure z usługą Active Directory w organizacji.
Dodaj osobiste konto Microsoft do usługi Active Directory organizacji jako gościa. Aby uzyskać więcej informacji, zobacz Dodawanie użytkowników współpracy firmy Microsoft Entra B2B w witrynie Azure Portal.
Zaloguj się do witryny Azure Portal przy użyciu osobistego konta Microsoft. Następnie przejdź do usługi Active Directory organizacji.
Przejdź do sekcji Azure DevOps, w której jest teraz widoczne osobiste repozytorium. Wybierz repozytorium i połącz się z usługą Active Directory.
Po wykonaniu tych kroków konfiguracji repozytorium osobiste jest dostępne podczas konfigurowania integracji z usługą Git w interfejsie użytkownika usługi Data Factory.
Aby uzyskać więcej informacji na temat łączenia usługi Azure Repos z usługą Active Directory w organizacji, zobacz Connect your Azure DevOps organization to Microsoft Entra ID (Łączenie organizacji usługi Azure DevOps z identyfikatorem Entra firmy Microsoft).
Tworzenie za pomocą integracji z usługą GitHub
Tworzenie wizualne za pomocą integracji z usługą GitHub obsługuje kontrolę źródła i współpracę w celu pracy nad potokami fabryki danych. Fabrykę danych można skojarzyć z repozytorium konta usługi GitHub na potrzeby kontroli źródła, współpracy i przechowywania wersji. Pojedyncze konto usługi GitHub może hostować wiele repozytoriów, a każde repozytorium może być skojarzone z wieloma fabrykami danych. Konfigurując każdą fabrykę danych tak, aby korzystała z innej gałęzi w tym samym repozytorium, można obsługiwać oddzielne środowiska (takie jak programowanie, przemieszczanie i produkcja) podczas niezależnego zarządzania ich konfiguracjami. Jeśli nie masz konta lub repozytorium GitHub, postępuj zgodnie z tymi instrukcjami , aby utworzyć zasoby.
Integracja usługi GitHub z usługą Data Factory obsługuje zarówno publiczną usługę GitHub (czyli https://github.comusługę GitHub Enterprise Cloud, jak i GitHub Enterprise Server). Możesz używać zarówno publicznych, jak i prywatnych repozytoriów GitHub z usługą Data Factory, o ile masz uprawnienia do odczytu i zapisu do repozytorium w usłudze GitHub. Aby nawiązać połączenie z repozytorium publicznym, wybierz opcję Użyj repozytorium linków, ponieważ nie są one widoczne w menu rozwijanym nazwy repozytorium. Integracja z serwerem przedsiębiorstwa usługi ADF w usłudze ADF działa tylko z oficjalnie obsługiwanymi wersjami serwera GitHub enterprise.
W przypadku repozytoriów należących do konta organizacji usługi GitHub administrator musi autoryzować aplikację usługi ADF. W przypadku repozytoriów należących do konta użytkownika usługi GitHub użytkownik z co najmniej uprawnieniem współpracownika może autoryzować aplikację usługi ADF. To uprawnienie nie daje aplikacji usługi ADF bezpośredniego dostępu do wszystkich repozytoriów należących do konta/organizacji. Zezwala ona tylko aplikacji usługi ADF na działanie w imieniu użytkownika w celu uzyskania dostępu do repozytoriów na podstawie uprawnień dostępu użytkownika.
Uwaga
Jeśli używasz przeglądarki Microsoft Edge, usługa GitHub Enterprise w wersji mniejszej niż 2.1.4 nie działa z nią. Usługa GitHub oficjalnie obsługuje >=3.0 i wszystkie te elementy powinny być odpowiednie dla usługi ADF. Gdy usługa GitHub zmienia minimalną wersję, obsługiwane wersje usługi ADF również się zmieniają.
Ustawienia usługi GitHub
Uwaga
Jeśli wystąpi błąd Nie można wyświetlić listy repozytoriów GitHub. Upewnij się, że nazwa konta jest poprawna i masz uprawnienia do wykonania akcji. Upewnij się, że używasz poprawnej nazwy właściciela, a nie adresu URL repozytorium GitHub. Jeśli na przykład adres URL repozytorium to https://github.com/contoso/contoso-ads, właściciel to contoso, a nie pełny adres URL.
W okienku konfiguracji są wyświetlane następujące ustawienia repozytorium GitHub:
Ustawienie | Opis | Wartość |
---|---|---|
Typ repozytorium | Typ repozytorium kodu usługi Azure Repos. | GitHub |
Korzystanie z serwera GitHub Enterprise Server | Pole wyboru, aby wybrać pozycję GitHub Enterprise Server. | niezaznaczone (ustawienie domyślne) |
GitHub Enterprise Server URL | Główny adres URL usługi GitHub Enterprise (musi być adresem HTTPS dla lokalnego serwera GitHub Enterprise). Na przykład: https://github.mydomain.com . Wymagane tylko w przypadku wybrania opcji Użyj serwera GitHub Enterprise Server |
<your GitHub Enterprise Server URL> |
Właściciel repozytorium GitHub | Organizacja lub konto usługi GitHub, które jest właścicielem repozytorium. Tę nazwę można znaleźć pod https://github.com/{owner}/{repository nazwą}. Przejście do tej strony powoduje wyświetlenie monitu o wprowadzenie poświadczeń OAuth usługi GitHub do organizacji lub konta usługi GitHub. Jeśli wybierzesz pozycję Użyj serwera GitHub Enterprise Server, zostanie wyświetlone okno dialogowe z informacją o wprowadzeniu tokenu dostępu. | <your GitHub repository owner name> |
Nazwa repozytorium | Nazwa repozytorium kodu usługi GitHub. Konta usługi GitHub zawierają repozytoria Git do zarządzania kodem źródłowym. Możesz utworzyć nowe repozytorium lub użyć istniejącego repozytorium, które znajduje się już na Twoim koncie. Określ nazwę repozytorium kodu GitHub po wybraniu pozycji Wybierz repozytorium. | <your repository name> |
Link do repozytorium Git | Link do repozytorium kodu usługi GitHub. Po wybraniu linku Użyj repozytorium repozytorium kodu w usłudze GitHub wybierz link Użyj repozytorium. | <your repository link> |
Gałąź współpracy | Gałąź współpracy usługi GitHub używana do publikowania. Domyślnie jest to główne. Zmień to ustawienie w przypadku, gdy chcesz opublikować zasoby z innej gałęzi. Możesz również utworzyć nową gałąź współpracy tutaj. | <your collaboration branch> |
Publikowanie gałęzi | Gałąź w repozytorium, w którym są przechowywane i aktualizowane szablony usługi ARM związane z publikowaniem. | <your publish branch name> |
Folder główny | Folder główny w gałęzi współpracy usługi GitHub. | <your root folder name> |
Importowanie istniejących zasobów do repozytorium | Określa, czy mają być importowane istniejące zasoby fabryki danych z kanwy tworzenia środowiska użytkownika do repozytorium GitHub. Zaznacz pole, aby zaimportować zasoby fabryki danych do skojarzonego repozytorium Git w formacie JSON. Ta akcja eksportuje każdy zasób indywidualnie (czyli połączone usługi i zestawy danych są eksportowane do oddzielnych nazw JSON). Jeśli to pole nie zostanie zaznaczone, istniejące zasoby nie zostaną zaimportowane. | Wybrane (ustawienie domyślne) |
Zaimportuj zasób do tej gałęzi | Określa, do której gałęzi są importowane zasoby fabryki danych (potoki, zestawy danych, połączone usługi itp.). |
Edytowanie ustawień repozytorium
Jeśli należy wprowadzić jakiekolwiek zmiany w ustawieniach skonfigurowanego repozytorium GitHub, możesz wybrać opcję Edytuj.
Możesz zaktualizować gałąź publikowania i zdecydować, czy wyłączyć przycisk publikowania z programu ADF Studio. Jeśli zdecydujesz się wyłączyć przycisk publikowania z programu Studio, przycisk publikowania będzie wyszaryzowany w programie Studio. Pomaga to uniknąć zastępowania ostatniego zautomatyzowanego wdrożenia publikowania.
Organizacje usługi GitHub
Nawiązywanie połączenia z organizacją usługi GitHub wymaga, aby organizacja udzieliła uprawnień do usługi Azure Data Factory. Użytkownik z uprawnieniami ADMINISTRATORA w organizacji musi wykonać poniższe kroki, aby umożliwić usłudze Data Factory nawiązywanie połączenia.
Nawiązywanie połączenia z publicznymi usługami GitHub lub GitHub Enterprise Cloud po raz pierwszy w usłudze Azure Data Factory
Jeśli łączysz się z publicznymi usługami GitHub lub GitHub Enterprise Cloud z usługi Azure Data Factory po raz pierwszy, wykonaj następujące kroki, aby nawiązać połączenie z organizacją usługi GitHub.
- W okienku Konfiguracja usługi Git wprowadź nazwę organizacji w polu Konto usługi GitHub. Zostanie wyświetlony monit o zalogowanie się do usługi GitHub.
- Zaloguj się przy użyciu poświadczeń użytkownika.
- Zostanie wyświetlony monit o autoryzowanie usługi Azure Data Factory jako aplikacji o nazwie AzureDataFactory. Na tym ekranie zostanie wyświetlona opcja udzielenia uprawnień usłudze ADF w celu uzyskania dostępu do organizacji. Jeśli nie widzisz opcji udzielenia uprawnień, poproś administratora o ręczne przyznanie uprawnienia za pośrednictwem usługi GitHub.
Po zakończeniu tych kroków fabryka może łączyć się zarówno z repozytoriami publicznymi, jak i prywatnymi w organizacji. Jeśli nie możesz nawiązać połączenia, spróbuj wyczyścić pamięć podręczną przeglądarki i ponowić próbę.
Już połączone z publicznymi usługami GitHub lub GitHub Enterprise Cloud przy użyciu konta osobistego
Jeśli masz już połączenie z publicznymi usługami GitHub lub GitHub Enterprise Cloud i udzielono uprawnień dostępu tylko do konta osobistego, wykonaj poniższe kroki, aby udzielić uprawnień organizacji.
Przejdź do usługi GitHub i otwórz pozycję Ustawienia.
Wybierz Aplikacje. Na karcie Autoryzowane aplikacje OAuth powinna zostać wyświetlona pozycja AzureDataFactory.
Wybierz aplikację i przyznaj aplikacji dostęp do organizacji.
Po zakończeniu tych kroków fabryka może łączyć się zarówno z repozytoriami publicznymi, jak i prywatnymi w organizacji.
Nawiązywanie połączenia z serwerem GitHub Enterprise Server
Jeśli łączysz się z serwerem GitHub Enterprise Server, musisz użyć osobistego tokenu dostępu do uwierzytelniania. Dowiedz się, jak utworzyć osobisty token dostępu w temacie Tworzenie osobistego tokenu dostępu.
Uwaga
Serwer GitHub Enterprise Server znajduje się w własnym środowisku prywatnym, dlatego potrzebujesz pełnej kontroli nad zaporą, zasadami sieci i siecią VPN podczas korzystania z tego uwierzytelniania. Aby uzyskać więcej informacji, zobacz About GitHub Enterprise Server (Informacje o serwerze GitHub Enterprise Server).
Znane ograniczenia usługi GitHub
Skrypty i pliki danych można przechowywać w repozytorium GitHub. Należy jednak ręcznie przekazać pliki do usługi Azure Storage. Potok usługi Data Factory nie przekazuje automatycznie skryptu ani plików danych przechowywanych w repozytorium GitHub do usługi Azure Storage.
Usługa GitHub Enterprise w wersji starszej niż 2.14.0 nie działa w przeglądarce Microsoft Edge.
Integracja usługi GitHub z narzędziami do tworzenia wizualizacji usługi Data Factory działa tylko w ogólnie dostępnej wersji usługi Data Factory.
Nawiązywanie połączenia z usługą Azure DevOps Server 2022
Jeśli połączysz się z usługą Azure DevOps Server 2022, musisz użyć osobistego tokenu dostępu do uwierzytelniania. Dowiedz się, jak utworzyć osobisty token dostępu tutaj.
Nawiązywanie połączenia z lokalną usługą Azure DevOps przez podanie polecenia Azure DevOps Server URL
i Azure DevOps Project Collection
Podaj token z zakresem dostępu jako odczyt/zapis dla kodu.
Kontrola wersji
Systemy kontroli wersji (znane również jako kontrola źródła) umożliwiają deweloperom współpracę nad kodem i śledzenie zmian wprowadzonych w bazie kodu. Kontrola źródła jest podstawowym narzędziem dla projektów z wieloma deweloperami.
Tworzenie gałęzi funkcji
Każde repozytorium Git usługi Azure Repos skojarzone z fabryką danych ma gałąź współpracy. (main
jest domyślną gałęzią współpracy). Użytkownicy mogą również tworzyć gałęzie funkcji, klikając pozycję + Nowa gałąź na liście rozwijanej gałęzi.
Po pojawieniu się nowego okienka gałęzi wprowadź nazwę gałęzi funkcji i wybierz gałąź, z której będzie bazować praca.
Gdy wszystko będzie gotowe do scalenia zmian z gałęzi funkcji do gałęzi współpracy, kliknij listę rozwijaną gałęzi i wybierz pozycję Utwórz żądanie ściągnięcia. Ta akcja powoduje przejście do usługi Azure Repos Git, w której można zgłaszać żądania ściągnięcia, wykonywać przeglądy kodu i scalać zmiany w gałęzi współpracy. (main
jest wartością domyślną). Możesz publikować tylko w usłudze Data Factory z gałęzi współpracy.
Konfigurowanie ustawień publikowania
Domyślnie fabryka danych generuje szablony usługi Resource Manager opublikowanej fabryki i zapisuje je w gałęzi o nazwie adf_publish
. Aby skonfigurować niestandardową gałąź publikowania, dodaj publish_config.json
plik do folderu głównego w gałęzi współpracy. Podczas publikowania usługa ADF odczytuje ten plik, wyszukuje pole publishBranch
i zapisuje wszystkie szablony usługi Resource Manager w określonej lokalizacji. Jeśli gałąź nie istnieje, fabryka danych automatycznie ją utworzy. Przykład tego, jak wygląda ten plik, znajduje się poniżej:
{
"publishBranch": "factory/adf_publish"
}
Usługa Azure Data Factory może mieć tylko jedną gałąź publikowania jednocześnie. Po określeniu nowej gałęzi publikowania usługa Data Factory nie usuwa poprzedniej gałęzi publikowania. Jeśli chcesz usunąć poprzednią gałąź publikowania, usuń ją ręcznie.
Uwaga
Usługa Data Factory odczytuje publish_config.json
plik tylko podczas ładowania fabryki. Jeśli fabryka jest już załadowana w portalu, odśwież przeglądarkę, aby zmiany zaczęły obowiązywać.
Publikowanie zmian kodu
Po scaleniu zmian w gałęzi współpracy (main
jest to ustawienie domyślne), kliknij przycisk Publikuj , aby ręcznie opublikować zmiany kodu w gałęzi głównej w usłudze Data Factory.
Zostanie otwarte okienko boczne, w którym potwierdzisz, że gałąź publikowania i oczekujące zmiany są poprawne. Po zweryfikowaniu zmian kliknij przycisk OK , aby potwierdzić publikowanie.
Ważne
Gałąź główna nie jest reprezentatywna dla elementów wdrożonych w usłudze Data Factory. Gałąź główna musi zostać opublikowana ręcznie w usłudze Data Factory.
Najlepsze rozwiązania dotyczące integracji z usługą Git
Uprawnienia
Zazwyczaj nie chcesz, aby każdy członek zespołu miał uprawnienia do aktualizowania usługi Data Factory. Zalecane są następujące ustawienia uprawnień:
- Wszyscy członkowie zespołu powinni mieć uprawnienia do odczytu w usłudze Data Factory.
- Tylko wybrany zestaw osób powinien być dozwolony do publikowania w usłudze Data Factory. W tym celu muszą mieć rolę współautora usługi Data Factory w grupie zasobów zawierającej usługę Data Factory. Aby uzyskać więcej informacji na temat uprawnień, zobacz Role i uprawnienia dla usługi Azure Data Factory.
Zaleca się, aby nie zezwalać na bezpośrednie ewidencjonowania w gałęzi współpracy. To ograniczenie może pomóc zapobiec usterce, ponieważ każde zaewidencjonowanie przejdzie przez proces przeglądu żądania ściągnięcia opisany w temacie Tworzenie gałęzi funkcji.
Używanie haseł z usługi Azure Key Vault
Zaleca się używanie usługi Azure Key Vault do przechowywania dowolnych parametry połączenia lub haseł lub uwierzytelniania tożsamości zarządzanej dla połączonych usług Data Factory. Ze względów bezpieczeństwa fabryka danych nie przechowuje wpisów tajnych w usłudze Git. Wszelkie zmiany w usługach połączonych zawierających wpisy tajne, takie jak hasła, są natychmiast publikowane w usłudze Azure Data Factory.
Użycie usługi Key Vault lub uwierzytelniania msi ułatwia również ciągłą integrację i wdrażanie, ponieważ nie trzeba udostępniać tych wpisów tajnych podczas wdrażania szablonu usługi Resource Manager.
Rozwiązywanie problemów dotyczących integracji z platformą Git
Nieaktualna gałąź publikowania
Poniżej przedstawiono kilka przykładów sytuacji, które mogą powodować przestarzałą gałąź publikowania:
- Użytkownik ma wiele gałęzi. W jednej gałęzi funkcji usunęli połączoną usługę, która nie jest skojarzona z usługą AKV (połączone usługi niezwiązane z usługą AKV są publikowane natychmiast niezależnie od tego, czy znajdują się w usłudze Git, czy nie) i nigdy nie scaliły gałęzi funkcji z gałęzią współpracy.
- Użytkownik zmodyfikował fabrykę danych przy użyciu zestawu SDK lub programu PowerShell
- Użytkownik przeniósł wszystkie zasoby do nowej gałęzi i próbował opublikować ją po raz pierwszy. Połączone usługi należy tworzyć ręcznie podczas importowania zasobów.
- Użytkownik przekazuje połączoną usługę inną niż AKV lub plik JSON środowiska Integration Runtime ręcznie. Odwołują się do tego zasobu z innego zasobu, takiego jak zestaw danych, połączona usługa lub potok. Połączona usługa spoza usługi AKV utworzona za pośrednictwem interfejsu użytkownika jest natychmiast publikowana, ponieważ poświadczenia muszą być szyfrowane. Jeśli przekażesz zestaw danych odwołujący się do tej połączonej usługi i spróbujesz go opublikować, interfejs użytkownika zezwala na to, ponieważ istnieje w środowisku git. Zostanie ona odrzucona w czasie publikowania, ponieważ nie istnieje w usłudze fabryki danych.
Jeśli gałąź publikowania nie jest zsynchronizowana z gałęzią główną i zawiera nieaktualne zasoby pomimo ostatniego opublikowania, możesz użyć jednego z poniższych rozwiązań:
Opcja 1. Używanie funkcji trybu zastępowania na żywo
Publikuje lub zastępuje kod z gałęzi współpracy w trybie na żywo. Kod w repozytorium jest uznawany za źródło prawdy.
Przepływ kodu: gałąź współpracy —> tryb na żywo
Opcja 2. Rozłącz i ponownie połącz repozytorium Git
Importuje kod z trybu na żywo do gałęzi współpracy. Uważa kod w trybie na żywo za źródło prawdy.
Przepływ kodu: tryb na żywo —> gałąź współpracy
- Usuwanie bieżącego repozytorium Git
- Skonfiguruj ponownie usługę Git przy użyciu tych samych ustawień, ale upewnij się, że wybrano opcję Importuj istniejące zasoby usługi Data Factory do repozytorium , a następnie wybierz pozycję Gałąź współpracy (ta sama gałąź)
- Utwórz żądanie ściągnięcia, aby scalić zmiany w gałęzi współpracy.
Uwaga
Utworzenie i scalenie żądania ściągnięcia jest konieczne tylko wtedy, gdy pracujesz w repozytorium, które nie zezwala na bezpośrednie zatwierdzenia. W większości organizacji przesyłanie do repozytorium wymaga przeglądu przed scaleniem, więc najlepszym rozwiązaniem jest zwykle użycie tego podejścia. Jednak w niektórych przypadkach nie jest wymagana żadna recenzja, w takim przypadku nie jest konieczne utworzenie i scalenie żądania ściągnięcia, ale zmiany mogą być bezpośrednio zatwierdzone w gałęzi współpracy.
W razie potrzeby wybierz jedną z metod.
Wszystkie zasoby wyświetlane jako nowe podczas publikowania
Podczas publikowania wszystkie zasoby mogą być wyświetlane jako nowe, nawet jeśli zostały wcześniej opublikowane. Może się tak zdarzyć, jeśli właściwość lastCommitId zostanie zresetowana we właściwości repoConfiguration fabryki przez ponowne wdrożenie szablonu usługi ARM fabryki lub zaktualizowanie właściwości factory repoConfiguration za pomocą programu PowerShell lub interfejsu API REST. Kontynuowanie publikowania zasobów może rozwiązać ten problem, ale aby zapobiec jego wystąpieniu ponownie, unikaj aktualizowania właściwości factory repoConfiguration .
Przełączanie do innego repozytorium Git
Aby przełączyć się do innego repozytorium Git, przejdź do strony konfiguracji usługi Git w centrum zarządzania w obszarze Kontrola źródła. Wybierz pozycję Odłącz.
Wprowadź nazwę fabryki danych i kliknij przycisk Potwierdź , aby usunąć repozytorium Git skojarzone z fabryką danych.
Po usunięciu skojarzenia z bieżącym repozytorium możesz skonfigurować ustawienia usługi Git tak, aby korzystały z innego repozytorium, a następnie zaimportować istniejące zasoby usługi Data Factory do nowego repozytorium.
Ważne
Usunięcie konfiguracji usługi Git z fabryki danych nie powoduje usunięcia niczego z repozytorium. Fabryka zawiera wszystkie opublikowane zasoby. Możesz kontynuować edycję fabryki bezpośrednio względem usługi.
Powiązana zawartość
- Aby dowiedzieć się więcej na temat monitorowania potoków i zarządzania nimi, zobacz Monitorowanie potoków i zarządzanie nimi programowo.
- Aby zaimplementować ciągłą integrację i wdrażanie, zobacz Ciągła integracja i ciągłe dostarczanie (CI/CD) w usłudze Azure Data Factory.