Kopiowanie nowych i zmienionych plików według właściwości LastModifiedDate za pomocą usługi Azure Data Factory
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule opisano szablon rozwiązania, którego można użyć do kopiowania nowych i zmienionych plików tylko przez LastModifiedDate z magazynu opartego na plikach do magazynu docelowego.
Informacje o tym szablonie rozwiązania
Ten szablon najpierw wybiera nowe i zmienione pliki tylko według ich atrybutów LastModifiedDate, a następnie kopiuje te wybrane pliki z magazynu źródła danych do magazynu docelowego danych.
Szablon zawiera jedno działanie:
- Kopiuj , aby skopiować nowe i zmienione pliki tylko przez LastModifiedDate z magazynu plików do magazynu docelowego.
Szablon definiuje sześć parametrów:
- FolderPath_Source to ścieżka folderu, w której można odczytywać pliki z magazynu źródłowego. Musisz zastąpić wartość domyślną własną ścieżką folderu.
- Directory_Source to ścieżka podfolderu, w której można odczytywać pliki z magazynu źródłowego. Musisz zastąpić wartość domyślną własną ścieżką podfolderu.
- FolderPath_Destination to ścieżka folderu, w której chcesz skopiować pliki do magazynu docelowego. Musisz zastąpić wartość domyślną własną ścieżką folderu.
- Directory_Destination to ścieżka podfolderu, w której chcesz skopiować pliki do magazynu docelowego. Musisz zastąpić wartość domyślną własną ścieżką podfolderu.
- LastModified_From służy do wybierania plików, których atrybut LastModifiedDate jest po lub równy tej wartości daty/godziny. Aby wybrać tylko nowe pliki, które nie zostały skopiowane ostatnio, ta wartość daty/godziny może być godziną ostatniego wyzwolenia potoku. Wartość domyślną "2019-02-01T00:00:00Z" można zamienić na oczekiwaną wartość LastModifiedDate w strefie czasowej UTC.
- LastModified_To służy do wybierania plików, których atrybut LastModifiedDate znajduje się przed tą wartością daty/godziny. Aby wybrać tylko nowe pliki, które nie zostały skopiowane w poprzednich uruchomieniach, ta wartość daty/godziny może być bieżącą godziną. Wartość domyślną "2019-02-01T00:00:00Z" można zamienić na oczekiwaną wartość LastModifiedDate w strefie czasowej UTC.
Jak używać tego szablonu rozwiązania
Przejdź do galerii szablonów na karcie Tworzenie w usłudze Azure Data Factory, a następnie wybierz + przycisk Potok i na koniec Galeria szablonów.
Wyszukaj szablon Copy new files only by LastModifiedDate (Kopiuj nowe pliki tylko według wartości LastModifiedDate), wybierz go, a następnie wybierz pozycję Kontynuuj.
Utwórz nowe połączenie z magazynem docelowym. Magazyn docelowy to miejsce, do którego chcesz skopiować pliki.
Utwórz nowe połączenie ze źródłowym magazynem magazynu. Źródłowy magazyn magazynu to miejsce, z którego chcesz skopiować pliki.
Wybierz Użyj tego szablonu.
Potok jest dostępny w panelu, jak pokazano w poniższym przykładzie:
Wybierz pozycję Debuguj, zapisz wartość parametrów i wybierz pozycję Zakończ. Na poniższej ilustracji ustawimy parametry w następujący sposób.
- FolderPath_Source = folder źródłowy
- Directory_Source = podfolder
- FolderPath_Destination = folder docelowy
- Directory_Destination = podfolder
- LastModified_From = 2019-02-01T00:00:00Z
- LastModified_To = 2019-03-01T00:00:00Z
Przykład wskazuje, że pliki, które zostały ostatnio zmodyfikowane w przedziałach czasu (2019-02-01T00:00:00Z do 2019-03-01T00:00:00Z) zostaną skopiowane ze źródłowego folderu źródłowego/podfolderu ścieżki źródłowej do folderu docelowego ścieżki docelowej/podfolderu. Możesz zastąpić te czasy lub foldery własnymi parametrami.
Przejrzyj wyniki. Do magazynu docelowego są kopiowane tylko ostatnio zmodyfikowane pliki w skonfigurowanym przedmowy.
Teraz możesz dodać wyzwalacz okien stałoczasowych w celu zautomatyzowania tego potoku, aby potok zawsze mógł kopiować nowe i zmienione pliki tylko przez funkcję LastModifiedDate okresowo. Wybierz pozycję Dodaj wyzwalacz, a następnie wybierz pozycję Nowy/Edytuj.
W oknie Dodawanie wyzwalaczy wybierz pozycję + Nowy.
Wybierz pozycję Okno wirowania dla typu wyzwalacza, ustaw wartość Co 15 minut jako cykl (można zmienić na dowolny czas interwału). Wybierz pozycję Tak w polu Aktywowano, a następnie wybierz przycisk OK.
Ustaw wartość parametrów przebiegu wyzwalacza w następujący sposób, a następnie wybierz pozycję Zakończ.
- = FolderPath_Source folder źródłowy. Możesz zastąpić folder folderem w źródłowym magazynie danych.
- = Directory_Source podfolder. Możesz zastąpić element podfolderem w źródłowym magazynie danych.
- FolderPath_Destination folder docelowy = . Możesz zastąpić folder folderem w docelowym magazynie danych.
- = Directory_Destination podfolder. Możesz zastąpić element podfolderem w docelowym magazynie danych.
- = LastModified_From@trigger().outputs.windowStartTime. Jest to zmienna systemowa z wyzwalacza określająca czas ostatniego wyzwolenia potoku.
- = LastModified_To@trigger().outputs.windowEndTime. Jest to zmienna systemowa z wyzwalacza określająca czas wyzwolenia potoku tym razem.
Wybierz pozycję Opublikuj wszystkie.
Utwórz nowe pliki w folderze źródłowym magazynu źródeł danych. Teraz czekasz, aż potok zostanie wyzwolony automatycznie i tylko nowe pliki zostaną skopiowane do magazynu docelowego.
Wybierz kartę Monitor w panelu nawigacyjnym po lewej stronie i poczekaj około 15 minut, jeśli cykl wyzwalacza został ustawiony na co 15 minut.
Przejrzyj wyniki. Potok jest wyzwalany automatycznie co 15 minut, a tylko nowe lub zmienione pliki z magazynu źródłowego są kopiowane do magazynu docelowego w każdym przebiegu potoku.