Sdílet prostřednictvím


Kopírování nových a změněně souborů podle LastModifiedDate pomocí služby Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje šablonu řešení, kterou můžete použít ke kopírování nových a změněných souborů pouze nástrojem LastModifiedDate z úložiště založeného na souborech do cílového úložiště.

O této šabloně řešení

Tato šablona nejprve vybere nové a změněné soubory pouze podle jejich atributů LastModifiedDate a pak tyto vybrané soubory zkopíruje z úložiště zdroje dat do cílového úložiště dat.

Šablona obsahuje jednu aktivitu:

  • Zkopírujte nové a změněné soubory pouze pomocí Funkce LastModifiedDate z úložiště souborů do cílového úložiště.

Šablona definuje šest parametrů:

  • FolderPath_Source je cesta ke složce, kam můžete číst soubory ze zdrojového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou ke složce.
  • Directory_Source je cesta k podsložce, kam můžete číst soubory ze zdrojového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou k podsložce.
  • FolderPath_Destination je cesta ke složce, kam chcete kopírovat soubory do cílového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou ke složce.
  • Directory_Destination je cesta k podsložce, kam chcete kopírovat soubory do cílového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou k podsložce.
  • LastModified_From slouží k výběru souborů, jejichž atribut LastModifiedDate je za nebo rovno této hodnotě datetime. Pokud chcete vybrat jenom nové soubory, které nebyly naposledy zkopírovány, může být tato hodnota data a času čas, kdy byl kanál naposledy aktivován. Výchozí hodnotu 2019-02-01T00:00:00Z můžete nahradit očekávanou hodnotou LastModifiedDate v časovém pásmu UTC.
  • LastModified_To slouží k výběru souborů, jejichž atribut LastModifiedDate je před touto hodnotou datetime. Chcete-li vybrat pouze nové soubory, které nebyly zkopírovány v předchozích spuštěních, může být tato hodnota datetime aktuálním časem. Výchozí hodnotu 2019-02-01T00:00:00Z můžete nahradit očekávanou hodnotou LastModifiedDate v časovém pásmu UTC.

Jak používat tuto šablonu řešení

  1. Přejděte do galerie šablon na kartě Autor ve službě Azure Data Factory a pak zvolte + tlačítko, Kanál a nakonec Galerii šablon.

    Snímek obrazovky znázorňující, jak otevřít galerii šablon na kartě Autor v nástroji Azure Data Factory Studio

  2. Vyhledejte šablonu Kopírovat nové soubory pouze podle lastModifiedDate, vyberte ji a pak vyberte Pokračovat.

    Snímek obrazovky znázorňující, jak najít a vybrat kopírovat nové soubory pouze podle šablony LastModifiedDate

  3. Vytvořte nové připojení k cílovému úložišti. Cílové úložiště je místo, kam chcete kopírovat soubory.

    Vytvoření nového připojení ke zdroji

  4. Vytvořte nové připojení ke zdrojovému úložišti úložiště. Zdrojové úložiště je místo, odkud chcete kopírovat soubory.

    Vytvoření nového připojení k cíli

  5. Vyberte Použít tuto šablonu.

    Použít tuto šablonu

  6. Kanál dostupný na panelu uvidíte, jak je znázorněno v následujícím příkladu:

    Zobrazení kanálu

  7. Vyberte Ladit, napište hodnotu parametrů a vyberte Dokončit. Na následujícím obrázku nastavíme parametry následujícím způsobem.

    • FolderPath_Source = sourcefolder
    • Directory_Source = podsložka
    • FolderPath_Destination = destinationfolder
    • Directory_Destination = podsložka
    • LastModified_From = 2019-02-01T00:00:00Z
    • LastModified_To = 2019-03-01T00:00:00Z

    Příklad označuje, že soubory, které byly naposledy změněny v rámci časového rozsahu (2019-02-01T00:00:00Z až 2019-03-01T00:00:00Z), se zkopírují ze zdrojové cesty sourcefolder/podsložky do cílové cesty cílová cesta/podsložka. Tyto časy nebo složky můžete nahradit vlastními parametry.

    Spuštění kanálu

  8. Prohlédněte si výsledky. V rámci nakonfigurovaného časového intervalu se zkopírují jenom soubory, které byly naposledy změněny, do cílového úložiště.

    Kontrola výsledku

  9. Teď můžete přidat aktivační událost pro přeskakující okna pro automatizaci tohoto kanálu, aby kanál mohl vždy kopírovat nové a změněné soubory pouze podle lastModifiedDate pravidelně. Vyberte Přidat trigger a vyberte Nový/Upravit.

    Snímek obrazovky, který zvýrazní možnost nabídky Nový/Upravit, která se zobrazí po výběru možnosti Přidat trigger

  10. V okně Přidat triggery vyberte + Nový.

  11. Jako typ aktivační události vyberte přeskakující okno , jako opakování nastavte každých 15 minut (můžete změnit na libovolný interval). Zaškrtněte políčko Ano pro pole Aktivované a pak vyberte OK.

    Vytvoření triggeru

  12. Nastavte hodnotu parametrů spuštění triggeru následujícím postupem a vyberte Dokončit.

    • = FolderPath_Source sourcefolder. Složku můžete nahradit ve zdrojovém úložišti dat.
    • = Directory_Source podsložky. Ve zdrojovém úložišti dat můžete nahradit podsložkou.
    • = FolderPath_Destination cílovéhofolderu. Složku můžete nahradit v cílovém úložišti dat.
    • = Directory_Destination podsložky. V cílovém úložišti dat můžete nahradit podsložkou.
    • = LastModified_From@trigger().outputs.windowStartTime. Jedná se o systémovou proměnnou z triggeru určující čas, kdy byl kanál naposledy aktivován.
    • = LastModified_To@trigger().outputs.windowEndTime. Jedná se o systémovou proměnnou z triggeru určující čas, kdy se kanál tentokrát aktivuje.

    Vstupní parametry

  13. Vyberte Publikovat vše.

    Publikovat vše

  14. Ve zdrojové složce úložiště zdrojů dat vytvořte nové soubory. Teď čekáte, až se kanál aktivuje automaticky a do cílového úložiště se zkopírují jenom nové soubory.

  15. Na levém navigačním panelu vyberte kartu Monitorování a počkejte přibližně 15 minut, pokud se opakování triggeru nastavilo každých 15 minut.

  16. Prohlédněte si výsledky. Uvidíte, že se kanál aktivuje automaticky každých 15 minut a v každém spuštění kanálu se zkopírují do cílového úložiště jenom nové nebo změněné soubory ze zdrojového úložiště.

    Snímek obrazovky znázorňující výsledky, které se vrátí při aktivaci kanálu