Kopírování nových a změněně souborů podle LastModifiedDate pomocí služby Azure Data Factory
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje šablonu řešení, kterou můžete použít ke kopírování nových a změněných souborů pouze nástrojem LastModifiedDate z úložiště založeného na souborech do cílového úložiště.
O této šabloně řešení
Tato šablona nejprve vybere nové a změněné soubory pouze podle jejich atributů LastModifiedDate a pak tyto vybrané soubory zkopíruje z úložiště zdroje dat do cílového úložiště dat.
Šablona obsahuje jednu aktivitu:
- Zkopírujte nové a změněné soubory pouze pomocí Funkce LastModifiedDate z úložiště souborů do cílového úložiště.
Šablona definuje šest parametrů:
- FolderPath_Source je cesta ke složce, kam můžete číst soubory ze zdrojového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou ke složce.
- Directory_Source je cesta k podsložce, kam můžete číst soubory ze zdrojového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou k podsložce.
- FolderPath_Destination je cesta ke složce, kam chcete kopírovat soubory do cílového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou ke složce.
- Directory_Destination je cesta k podsložce, kam chcete kopírovat soubory do cílového úložiště. Výchozí hodnotu musíte nahradit vlastní cestou k podsložce.
- LastModified_From slouží k výběru souborů, jejichž atribut LastModifiedDate je za nebo rovno této hodnotě datetime. Pokud chcete vybrat jenom nové soubory, které nebyly naposledy zkopírovány, může být tato hodnota data a času čas, kdy byl kanál naposledy aktivován. Výchozí hodnotu 2019-02-01T00:00:00Z můžete nahradit očekávanou hodnotou LastModifiedDate v časovém pásmu UTC.
- LastModified_To slouží k výběru souborů, jejichž atribut LastModifiedDate je před touto hodnotou datetime. Chcete-li vybrat pouze nové soubory, které nebyly zkopírovány v předchozích spuštěních, může být tato hodnota datetime aktuálním časem. Výchozí hodnotu 2019-02-01T00:00:00Z můžete nahradit očekávanou hodnotou LastModifiedDate v časovém pásmu UTC.
Jak používat tuto šablonu řešení
Přejděte do galerie šablon na kartě Autor ve službě Azure Data Factory a pak zvolte + tlačítko, Kanál a nakonec Galerii šablon.
Vyhledejte šablonu Kopírovat nové soubory pouze podle lastModifiedDate, vyberte ji a pak vyberte Pokračovat.
Vytvořte nové připojení k cílovému úložišti. Cílové úložiště je místo, kam chcete kopírovat soubory.
Vytvořte nové připojení ke zdrojovému úložišti úložiště. Zdrojové úložiště je místo, odkud chcete kopírovat soubory.
Vyberte Použít tuto šablonu.
Kanál dostupný na panelu uvidíte, jak je znázorněno v následujícím příkladu:
Vyberte Ladit, napište hodnotu parametrů a vyberte Dokončit. Na následujícím obrázku nastavíme parametry následujícím způsobem.
- FolderPath_Source = sourcefolder
- Directory_Source = podsložka
- FolderPath_Destination = destinationfolder
- Directory_Destination = podsložka
- LastModified_From = 2019-02-01T00:00:00Z
- LastModified_To = 2019-03-01T00:00:00Z
Příklad označuje, že soubory, které byly naposledy změněny v rámci časového rozsahu (2019-02-01T00:00:00Z až 2019-03-01T00:00:00Z), se zkopírují ze zdrojové cesty sourcefolder/podsložky do cílové cesty cílová cesta/podsložka. Tyto časy nebo složky můžete nahradit vlastními parametry.
Prohlédněte si výsledky. V rámci nakonfigurovaného časového intervalu se zkopírují jenom soubory, které byly naposledy změněny, do cílového úložiště.
Teď můžete přidat aktivační událost pro přeskakující okna pro automatizaci tohoto kanálu, aby kanál mohl vždy kopírovat nové a změněné soubory pouze podle lastModifiedDate pravidelně. Vyberte Přidat trigger a vyberte Nový/Upravit.
V okně Přidat triggery vyberte + Nový.
Jako typ aktivační události vyberte přeskakující okno , jako opakování nastavte každých 15 minut (můžete změnit na libovolný interval). Zaškrtněte políčko Ano pro pole Aktivované a pak vyberte OK.
Nastavte hodnotu parametrů spuštění triggeru následujícím postupem a vyberte Dokončit.
- = FolderPath_Source sourcefolder. Složku můžete nahradit ve zdrojovém úložišti dat.
- = Directory_Source podsložky. Ve zdrojovém úložišti dat můžete nahradit podsložkou.
- = FolderPath_Destination cílovéhofolderu. Složku můžete nahradit v cílovém úložišti dat.
- = Directory_Destination podsložky. V cílovém úložišti dat můžete nahradit podsložkou.
- = LastModified_From@trigger().outputs.windowStartTime. Jedná se o systémovou proměnnou z triggeru určující čas, kdy byl kanál naposledy aktivován.
- = LastModified_To@trigger().outputs.windowEndTime. Jedná se o systémovou proměnnou z triggeru určující čas, kdy se kanál tentokrát aktivuje.
Vyberte Publikovat vše.
Ve zdrojové složce úložiště zdrojů dat vytvořte nové soubory. Teď čekáte, až se kanál aktivuje automaticky a do cílového úložiště se zkopírují jenom nové soubory.
Na levém navigačním panelu vyberte kartu Monitorování a počkejte přibližně 15 minut, pokud se opakování triggeru nastavilo každých 15 minut.
Prohlédněte si výsledky. Uvidíte, že se kanál aktivuje automaticky každých 15 minut a v každém spuštění kanálu se zkopírují do cílového úložiště jenom nové nebo změněné soubory ze zdrojového úložiště.