Udostępnij za pośrednictwem


Szybka kopia w przepływach danych Gen2

W tym artykule opisano funkcję szybkiego kopiowania w usłudze Dataflows Gen2 for Data Factory w usłudze Microsoft Fabric. Przepływy danych ułatwiają pozyskiwanie i przekształcanie danych. Wraz z wprowadzeniem skalowania przepływu danych w poziomie za pomocą zasobów obliczeniowych usługi SQL DW można przekształcać dane na dużą skalę. Jednak dane muszą być pozyskiwane jako pierwsze. Dzięki wprowadzeniu szybkiej kopii można pozyskiwać terabajty danych z łatwym środowiskiem przepływów danych, ale ze skalowalnym zapleczem działania kopiowania potoku.

Po włączeniu tej możliwości przepływy danych automatycznie przełączają zaplecze, gdy rozmiar danych przekracza określony próg, bez konieczności zmiany niczego podczas tworzenia przepływów danych. Po odświeżeniu przepływu danych możesz sprawdzić historię odświeżania, aby sprawdzić, czy podczas przebiegu została użyta szybka kopia, sprawdzając typ aparatu , który się tam pojawia.

Po włączeniu opcji Wymagaj szybkiego kopiowania odświeżanie przepływu danych jest anulowane, jeśli nie jest używana szybka kopia. Pomaga to uniknąć oczekiwania na kontynuowanie limitu czasu odświeżania. To zachowanie może być również przydatne w sesji debugowania w celu przetestowania zachowania przepływu danych z danymi przy jednoczesnym skróceniu czasu oczekiwania. Korzystając ze wskaźników szybkiego kopiowania w okienku kroków zapytania, możesz łatwo sprawdzić, czy zapytanie może być uruchamiane za pomocą szybkiej kopii.

Zrzut ekranu przedstawiający miejsce wyświetlania wskaźnika szybkiego kopiowania w okienku kroków zapytania.

Wymagania wstępne

  • Wymagana jest pojemność sieci szkieletowej.
  • W przypadku danych plików pliki są w formacie .csv lub parquet co najmniej 100 MB i przechowywane w usłudze Azure Data Lake Storage (ADLS) Gen2 lub na koncie usługi Blob Storage.
  • W przypadku bazy danych, w tym usługi Azure SQL DB i PostgreSQL, 5 milionów wierszy lub więcej danych w źródle danych.

Uwaga

Próg można pominąć, aby wymusić szybkie kopiowanie, wybierając ustawienie "Wymagaj szybkiego kopiowania".

Obsługa łączników

Szybkie kopiowanie jest obecnie obsługiwane dla następujących łączników usługi Dataflow Gen2:

  • ADLS Gen2
  • Blob storage
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • Lokalny program SQL Server
  • Magazyn
  • Oracle
  • Snowflake

Działanie kopiowania obsługuje tylko kilka przekształceń podczas nawiązywania połączenia ze źródłem pliku:

  • Połącz pliki
  • Wybierz kolumny
  • Zmienianie typów danych
  • Zmienianie nazwy kolumny
  • Usuwanie kolumny

Możesz nadal stosować inne przekształcenia, dzieląc kroki pozyskiwania i przekształcania na oddzielne zapytania. Pierwsze zapytanie faktycznie pobiera dane, a drugie zapytanie odwołuje się do jego wyników, aby można było użyć obliczeń dw. W przypadku źródeł SQL obsługiwane jest każde przekształcenie będące częścią zapytania natywnego.

Jeśli zapytanie jest ładowane bezpośrednio do miejsca docelowego danych wyjściowych, obecnie obsługiwane są tylko miejsca docelowe usługi Lakehouse. Jeśli chcesz użyć innego miejsca docelowego danych wyjściowych, możesz najpierw przygotować zapytanie i odwołać się do niego później.

Jak używać szybkiego kopiowania

  1. Przejdź do odpowiedniego punktu końcowego sieci szkieletowej.

  2. Przejdź do obszaru roboczego w warstwie Premium i utwórz przepływ danych Gen2.

  3. Na karcie Narzędzia główne nowego przepływu danych wybierz pozycję Opcje:

    Zrzut ekranu przedstawiający miejsce wybierania opcji przepływów danych Gen2 na karcie Narzędzia główne.

  4. Następnie wybierz kartę Skalowanie w oknie dialogowym Opcje i zaznacz pole wyboru Zezwalaj na szybkie kopiowanie łączników , aby włączyć szybką kopię. Następnie zamknij okno dialogowe Opcje.

    Zrzut ekranu przedstawiający, gdzie włączyć szybką kopię na karcie Skalowanie okna dialogowego Opcje.

  5. Wybierz pozycję Pobierz dane , a następnie wybierz źródło usługi ADLS Gen2 i wypełnij szczegóły kontenera.

  6. Użyj funkcji Połącz plik.

    Zrzut ekranu przedstawiający okno danych folderu Podgląd z wyróżnioną opcją Połącz.

  7. Aby zapewnić szybką kopię, zastosuj tylko przekształcenia wymienione w sekcji Obsługa łącznika w tym artykule. Jeśli musisz zastosować więcej przekształceń, najpierw przygotuj dane i odwołaj się do zapytania później. Utwórz inne przekształcenia w odwołaniu do zapytania.

  8. (Opcjonalnie) Możesz ustawić opcję Wymagaj szybkiego kopiowania dla zapytania, klikając ją prawym przyciskiem myszy, aby wybrać i włączyć tę opcję.

    Zrzut ekranu przedstawiający, gdzie wybrać opcję Wymagaj szybkiego kopiowania w menu prawym przyciskiem myszy dla zapytania.

  9. (Opcjonalnie) Obecnie można skonfigurować usługę Lakehouse tylko jako miejsce docelowe danych wyjściowych. W przypadku dowolnego innego miejsca docelowego należy przygotować zapytanie i odwołać się do niego później w innym zapytaniu, w którym można uzyskać dane wyjściowe do dowolnego źródła.

  10. Sprawdź wskaźniki szybkiego kopiowania, aby sprawdzić, czy zapytanie może działać z szybkim kopiowaniem. Jeśli tak, typ aparatu ma wartość CopyActivity.

    Zrzut ekranu przedstawiający szczegóły odświeżania wskazujące, że użyto aparatu CopyActivity potoku.

  11. Opublikuj przepływ danych.

  12. Sprawdź po zakończeniu odświeżania, aby potwierdzić, że użyto szybkiej kopii.

Jak podzielić zapytanie w celu wykorzystania szybkiego kopiowania

Aby uzyskać optymalną wydajność podczas przetwarzania dużych ilości danych za pomocą usługi Dataflow Gen2, użyj funkcji Fast Copy, aby najpierw wstępnie załadować dane do stagingu, a następnie przekształcać je na dużą skalę, wykorzystując obliczenia SQL DW. Takie podejście znacznie zwiększa kompleksową wydajność.

Aby to zaimplementować, wskaźniki Fast Copy mogą pomóc w podziale zapytania na dwie części: pozyskiwanie danych do obszaru przetwarzania pośredniego i transformację na dużą skalę przy użyciu mocy obliczeniowej usługi SQL DW. Zachęcamy do delegowania jak największej części oceny zapytania do Fast Copy, który może zostać użyty do przetwarzania danych. Gdy wskaźniki szybkiej kopii informują, że nie można wykonać pozostałych kroków przez szybką kopię, możesz podzielić resztę zapytania z włączonym przemieszczaniem.

Krokowe wskaźniki diagnostyczne

Wskaźnik Ikona Opis
Ten krok zostanie oceniony przy użyciu szybkiego kopiowania Wskaźnik Szybkie kopiowanie informuje, że zapytanie do tego kroku obsługuje szybką kopię.
Ten krok nie jest obsługiwany przez Fast Copy Wskaźnik Fast Copy pokazuje, że ten krok nie obsługuje Szybkiego Kopiowania.
Co najmniej jeden krok zapytania nie jest obsługiwany przez szybkie zapytanie Wskaźnik Szybkie kopiowanie pokazuje, że niektóre kroki w tym zapytaniu obsługują szybką kopię, a inne nie. Aby zoptymalizować, podziel zapytanie: żółte kroki (potencjalnie obsługiwane przez Fast Copy) i czerwone kroki (nieobsługiwane).

Wskazówki krok po kroku

Po ukończeniu logiki przekształcania danych w Dataflow Gen2 wskaźnik Szybkie Kopiowanie ocenia każdy etap, aby określić, ile etapów może wykorzystać Szybkie Kopiowanie w celu uzyskania lepszej wydajności.

W poniższym przykładzie ostatni krok pokazuje kolor czerwony wskazujący, że krok z Grupuj według nie jest obsługiwany przez funkcję szybkiej kopiowania. Jednak wszystkie poprzednie kroki oznaczone na żółto mogą być potencjalnie obsługiwane przez Szybkie kopiowanie.

Zrzut ekranu przedstawiający pierwsze zapytanie.

W tej chwili, jeśli bezpośrednio opublikujesz i uruchomisz Dataflow Gen2, nie będzie używany silnik Szybkiej Kopii do ładowania danych, co pokazano poniżej:

Zrzut ekranu przedstawiający wynik bez włączonego szybkiego kopiowania.

Aby użyć aparatu Fast Copy i zwiększyć wydajność usługi Dataflow Gen2, możesz podzielić zapytanie na dwie części: pozyskiwanie danych do magazynu buforowego i transformację na dużą skalę przy użyciu mocy obliczeniowej SQL DW w następujący sposób:

  1. Usuń przekształcenia (z kolorem czerwonym), które nie są obsługiwane przez funkcję Szybkie kopiowanie, wraz z miejscem docelowym (jeśli jest zdefiniowana).

  2. Wskaźnik szybkiej kopii pokazuje teraz kolor zielony dla pozostałych kroków, co oznacza, że pierwsze zapytanie może wykorzystać szybkie kopiowanie w celu uzyskania lepszej wydajności.

    Wybierz opcję Akcja dla pierwszego zapytania, a następnie wybierz opcję Włącz tryb przejściowy i odniesienie.

    Zrzut ekranu przedstawiający drugie zapytanie.

  3. W nowym zapytaniu referencyjnym ponownie dodaj przekształcenie "Grupuj według" i docelowe miejsce (jeśli ma to zastosowanie).

    Zrzut ekranu przedstawiający trzecie zapytanie.

  4. Opublikuj i odśwież przepływ danych Gen2. Zobaczysz teraz dwa zapytania w usłudze Dataflow Gen2, a ogólny czas trwania jest w dużej mierze krótszy.

    • Pierwsze zapytanie wprowadza dane do obszaru tymczasowego przy użyciu Fast Copy.

    • Drugie zapytanie wykonuje przekształcenia na dużą skalę przy użyciu obliczeń usługi SQL DW.

      Zrzut ekranu przedstawiający wynik zapytania.

    Pierwsze zapytanie:

    Zrzut ekranu przedstawiający wynik przetwarzania.

    Drugie zapytanie:

    Zrzut ekranu przedstawiający wynik przekształcenia.

Znane ograniczenia

  1. Do obsługi szybkiej kopii jest wymagana lokalna brama danych w wersji 3000.214.2 lub nowszej.
  2. Brama sieci wirtualnej nie jest obsługiwana.
  3. Zapisywanie danych w istniejącej tabeli w usłudze Lakehouse nie jest obsługiwane.
  4. Stały schemat nie jest obsługiwany.