Szybka kopia w przepływach danych Gen2
W tym artykule opisano funkcję szybkiego kopiowania w usłudze Dataflows Gen2 for Data Factory w usłudze Microsoft Fabric. Przepływy danych ułatwiają pozyskiwanie i przekształcanie danych. Wraz z wprowadzeniem skalowania przepływu danych w poziomie za pomocą zasobów obliczeniowych usługi SQL DW można przekształcać dane na dużą skalę. Jednak dane muszą być pozyskiwane jako pierwsze. Dzięki wprowadzeniu szybkiej kopii można pozyskiwać terabajty danych z łatwym środowiskiem przepływów danych, ale ze skalowalnym zapleczem działania kopiowania potoku.
Po włączeniu tej możliwości przepływy danych automatycznie przełączają zaplecze, gdy rozmiar danych przekracza określony próg, bez konieczności zmiany niczego podczas tworzenia przepływów danych. Po odświeżeniu przepływu danych możesz sprawdzić historię odświeżania, aby sprawdzić, czy podczas przebiegu została użyta szybka kopia, sprawdzając typ aparatu , który się tam pojawia.
Po włączeniu opcji Wymagaj szybkiego kopiowania odświeżanie przepływu danych jest anulowane, jeśli szybka kopia nie jest używana. Pomaga to uniknąć oczekiwania na kontynuowanie limitu czasu odświeżania. To zachowanie może być również przydatne w sesji debugowania w celu przetestowania zachowania przepływu danych z danymi przy jednoczesnym skróceniu czasu oczekiwania. Korzystając ze wskaźników szybkiego kopiowania w okienku kroków zapytania, możesz łatwo sprawdzić, czy zapytanie może być uruchamiane za pomocą szybkiej kopii.
Wymagania wstępne
- Wymagana jest pojemność sieci szkieletowej.
- W przypadku danych plików pliki są w formacie .csv lub parquet co najmniej 100 MB i przechowywane w usłudze Azure Data Lake Storage (ADLS) Gen2 lub na koncie usługi Blob Storage.
- W przypadku bazy danych, w tym usługi Azure SQL DB i PostgreSQL, 5 milionów wierszy lub więcej danych w źródle danych.
Uwaga
Próg można pominąć, aby wymusić szybkie kopiowanie, wybierając ustawienie "Wymagaj szybkiego kopiowania".
Obsługa łączników
Szybkie kopiowanie jest obecnie obsługiwane dla następujących łączników usługi Dataflow Gen2:
- ADLS Gen2
- Blob storage
- Azure SQL DB
- Lakehouse
- PostgreSQL
- Lokalny program SQL Server
- Magazyn
- Oracle
- Snowflake
Działanie kopiowania obsługuje tylko kilka przekształceń podczas nawiązywania połączenia ze źródłem pliku:
- Połącz pliki
- Wybierz kolumny
- Zmienianie typów danych
- Zmienianie nazwy kolumny
- Usuwanie kolumny
Możesz nadal stosować inne przekształcenia, dzieląc kroki pozyskiwania i przekształcania na oddzielne zapytania. Pierwsze zapytanie faktycznie pobiera dane, a drugie zapytanie odwołuje się do jego wyników, aby można było użyć obliczeń dw. W przypadku źródeł SQL obsługiwane jest każde przekształcenie będące częścią zapytania natywnego.
Jeśli zapytanie jest ładowane bezpośrednio do miejsca docelowego danych wyjściowych, obecnie obsługiwane są tylko miejsca docelowe usługi Lakehouse. Jeśli chcesz użyć innego miejsca docelowego danych wyjściowych, możesz najpierw przygotować zapytanie i odwołać się do niego później.
Jak używać szybkiego kopiowania
Przejdź do odpowiedniego punktu końcowego sieci szkieletowej.
Przejdź do obszaru roboczego w warstwie Premium i utwórz przepływ danych Gen2.
Na karcie Narzędzia główne nowego przepływu danych wybierz pozycję Opcje:
Następnie wybierz kartę Skalowanie w oknie dialogowym Opcje i zaznacz pole wyboru Zezwalaj na szybkie kopiowanie łączników , aby włączyć szybką kopię. Następnie zamknij okno dialogowe Opcje.
Wybierz pozycję Pobierz dane , a następnie wybierz źródło usługi ADLS Gen2 i wypełnij szczegóły kontenera.
Użyj funkcji Połącz plik.
Aby zapewnić szybką kopię, zastosuj tylko przekształcenia wymienione w sekcji Obsługa łącznika w tym artykule. Jeśli musisz zastosować więcej przekształceń, najpierw przygotuj dane i odwołaj się do zapytania później. Utwórz inne przekształcenia w odwołaniu do zapytania.
(Opcjonalnie) Możesz ustawić opcję Wymagaj szybkiego kopiowania dla zapytania, klikając ją prawym przyciskiem myszy, aby wybrać i włączyć tę opcję.
(Opcjonalnie) Obecnie można skonfigurować usługę Lakehouse tylko jako miejsce docelowe danych wyjściowych. W przypadku dowolnego innego miejsca docelowego należy przygotować zapytanie i odwołać się do niego później w innym zapytaniu, w którym można uzyskać dane wyjściowe do dowolnego źródła.
Sprawdź wskaźniki szybkiego kopiowania, aby sprawdzić, czy zapytanie może działać z szybkim kopiowaniem. Jeśli tak, typ aparatu ma wartość CopyActivity.
Opublikuj przepływ danych.
Sprawdź po zakończeniu odświeżania, aby potwierdzić, że użyto szybkiej kopii.
Znane ograniczenia
- Do obsługi szybkiej kopii jest wymagana lokalna brama danych w wersji 3000.214.2 lub nowszej.
- Brama sieci wirtualnej nie jest obsługiwana.
- Zapisywanie danych w istniejącej tabeli w usłudze Lakehouse nie jest obsługiwane.
- Stały schemat nie jest obsługiwany.