Konfigurowanie usługi Lakehouse w działaniu kopiowania
W tym artykule opisano sposób używania działania kopiowania w potoku danych do kopiowania danych z i do usługi Fabric Lakehouse. Domyślnie dane są zapisywane w tabeli Lakehouse Table w kolejności wirtualnej i można przejść do pozycji Optymalizacja tabel usługi Delta Lake i Kolejność V, aby uzyskać więcej informacji.
Obsługiwany format
Usługa Lakehouse obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.
- Format Avro
- Format binarny
- Format tekstu rozdzielanego
- Format programu Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Obsługiwana konfiguracja
W przypadku konfiguracji każdej karty w działaniu kopiowania przejdź odpowiednio do poniższych sekcji.
Ogólne
W obszarze Konfiguracja karty Ogólne przejdź do pozycji Ogólne.
Źródło
Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Źródło działania kopiowania.
Wymagane są następujące właściwości:
Połączenie: wybierz połączenie usługi Lakehouse z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Lakehouse, wybierając pozycję Więcej w dolnej części listy połączeń. Jeśli zastosujesz opcję Użyj zawartości dynamicznej, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po
/lakehouses/
w adresie URL.Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.
W przypadku wybrania pozycji Tabele:
Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako źródło. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę.
Tabela: w przypadku stosowania usługi Lakehouse ze schematami w połączeniu wybierz istniejącą tabelę ze schematem z listy tabel lub określ tabelę ze schematem jako źródłem. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę ze schematem. Jeśli nie określisz nazwy schematu, usługa użyje dbo jako schematu domyślnego.
W obszarze Zaawansowane można określić następujące pola:
- Sygnatura czasowa: określ, aby wykonać zapytanie dotyczące starszej migawki według znacznika czasu.
- Wersja: określ, aby wykonać zapytanie dotyczące starszej migawki według wersji.
- Dodatkowe kolumny: Dodaj dodatkowe kolumny danych do ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich.
Obsługiwany jest czytnik w wersji 1. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.
W przypadku wybrania pozycji Pliki:
Typ ścieżki pliku: możesz wybrać ścieżkę pliku, ścieżkę pliku z symbolem wieloznacznymi lub listę plików jako typ ścieżki pliku. Poniższa lista zawiera opis konfiguracji każdego ustawienia:
Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
Ścieżka pliku z symbolami wieloznacznymi: określ folder lub ścieżkę pliku z symbolami wieloznacznymi w danym obszarze niezarządzanych usługi Lakehouse (w obszarze Pliki), aby filtrować foldery źródłowe lub pliki. Dozwolone symbole wieloznaczne to:
*
(pasuje do zera lub większej liczby znaków) i?
(pasuje do zera lub pojedynczego znaku). Użyj^
polecenia , aby uniknąć, jeśli nazwa folderu lub pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.Ścieżka folderu z symbolami wieloznacznymi: ścieżka do folderu w ramach danego kontenera. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ te informacje w ustawieniach źródła działań.
Nazwa pliku z symbolami wieloznacznymi: nazwa pliku w obszarze niezarządzanych usług Lakehouse (w obszarze Pliki) i ścieżka folderu.
Lista plików: wskazuje, aby skopiować dany zestaw plików.
- Ścieżka folderu: wskazuje folder zawierający pliki, które chcesz skopiować.
- Ścieżka do listy plików: wskazuje plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, czyli ścieżkę względną do skonfigurowanej ścieżki pliku.
Rekursywnie: wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Jeśli to ustawienie jest włączone, wszystkie pliki w folderze wejściowym i jego podfolderach są przetwarzane rekursywnie. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
Format pliku: wybierz format pliku z listy rozwijanej. Wybierz przycisk Ustawienia, aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .
W obszarze Zaawansowane można określić następujące pola:
- Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
- Godzina rozpoczęcia: pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy skonfigurowanemu czasowi.
- Godzina zakończenia: pliki są wybierane, jeśli czas ostatniej modyfikacji jest krótszy niż skonfigurowany czas.
- Włącz odnajdywanie partycji: w przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
- Ścieżka główna partycji: po włączeniu odnajdywania partycji określ bezwzględną ścieżkę główną, aby odczytywać podzielone na partycje foldery jako kolumny danych.
- Maksymalna liczba połączeń współbieżnych: wskazuje górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
- Filtruj według ostatniej modyfikacji: pliki są filtrowane na podstawie dat ostatniej modyfikacji. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików.
Element docelowy
Następujące właściwości są obsługiwane dla usługi Lakehouse na karcie Miejsce docelowe działania kopiowania.
Wymagane są następujące właściwości:
Połączenie: wybierz połączenie usługi Lakehouse z listy połączeń. Jeśli połączenie nie istnieje, utwórz nowe połączenie usługi Lakehouse, wybierając pozycję Więcej w dolnej części listy połączeń. Jeśli zastosujesz opcję Użyj zawartości dynamicznej, aby określić usługę Lakehouse, dodaj parametr i określ identyfikator obiektu Lakehouse jako wartość parametru. Aby uzyskać identyfikator obiektu lakehouse, otwórz usługę Lakehouse w obszarze roboczym, a identyfikator znajduje się po
/lakehouses/
w adresie URL.Folder główny: wybierz pozycję Tabele lub pliki, które wskazują wirtualny widok obszaru zarządzanego lub niezarządzanego w jeziorze. Aby uzyskać więcej informacji, zapoznaj się z wprowadzeniem do usługi Lakehouse.
W przypadku wybrania pozycji Tabele:
Nazwa tabeli: wybierz istniejącą tabelę z listy tabel lub określ nazwę tabeli jako miejsce docelowe. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę.
Tabela: w przypadku stosowania usługi Lakehouse ze schematami w połączeniu wybierz istniejącą tabelę ze schematem z listy tabel lub określ tabelę ze schematem jako lokalizacją docelową. Możesz też wybrać pozycję Nowy , aby utworzyć nową tabelę ze schematem. Jeśli nie określisz nazwy schematu, usługa użyje dbo jako schematu domyślnego.
W obszarze Zaawansowane można określić następujące pola:
Akcje tabeli: określ operację dla wybranej tabeli.
Dołączanie: Dołączanie nowych wartości do istniejącej tabeli.
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
- Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów podczas dołączania danych do nowej tabeli. Po dołączeniu danych do istniejącej tabeli, która ma już partycje, kolumny partycji pochodzą z istniejącej tabeli automatycznie. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
Zastąp: zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. Jeśli ta operacja jest zaznaczona, możesz włączyć partycję w tabeli docelowej:
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
- Nazwa kolumny partycji: wybierz z kolumn docelowych w mapowaniu schematów. Obsługiwane typy danych to ciąg, liczba całkowita, wartość logiczna i data/godzina. Format uwzględnia ustawienia konwersji typów na karcie Mapowanie .
Obsługuje on podróże czasowe usługi Delta Lake. Tabela zastąpiona zawiera dzienniki różnicowe dla poprzednich wersji, do których można uzyskać dostęp w usłudze Lakehouse. Możesz również skopiować poprzednią tabelę wersji z usługi Lakehouse, określając wersję w źródle działania kopiowania.
- Włącz partycję: ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file".
Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Składnik zapisywania w wersji 2 jest obsługiwany. Odpowiednie obsługiwane funkcje usługi Delta Lake można znaleźć w tym artykule.
W przypadku wybrania pozycji Pliki:
Ścieżka pliku: wybierz pozycję Przeglądaj , aby wybrać plik, który chcesz skopiować, lub wypełnij ścieżkę ręcznie.
Format pliku: wybierz format pliku z listy rozwijanej. Wybierz pozycję Ustawienia , aby skonfigurować format pliku. Aby uzyskać szczegółowe informacje, zobacz artykuły w obsługiwanym formacie .
W obszarze Zaawansowane można określić następujące pola:
Zachowanie kopiowania: definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach. Jako zachowanie kopiowania można wybrać opcję Spłaszczanie hierarchii, Scal pliki, Zachowaj hierarchię lub Dodaj zawartość dynamiczną. Konfiguracja każdego ustawienia to:
Hierarchia spłaszczana: wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
Scal pliki: scala wszystkie pliki z folderu źródłowego do jednego pliku. Jeśli określono nazwę pliku, scalona nazwa pliku jest określoną nazwą. W przeciwnym razie jest to automatycznie wygenerowana nazwa pliku.
Zachowaj hierarchię: zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.
Dodaj zawartość dynamiczną: aby określić wyrażenie dla wartości właściwości, wybierz pozycję Dodaj zawartość dynamiczną. To pole otwiera konstruktora wyrażeń, w którym można tworzyć wyrażenia z obsługiwanych zmiennych systemowych, danych wyjściowych działań, funkcji i zmiennych lub parametrów określonych przez użytkownika. Aby uzyskać więcej informacji na temat języka wyrażeń, zobacz Wyrażenia i funkcje.
Maksymalna liczba połączeń współbieżnych: górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne.
Rozmiar bloku (MB): określ rozmiar bloku w MB podczas zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB.
Metadane: ustaw niestandardowe metadane podczas kopiowania do docelowego magazynu danych. Każdy obiekt w tablicy
metadata
reprezentuje dodatkową kolumnę. Elementname
definiuje nazwę klucza metadanych ivalue
wskazuje wartość danych tego klucza. Jeśli jest używana funkcja zachowania atrybutów, określone metadane będą union/overwrite z metadanymi pliku źródłowego. Dozwolone wartości danych to:
Mapowanie
W przypadku konfiguracji karty Mapowanie , jeśli nie zastosujesz tabeli Lakehouse jako docelowego magazynu danych, przejdź do pozycji Mapowanie.
Jeśli zastosujesz tabelę Lakehouse jako docelowy magazyn danych, z wyjątkiem konfiguracji w obszarze Mapowanie, możesz edytować typ kolumn docelowych. Po wybraniu pozycji Importuj schematy można określić typ kolumny w miejscu docelowym.
Na przykład typ kolumny PersonID w źródle jest int i można zmienić go na typ ciągu podczas mapowania na kolumnę docelową.
Uwaga
Edytowanie typu docelowego nie jest obecnie obsługiwane, gdy źródło jest typem dziesiętny.
Jeśli wybierzesz plik binarny jako format pliku, mapowanie nie jest obsługiwane.
Ustawienia
W obszarze Konfiguracja karty Ustawienia przejdź do pozycji Ustawienia.
Podsumowanie tabeli
Poniższe tabele zawierają więcej informacji na temat działania kopiowania w usłudze Lakehouse.
Informacje źródłowe
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Połączenie | Sekcja do wybrania połączenia. | < połączenie usługi Lakehouse> | Tak | workspaceId artifactId |
Folder główny | Typ folderu głównego. | • Tabele • Pliki |
Nie. | folder główny: Tabela lub pliki |
Nazwa tabeli | Nazwa tabeli, którą chcesz odczytać. | <nazwa tabeli> | Tak po wybraniu pozycji Tabele w folderze głównym | table |
Tabela | Nazwa tabeli ze schematem, który ma być odczytywany podczas stosowania usługi Lakehouse ze schematami jako połączenie. | <tabela ze schematem> | Tak po wybraniu pozycji Tabele w folderze głównym | / |
Dla tabeli | ||||
nazwa schematu | Nazwa schematu. | <nazwa schematu> (wartość domyślna to dbo) |
Nie. | (w obszarze source ->datasetSettings ->typeProperties )schema |
nazwa tabeli | Nazwa tabeli. | <nazwa tabeli> | Tak | table |
Sygnatura czasowa | Sygnatura czasowa do wykonywania zapytań względem starszej migawki. | <Sygnatury czasowej> | Nie. | timestampAsOf |
Wersja | Wersja do wykonywania zapytań względem starszej migawki. | <version> | Nie. | versionAsOf |
Dodatkowe kolumny | Dodatkowe kolumny danych do przechowywania ścieżki względnej lub wartości statycznej plików źródłowych. Wyrażenie jest obsługiwane w przypadku tych ostatnich. | • Nazwa •Wartość |
Nie. | additionalColumns: •nazwa •wartość |
Typ ścieżki pliku | Typ używanej ścieżki pliku. | • Ścieżka pliku • Ścieżka pliku z symbolami wieloznacznymi • Lista plików |
Tak po wybraniu pozycji Pliki w folderze głównym | / |
Ścieżka pliku | Skopiuj ze ścieżki do folderu/pliku w źródłowym magazynie danych. | <ścieżka pliku> | Tak podczas wybierania ścieżki pliku | • folderPath •Pod nazwą |
Ścieżki z symbolami wieloznacznymi | Ścieżka folderu z symbolami wieloznacznymi w magazynie danych źródłowych skonfigurowanym do filtrowania folderów źródłowych. | <ścieżki wieloznaczne> | Tak podczas wybierania ścieżki pliku z symbolami wieloznacznymi | • symbol wieloznacznyFolderPath • symbol wieloznacznyFileName |
Ścieżka folderu | Wskazuje folder zawierający pliki, które chcesz skopiować. | <ścieżka folderu> | Nie. | folderPath |
Ścieżka do listy plików | Wskazuje, aby skopiować dany zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować, jeden plik na wiersz, który jest ścieżką względną do skonfigurowanej ścieżki. | <ścieżka do listy plików> | Nie. | fileListPath |
Rekursywnie | Przetwarzaj wszystkie pliki w folderze wejściowym i jego podfolderach rekursywnie lub tylko te w wybranym folderze. To ustawienie jest wyłączone po wybraniu pojedynczego pliku. | zaznacz lub usuń zaznaczenie | Nie. | Cykliczne: prawda lub fałsz |
Format pliku | Format pliku dla danych źródłowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. | / | Tak po wybraniu pozycji Pliki w folderze głównym | / |
Filtruj według ostatniej modyfikacji | Pliki o ostatniej modyfikacji w zakresie [Godzina rozpoczęcia, Godzina zakończenia) będą filtrowane pod kątem dalszego przetwarzania. Czas jest stosowany do strefy czasowej UTC w formacie yyyy-mm-ddThh:mm:ss.fffZ .Tę właściwość można pominąć, co oznacza, że nie zastosowano filtru atrybutu pliku. Ta właściwość nie ma zastosowania podczas konfigurowania typu ścieżki pliku jako Listy plików. |
• Godzina rozpoczęcia • Godzina zakończenia |
Nie. | modifiedDatetimeStart modifiedDatetimeEnd |
Włączanie odnajdywania partycji | Czy przeanalizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe. | Wybrane lub niezaznaczone | Nie. | enablePartitionDiscovery: true lub false (wartość domyślna) |
Ścieżka główna partycji | Ścieżka główna partycji bezwzględnej do odczytu folderów podzielonych na partycje jako kolumny danych. | <ścieżka główna partycji> | Nie. | partitionRootPath |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Wartość jest potrzebna tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrentConnections |
Informacje o lokalizacji docelowej
Nazwa/nazwisko | Opis | Wartość | Wymagania | Właściwość skryptu JSON |
---|---|---|---|---|
Połączenie | Sekcja do wybrania połączenia. | < połączenie usługi Lakehouse> | Tak | workspaceId artifactId |
Folder główny | Typ folderu głównego. | • Tabele • Pliki |
Tak | folder główny: Tabela lub pliki |
Nazwa tabeli | Nazwa tabeli, do której chcesz zapisywać dane. | <nazwa tabeli> | Tak po wybraniu pozycji Tabele w folderze głównym | table |
Tabela | Nazwa tabeli ze schematem, do którego chcesz zapisywać dane podczas stosowania usługi Lakehouse ze schematami jako połączeniem. | <tabela ze schematem> | Tak po wybraniu pozycji Tabele w folderze głównym | / |
Dla tabeli | ||||
nazwa schematu | Nazwa schematu. | <nazwa schematu> (wartość domyślna to dbo) |
Nie. | (w obszarze sink ->datasetSettings ->typeProperties )schema |
nazwa tabeli | Nazwa tabeli. | <nazwa tabeli> | Tak | table |
Akcja tabeli | Dołącz nowe wartości do istniejącej tabeli lub zastąp istniejące dane i schemat w tabeli przy użyciu nowych wartości. | • Dołącz • Zastępowanie |
Nie. | tableActionOption: Dołączanie lub zastępowanieSchema |
Włączanie partycji | Ten wybór umożliwia tworzenie partycji w strukturze folderów na podstawie jednej lub wielu kolumn. Każda unikatowa wartość kolumny (para) to nowa partycja. Na przykład "year=2000/month=01/file". | Wybrane lub niezaznaczone | Nie. | partitionOption: PartitionByKey lub None |
Partycjonowanie kolumn | Kolumny docelowe w mapowaniu schematów. | <kolumny partycji> | Nie. | partitionNameList |
Ścieżka pliku | Zapisz dane w ścieżce do folderu/pliku w docelowym magazynie danych. | <ścieżka pliku> | Nie. | • folderPath •Pod nazwą |
Format pliku | Format pliku dla danych docelowych. Aby uzyskać informacje o różnych formatach plików, zapoznaj się z artykułami w obsługiwanym formacie , aby uzyskać szczegółowe informacje. | / | Tak po wybraniu pozycji Pliki w folderze głównym | / |
Zachowanie kopiowania | Zachowanie kopiowania zdefiniowane, gdy źródłem są pliki z magazynu danych opartego na plikach. | • Hierarchia spłaszczana • Scalanie plików • Zachowaj hierarchię • Dodawanie zawartości dynamicznej |
Nie. | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Maksymalna liczba połączeń współbieżnych | Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. | <maksymalna liczba połączeń współbieżnych> | Nie. | maxConcurrentConnections |
Rozmiar bloku (MB) | Rozmiar bloku w MB używany do zapisywania danych w usłudze Lakehouse. Dozwolona wartość wynosi od 4 MB do 100 MB. | <rozmiar bloku> | Nie. | blockSizeInMB |
Metadane | Niestandardowy zestaw metadanych podczas kopiowania do miejsca docelowego. | • $$LASTMODIFIED •Wyrażenie • Wartość statyczna |
Nie. | metadane |