Udostępnij za pośrednictwem


Pobieranie danych z usługi OneLake

Z tego artykułu dowiesz się, jak pobrać dane z usługi OneLake do nowej lub istniejącej tabeli.

Wymagania wstępne

Kopiowanie ścieżki pliku z usługi Lakehouse

  1. W przełączniku środowiska wybierz pozycję inżynierowie danych.

  2. Wybierz środowisko lakehouse zawierające źródło danych, którego chcesz użyć.

  3. Umieść kursor nad żądanym plikiem i wybierz menu Więcej , a następnie wybierz pozycję Właściwości.

    Ważne

    • Ścieżki folderów nie są obsługiwane.
    • Symbole wieloznaczne (*) nie są obsługiwane.

    Zrzut ekranu przedstawiający menu rozwijane pliku Lakehouse. Opcja o nazwie Właściwości jest wyróżniona.

  4. W obszarze Adres URL wybierz ikonę Kopiuj do schowka i zapisz ją gdzieś, aby pobrać ją w późniejszym kroku.

    Zrzut ekranu przedstawiający okienko Właściwości pliku Lakehouse. Ikona kopiowania po prawej stronie adresu URL pliku jest wyróżniona.

  5. Wróć do obszaru roboczego i wybierz bazę danych KQL.

Źródło

  1. Na dolnej wstążce bazy danych KQL wybierz pozycję Pobierz dane.

    W oknie Pobieranie danych zostanie wybrana karta Źródło.

  2. Wybierz źródło danych z listy dostępnych. W tym przykładzie pozyskiwane są dane z usługi OneLake.

    Zrzut ekranu przedstawiający okno pobierania danych z wybraną kartą źródłową.

Konfiguruj

  1. Wybierz tabelę docelową. Jeśli chcesz pozyskać dane do nowej tabeli, wybierz pozycję +Nowa tabela i wprowadź nazwę tabeli.

    Uwaga

    Nazwy tabel mogą zawierać maksymalnie 1024 znaki, w tym spacje, alfanumeryczne, łączniki i podkreślenia. Znaki specjalne nie są obsługiwane.

  2. W pliku OneLake wklej ścieżkę pliku usługi Lakehouse skopiowaną w polu Kopiuj ścieżkę pliku z usługi Lakehouse.

    Uwaga

    Można dodać maksymalnie 10 elementów o rozmiarze nieskompresowanym o rozmiarze do 1 GB.

    Zrzut ekranu przedstawiający kartę konfigurowania z wprowadzoną nową tabelą i dodaną ścieżką pliku OneLake.

  3. Wybierz Dalej.

Kontrola

Karta Inspekcja zostanie otwarta z podglądem danych.

Aby ukończyć proces pozyskiwania, wybierz pozycję Zakończ.

Zrzut ekranu przedstawiający kartę inspekcji.

Opcjonalnie:

  • Wybierz pozycję Przeglądarka poleceń, aby wyświetlić i skopiować polecenia automatyczne wygenerowane na podstawie danych wejściowych.
  • Użyj listy rozwijanej Plik definicji schematu, aby zmienić plik, z którego jest wywnioskowany schemat.
  • Zmień automatycznie wnioskowany format danych, wybierając żądany format z listy rozwijanej. Aby uzyskać więcej informacji, zobacz Formaty danych obsługiwane przez analizę w czasie rzeczywistym.
  • Edytuj kolumny.
  • Zapoznaj się z opcjami zaawansowanymi na podstawie typu danych.

Edytuj kolumny

Uwaga

  • W przypadku formatów tabelarycznych (CSV, TSV, PSV) nie można dwukrotnie mapować kolumny. Aby zamapować na istniejącą kolumnę, najpierw usuń nową kolumnę.
  • Nie można zmienić istniejącego typu kolumny. Jeśli spróbujesz mapować kolumnę na inny format, może się okazać, że kolumny będą puste.

Zmiany, które można wprowadzić w tabeli, zależą od następujących parametrów:

  • Typ tabeli jest nowy lub istniejący
  • Typ mapowania to nowy lub istniejący
Typ tabeli Typ mapowania Dostępne korekty
Nowa tabela Nowe mapowanie Zmienianie nazwy kolumny, zmienianie typu danych, zmienianie źródła danych, przekształcanie mapowania, dodawanie kolumny, usuwanie kolumny
Istniejąca tabela Nowe mapowanie Dodaj kolumnę (na której można następnie zmienić typ danych, zmienić nazwę i zaktualizować)
Istniejąca tabela Istniejące mapowanie Brak

Zrzut ekranu przedstawiający otwarte kolumny do edycji.

Przekształcenia mapowania

Niektóre mapowania formatów danych (Parquet, JSON i Avro) obsługują proste przekształcenia czasu pozyskiwania. Aby zastosować przekształcenia mapowania, utwórz lub zaktualizuj kolumnę w oknie Edytowanie kolumn .

Przekształcenia mapowania można wykonać na kolumnie typu ciąg lub data/godzina, a źródło ma typ danych int lub long. Obsługiwane przekształcenia mapowania to:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

Opcje zaawansowane oparte na typie danych

Tabelaryczny (CSV, TSV, PSV):

  • Jeśli pozyskujesz formaty tabelaryczne w istniejącej tabeli, możesz wybrać pozycję Zaawansowane>zachowaj schemat tabeli. Dane tabelaryczne nie muszą zawierać nazw kolumn używanych do mapowania danych źródłowych na istniejące kolumny. Po zaznaczeniu tej opcji mapowanie odbywa się według kolejności, a schemat tabeli pozostaje taki sam. Jeśli ta opcja nie jest zaznaczona, nowe kolumny są tworzone dla danych przychodzących, niezależnie od struktury danych.

  • Aby użyć pierwszego wiersza jako nazw kolumn, wybierz pozycję Zaawansowane>pierwszy wiersz to nagłówek kolumny.

    Zrzut ekranu przedstawiający zaawansowane opcje csv.

JSON:

  • Aby określić podział kolumn danych JSON, wybierz pozycję Zaawansowane>poziomy zagnieżdżone z zakresu od 1 do 100.

  • W przypadku wybrania opcji Zaawansowane>pomiń wiersze JSON z błędami dane są pozyskiwane w formacie JSON. Jeśli to pole wyboru nie zostanie zaznaczone, dane są pozyskiwane w formacie wielossonowym.

    Zrzut ekranu przedstawiający zaawansowane opcje JSON.

Podsumowanie

W oknie Przygotowywanie danych wszystkie trzy kroki są oznaczone zielonymi znacznikami wyboru po pomyślnym zakończeniu pozyskiwania danych. Możesz wybrać kartę, aby wykonać zapytanie, usunąć pozyskane dane lub wyświetlić pulpit nawigacyjny podsumowania pozyskiwania.

Zrzut ekranu przedstawiający stronę podsumowania z pomyślnym zakończeniem pozyskiwania.