Udostępnij za pośrednictwem


Ładowanie danych do usługi Azure Data Lake Storage Gen1 przy użyciu usługi Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Azure Data Lake Storage Gen1 (wcześniej znana jako Azure Data Lake Store) to repozytorium hiperskalowe dla całego przedsiębiorstwa dla obciążeń analitycznych danych big data. Usługa Data Lake Storage Gen1 umożliwia przechwytywanie danych o dowolnym rozmiarze, typie i szybkości pozyskiwania. Dane są przechwytywane w jednym miejscu na potrzeby analizy operacyjnej i eksploracyjnej.

Azure Data Factory to w pełni zarządzana usługa integracji danych w chmurze. Za pomocą usługi można wypełnić je danymi z istniejącego systemu i zaoszczędzić czas podczas tworzenia rozwiązań analitycznych.

Usługa Azure Data Factory oferuje następujące korzyści z ładowania danych do usługi Data Lake Storage Gen1:

  • Łatwa konfiguracja: intuicyjny kreator 5-krokowy bez konieczności obsługi skryptów.
  • Obsługa rozbudowanego magazynu danych: wbudowana obsługa rozbudowanego zestawu lokalnych i opartych na chmurze magazynów danych. Aby uzyskać szczegółową listę, zobacz tabelę Obsługiwanych magazynów danych.
  • Bezpieczne i zgodne: dane są przesyłane za pośrednictwem protokołu HTTPS lub usługi ExpressRoute. Obecność usługi globalnej gwarantuje, że dane nigdy nie opuszczają granicy geograficznej.
  • Wysoka wydajność: Do 1 GB/s szybkość ładowania danych do usługi Data Lake Storage Gen1. Aby uzyskać szczegółowe informacje, zobacz działanie Kopiuj wydajność.

W tym artykule pokazano, jak załadować dane z usługi Amazon S3 do usługi Data Lake Storage Gen1 za pomocą narzędzia Data Factory Copy Data Factory. Możesz wykonać podobne kroki, aby skopiować dane z innych typów magazynów danych.

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto .
  • Konto usługi Data Lake Storage Gen1: jeśli nie masz konta usługi Data Lake Storage Gen1, zapoznaj się z instrukcjami w temacie Tworzenie konta usługi Data Lake Storage Gen1.
  • Amazon S3: W tym artykule pokazano, jak skopiować dane z usługi Amazon S3. Możesz użyć innych magazynów danych, wykonując podobne kroki.

Tworzenie fabryki danych

  1. Jeśli fabryka danych nie została jeszcze utworzona, wykonaj kroki opisane w przewodniku Szybki start: Tworzenie fabryki danych przy użyciu witryny Azure Portal i programu Azure Data Factory Studio , aby je utworzyć. Po utworzeniu przejdź do fabryki danych w witrynie Azure Portal.

    Strona główna usługi Azure Data Factory z kafelkiem Otwórz usługę Azure Data Factory Studio.

  2. Wybierz pozycję Otwórz na kafelku Otwórz usługę Azure Data Factory Studio, aby uruchomić aplikację Integracja danych na osobnej karcie.

Ładowanie danych do usługi Data Lake Storage Gen1

  1. Na stronie głównej wybierz kafelek Pozyskiwanie , aby uruchomić narzędzie do kopiowania danych:

    Zrzut ekranu przedstawiający stronę główną usługi ADF.

  2. Na stronie Właściwości określ wartość CopyFromAmazonS3ToADLS dla pola Nazwa zadania, a następnie wybierz pozycję Dalej:

    Strona właściwości

  3. Na stronie Źródłowy magazyn danych wybierz pozycję + Utwórz nowe połączenie:

    Strona Źródłowy magazyn danych

    Wybierz pozycję Amazon S3, a następnie wybierz pozycję Kontynuuj

    Strona magazynu danych źródłowych s3

  4. Na stronie Określanie połączenia Amazon S3 wykonaj następujące czynności:

    1. Określ wartość Identyfikator klucza dostępu.

    2. Określ wartość Klucza dostępu tajnego.

    3. Wybierz Zakończ.

      Zrzut ekranu przedstawia okienko Nowa połączona usługa, w którym można wprowadzić wartości.

    4. Zostanie wyświetlone nowe połączenie. Wybierz Dalej.

    Zrzut ekranu przedstawiający nowe połączenie.

  5. Na stronie Wybieranie pliku lub folderu wejściowego przejdź do folderu i pliku, z którego ma zostać przeprowadzone kopiowanie. Wybierz folder/plik, wybierz pozycję Wybierz, a następnie wybierz pozycję Dalej:

    Wybieranie pliku lub folderu wejściowego

  6. Wybierz zachowanie kopiowania, wybierając opcje Kopiuj pliki rekursywnie i Kopiowanie binarne (kopiowanie plików zgodnie z oczekiwaniami). Wybierz pozycję Dalej:

    Zrzut ekranu przedstawia pozycję Wybierz plik wejściowy lub folder, w którym można wybrać opcję Kopiuj plik rekursywnie i kopię binarną.

  7. Na stronie Docelowy magazyn danych wybierz pozycję + Utwórz nowe połączenie, a następnie wybierz pozycję Azure Data Lake Storage Gen1, a następnie wybierz pozycję Kontynuuj:

    Strona Docelowy magazyn danych

  8. Na stronie Nowa połączona usługa (Azure Data Lake Storage Gen1) wykonaj następujące czynności:

    1. Wybierz konto usługi Data Lake Storage Gen1 jako nazwę konta usługi Data Lake Store.
    2. Określ dzierżawę, a następnie wybierz pozycję Zakończ.
    3. Wybierz Dalej.

    Ważne

    W tym przewodniku użyjesz tożsamości zarządzanej dla zasobów platformy Azure do uwierzytelniania konta usługi Data Lake Storage Gen1. Upewnij się, że tożsamość usługi zarządzanej ma odpowiednie uprawnienia w usłudze Data Lake Storage Gen1, postępując zgodnie z tymi instrukcjami.

    Określanie konta usługi Data Lake Storage Gen1

  9. Na stronie Wybierz plik wyjściowy lub folder wprowadź wartość copyfroms3 jako nazwę folderu wyjściowego, a następnie wybierz pozycję Dalej:

    Zrzut ekranu przedstawia wprowadzoną ścieżkę folderu.

  10. Na stronie Ustawienia wybierz pozycję Dalej:

    Strona Ustawienia

  11. Na stronie Podsumowanie przejrzyj ustawienia i wybierz pozycję Dalej:

    Strona podsumowania

  12. Na stronie Wdrażanie wybierz pozycję Monitor, aby monitorować potok (zadanie):

    Strona Wdrażanie

  13. Zwróć uwagę, że karta Monitor po lewej stronie jest automatycznie wybrana. Kolumna Akcje zawiera linki do wyświetlania szczegółów przebiegu działania i ponownego uruchamiania potoku:

    Monitorowanie uruchomień potoku

  14. Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz link Wyświetl uruchomienia działań w kolumnie Akcje . W potoku jest tylko jedno działanie (działanie kopiowania), dlatego na liście jest wyświetlana tylko jedna pozycja. Aby wrócić do widoku przebiegów potoku, wybierz link Potoki u góry . Wybierz pozycję Odśwież, aby odświeżyć listę.

    Monitorowanie uruchomień działania

  15. Aby monitorować szczegóły wykonywania dla każdego działania kopiowania, wybierz link Szczegóły w obszarze Akcje w widoku monitorowania działań. Możesz monitorować szczegóły, takie jak ilość danych skopiowanych ze źródła do ujścia, przepływność danych, kroki wykonywania z odpowiednim czasem trwania i używane konfiguracje:

    Monitorowanie szczegółów przebiegu działania

  16. Sprawdź, czy dane są kopiowane na konto usługi Data Lake Storage Gen1:

    Weryfikowanie danych wyjściowych usługi Data Lake Storage Gen1

Przejdź do następującego artykułu, aby dowiedzieć się więcej o obsłudze usługi Data Lake Storage Gen1: