Rejestrowanie danych z usługi Azure Data Lake Storage Gen1 w usłudze Azure Data Catalog
Z tego artykułu dowiesz się, jak zintegrować usługę Azure Data Lake Storage Gen1 z usługą Azure Data Catalog, aby dane można było odnajdywać w organizacji, integrując je z Data Catalog. Aby uzyskać więcej informacji na temat katalogowania danych, zobacz Azure Data Catalog. Aby zrozumieć scenariusze, w których można użyć Data Catalog, zobacz Azure Data Catalog typowe scenariusze.
Wymagania wstępne
Przed przystąpieniem do wykonania kroków opisanych w tym samouczku należy dysponować następującymi elementami:
Subskrypcja platformy Azure. Zobacz temat Uzyskiwanie bezpłatnej wersji próbnej platformy Azure.
Włącz subskrypcję platformy Azure dla Data Lake Storage Gen1. Zobacz instrukcje.
Konto Data Lake Storage Gen1. Postępuj zgodnie z instrukcjami w temacie Rozpoczynanie pracy z usługą Azure Data Lake Storage Gen1 przy użyciu Azure Portal. Na potrzeby tego samouczka utwórz konto Data Lake Storage Gen1 o nazwie datacatalogstore.
Po utworzeniu konta przekaż do niego przykładowe dane. Na potrzeby tego samouczka przekażmy wszystkie pliki .csv w folderze AmbulanceData w repozytorium Git usługi Azure Data Lake. Do przekazywania danych do kontenera obiektów blob można użyć różnych klientów, takich jak Eksplorator usługi Azure Storage.
Azure Data Catalog. Twoja organizacja musi mieć już utworzoną usługę Azure Data Catalog dla twojej organizacji. Dla każdej organizacji dozwolony jest tylko jeden wykaz.
Rejestrowanie Data Lake Storage Gen1 jako źródła dla Data Catalog
Przejdź do strony
https://azure.microsoft.com/services/data-catalog
, a następnie kliknij pozycję Rozpocznij.Zaloguj się do portalu usługi Azure Data Catalog, a następnie kliknij pozycję Publikuj dane.
Na następnej stronie kliknij pozycję Uruchom aplikację. Spowoduje to pobranie pliku manifestu aplikacji na komputerze. Kliknij dwukrotnie plik manifestu, aby uruchomić aplikację.
Na stronie Powitalnej kliknij pozycję Zaloguj się i wprowadź swoje poświadczenia.
Na stronie Wybieranie źródła danych wybierz pozycję Azure Data Lake Store, a następnie kliknij przycisk Dalej.
Na następnej stronie podaj nazwę konta Data Lake Storage Gen1, które chcesz zarejestrować w Data Catalog. Pozostaw inne opcje jako domyślne, a następnie kliknij przycisk Połącz.
Następną stronę można podzielić na następujące segmenty.
a. Pole Hierarchia serwera reprezentuje strukturę folderów konta Data Lake Storage Gen1. $Root reprezentuje katalog główny konta Data Lake Storage Gen1, a AmbulanceData reprezentuje folder utworzony w katalogu głównym konta Data Lake Storage Gen1.
b. Pole Dostępne obiekty zawiera listę plików i folderów w folderze AmbulanceData .
c. Pole Obiekty do zarejestrowania zawiera listę plików i folderów, które chcesz zarejestrować w usłudze Azure Data Catalog.
W tym samouczku należy zarejestrować wszystkie pliki w katalogu. W tym celu kliknij przycisk (), aby przenieść wszystkie pliki do pola Obiekty do zarejestrowania .
Ponieważ dane zostaną zarejestrowane w wykazie danych w całej organizacji, zaleca się dodanie niektórych metadanych, których później można użyć do szybkiego zlokalizowania danych. Możesz na przykład dodać adres e-mail właściciela danych (na przykład takiego, który przekazuje dane) lub dodać tag w celu zidentyfikowania danych. Poniższy zrzut ekranu przedstawia tag dodany do danych.
Kliknij pozycję Zarejestruj.
Poniższy zrzut ekranu oznacza, że dane zostały pomyślnie zarejestrowane w Data Catalog.
rejestracji
Kliknij pozycję Wyświetl portal, aby wrócić do portalu Data Catalog i sprawdzić, czy masz teraz dostęp do zarejestrowanych danych z portalu. Aby przeszukać dane, możesz użyć tagu użytego podczas rejestrowania danych.
Teraz możesz wykonywać operacje, takie jak dodawanie adnotacji i dokumentacji do danych. Aby uzyskać więcej informacji, zobacz następujące linki.