Tworzenie klastrów usługi HDInsight przy użyciu usługi Azure Data Lake Storage Gen1 przy użyciu Azure Portal
Dowiedz się, jak za pomocą Azure Portal utworzyć klaster usługi HDInsight z usługą Azure Data Lake Storage Gen1 jako magazyn domyślny lub dodatkowy magazyn. Mimo że dodatkowy magazyn jest opcjonalny dla klastra usługi HDInsight, zaleca się przechowywanie danych biznesowych na dodatkowych kontach magazynu.
Wymagania wstępne
Przed rozpoczęciem upewnij się, że zostały spełnione następujące wymagania:
- Subskrypcja platformy Azure. Przejdź do sekcji Pobierz bezpłatną wersję próbną platformy Azure.
- Konto Azure Data Lake Storage Gen1. Postępuj zgodnie z instrukcjami z Azure Data Lake Storage Gen1, korzystając z Azure Portal. Musisz również utworzyć folder główny na koncie. W tym artykule jest używany folder główny o nazwie /clusters .
- jednostka usługi Microsoft Entra. Ten przewodnik z instrukcjami zawiera instrukcje dotyczące tworzenia jednostki usługi w Tożsamość Microsoft Entra. Jednak aby utworzyć jednostkę usługi, musisz być administratorem Microsoft Entra. Jeśli jesteś administratorem, możesz pominąć to wymaganie wstępne i kontynuować.
Uwaga
Jednostkę usługi można utworzyć tylko wtedy, gdy jesteś administratorem Microsoft Entra. Administrator Microsoft Entra musi utworzyć jednostkę usługi, zanim będzie można utworzyć klaster usługi HDInsight z Data Lake Storage Gen1. Ponadto jednostka usługi musi zostać utworzona przy użyciu certyfikatu, zgodnie z opisem w temacie Tworzenie jednostki usługi z certyfikatem.
Tworzenie klastra HDInsight
W tej sekcji utworzysz klaster usługi HDInsight z Data Lake Storage Gen1 jako domyślny lub dodatkowy magazyn. Ten artykuł koncentruje się tylko na części konfigurowania Data Lake Storage Gen1. Ogólne informacje i procedury tworzenia klastra można znaleźć w temacie Create Hadoop clusters in HDInsight (Tworzenie klastrów Hadoop w usłudze HDInsight).
Tworzenie klastra z Data Lake Storage Gen1 jako magazynem domyślnym
Aby utworzyć klaster usługi HDInsight z Data Lake Storage Gen1 jako domyślne konto magazynu:
Zaloguj się w witrynie Azure Portal.
Postępuj zgodnie z instrukcjami Tworzenie klastrów , aby uzyskać ogólne informacje na temat tworzenia klastrów usługi HDInsight.
W bloku Magazyn w obszarze Typ magazynu podstawowego wybierz pozycję Azure Data Lake Storage Gen1, a następnie wprowadź następujące informacje:
- Wybierz pozycję Konto usługi Data Lake Store: wybierz istniejące konto Data Lake Storage Gen1. Wymagane jest istniejące konto Data Lake Storage Gen1. Zobacz Wymagania wstępne.
- Ścieżka główna: wprowadź ścieżkę, w której mają być przechowywane pliki specyficzne dla klastra. Na zrzucie ekranu jest to /clusters/myhdiadlcluster/, w którym musi istnieć folder /clusters , a portal tworzy folder myhdicluster . Myhdicluster jest nazwą klastra.
- Dostęp do usługi Data Lake Store: skonfiguruj dostęp między kontem Data Lake Storage Gen1 a klastrem usługi HDInsight. Aby uzyskać instrukcje, zobacz Konfigurowanie dostępu Data Lake Storage Gen1.
- Dodatkowe konta magazynu: dodaj konta magazynu platformy Azure jako dodatkowe konta magazynu dla klastra. Aby dodać dodatkowe konta Data Lake Storage Gen1, należy nadać klastrowi uprawnienia do danych na większej liczbie kont Data Lake Storage Gen1 podczas konfigurowania konta Data Lake Storage Gen1 jako podstawowego typu magazynu. Zobacz Konfigurowanie dostępu Data Lake Storage Gen1.
W dostępie do usługi Data Lake Store kliknij pozycję Wybierz, a następnie kontynuuj tworzenie klastra zgodnie z opisem w temacie Tworzenie klastrów Hadoop w usłudze HDInsight.
Tworzenie klastra z Data Lake Storage Gen1 jako dodatkowego magazynu
Poniższe instrukcje zawierają instrukcje tworzenia klastra usługi HDInsight z kontem usługi Azure Blob Storage jako domyślnym magazynem oraz kontem magazynu z Data Lake Storage Gen1 jako dodatkowy magazyn.
Aby utworzyć klaster usługi HDInsight z Data Lake Storage Gen1 jako dodatkowe konto magazynu:
Zaloguj się w witrynie Azure Portal.
Postępuj zgodnie z instrukcjami Tworzenie klastrów , aby uzyskać ogólne informacje na temat tworzenia klastrów usługi HDInsight.
W bloku Magazyn w obszarze Typ magazynu podstawowego wybierz pozycję Azure Storage, a następnie wprowadź następujące informacje:
Metoda wyboru — aby określić konto magazynu będące częścią subskrypcji platformy Azure, wybierz pozycję Moje subskrypcje, a następnie wybierz konto magazynu. Aby określić konto magazynu spoza subskrypcji platformy Azure, wybierz pozycję Klucz dostępu, a następnie podaj informacje dotyczące zewnętrznego konta magazynu.
Domyślny kontener — użyj wartości domyślnej lub określ własną nazwę.
Dodatkowe konta magazynu — dodaj więcej kont magazynu platformy Azure jako dodatkowego magazynu.
Dostęp do usługi Data Lake Store — skonfiguruj dostęp między kontem Data Lake Storage Gen1 a klastrem usługi HDInsight. Aby uzyskać instrukcje, zobacz Konfigurowanie dostępu Data Lake Storage Gen1.
Konfigurowanie dostępu Data Lake Storage Gen1
W tej sekcji skonfigurujesz Data Lake Storage Gen1 dostęp z klastrów usługi HDInsight przy użyciu jednostki usługi Microsoft Entra.
Określanie jednostki usługi
W Azure Portal możesz użyć istniejącej jednostki usługi lub utworzyć nową.
Aby utworzyć jednostkę usługi na podstawie Azure Portal:
- Zobacz Tworzenie jednostki usługi i certyfikatów przy użyciu Tożsamość Microsoft Entra.
Aby użyć istniejącej jednostki usługi z Azure Portal:
Jednostka usługi powinna mieć uprawnienia właściciela na koncie magazynu. Zobacz Konfigurowanie uprawnień dla jednostki usługi, aby być właścicielem konta magazynu.
Wybierz pozycję Dostęp do usługi Data Lake Store.
W bloku Data Lake Storage Gen1 dostępu wybierz pozycję Użyj istniejącej.
Wybierz pozycję Jednostka usługi, a następnie wybierz jednostkę usługi.
Przekaż certyfikat (plik pfx) skojarzony z wybraną jednostką usługi, a następnie wprowadź hasło certyfikatu.
Wybierz pozycję Dostęp , aby skonfigurować dostęp do folderu. Zobacz Konfigurowanie uprawnień do plików.
Konfigurowanie uprawnień dla jednostki usługi jako właściciela na koncie magazynu
- W bloku Access Control (IAM) konta magazynu kliknij pozycję Dodaj przypisanie roli.
- W bloku Dodawanie przypisania roli wybierz pozycję Rola jako "właściciel", a następnie wybierz nazwę SPN i kliknij przycisk Zapisz.
Konfigurowanie uprawnień do plików
Konfiguracja różni się w zależności od tego, czy konto jest używane jako magazyn domyślny, czy dodatkowe konto magazynu:
Używany jako magazyn domyślny
- uprawnienia na poziomie głównym konta Data Lake Storage Gen1
- uprawnienia na poziomie głównym magazynu klastra usługi HDInsight. Na przykład folder /clusters używany wcześniej w samouczku.
Użyj jako dodatkowego magazynu
- Uprawnienie w folderach, w których potrzebujesz dostępu do plików.
Aby przypisać uprawnienie na koncie magazynu z Data Lake Storage Gen1 na poziomie głównym:
W bloku Data Lake Storage Gen1 dostępu wybierz pozycję Dostęp. Zostanie otwarty blok Wybierz uprawnienia do pliku . Wyświetla listę wszystkich kont magazynu w ramach subskrypcji.
Umieść kursor (nie klikaj) myszy nad nazwą konta z Data Lake Storage Gen1, aby pole wyboru było widoczne, a następnie zaznacz pole wyboru.
Domyślnie zaznaczono opcję ODCZYT, ZAPIS I WYKONYWANIE .
Kliknij pozycję Wybierz w dolnej części strony.
Wybierz pozycję Uruchom , aby przypisać uprawnienie.
Kliknij Gotowe.
Aby przypisać uprawnienie na poziomie głównym klastra usługi HDInsight:
- W bloku Data Lake Storage Gen1 dostępu wybierz pozycję Dostęp. Zostanie otwarty blok Wybierz uprawnienia do pliku . Wyświetla listę wszystkich kont magazynu z Data Lake Storage Gen1 w ramach subskrypcji.
- W bloku Wybierz uprawnienia do pliku wybierz konto magazynu z nazwą Data Lake Storage Gen1, aby wyświetlić jego zawartość.
- Wybierz katalog główny magazynu klastra usługi HDInsight, zaznaczając pole wyboru po lewej stronie folderu. Zgodnie z zrzutem ekranu wcześniej katalog główny magazynu klastra to /clusters folder określony podczas wybierania Data Lake Storage Gen1 jako magazynu domyślnego.
- Ustaw uprawnienia w folderze. Domyślnie zaznaczone są wszystkie operacje odczytu, zapisu i wykonywania.
- Kliknij pozycję Wybierz w dolnej części strony.
- Wybierz pozycję Uruchom.
- Kliknij Gotowe.
Jeśli używasz Data Lake Storage Gen1 jako dodatkowego magazynu, musisz przypisać uprawnienie tylko dla folderów, do których chcesz uzyskać dostęp z klastra usługi HDInsight. Na przykład na poniższym zrzucie ekranu zapewniasz dostęp tylko do folderu mynewfolder na koncie magazynu z Data Lake Storage Gen1.
Weryfikowanie konfiguracji klastra
Po zakończeniu konfiguracji klastra w bloku klastra zweryfikuj wyniki, wykonując jedną lub obie z następujących czynności:
Aby sprawdzić, czy skojarzony magazyn klastra jest kontem z określonym Data Lake Storage Gen1, wybierz pozycję Konta magazynu w okienku po lewej stronie.
Aby sprawdzić, czy jednostka usługi jest poprawnie skojarzona z klastrem usługi HDInsight, wybierz pozycję Data Lake Storage Gen1 dostęp w okienku po lewej stronie.
Przykłady
Po skonfigurowaniu klastra za pomocą Data Lake Storage Gen1 jako magazynu zapoznaj się z tymi przykładami używania klastra usługi HDInsight do analizowania danych przechowywanych w Data Lake Storage Gen1.
Uruchamianie zapytania hive względem danych w Data Lake Storage Gen1 (jako magazyn podstawowy)
Aby uruchomić zapytanie hive, użyj interfejsu widoków Hive w portalu Ambari. Aby uzyskać instrukcje dotyczące korzystania z widoków Programu Hive systemu Ambari, zobacz Używanie widoku Hive z usługą Hadoop w usłudze HDInsight.
Podczas pracy z danymi w Data Lake Storage Gen1 istnieje kilka ciągów do zmiany.
Jeśli na przykład używasz klastra utworzonego za pomocą Data Lake Storage Gen1 jako magazynu podstawowego, ścieżka do danych to: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Zapytanie hive do utworzenia tabeli na podstawie przykładowych danych przechowywanych w Data Lake Storage Gen1 wygląda jak następująca instrukcja:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Opisy:
-
adl://hdiadlsg1storage.azuredatalakestore.net/
jest katalogiem głównym konta z Data Lake Storage Gen1. -
/clusters/myhdiadlcluster
jest głównym elementem głównym danych klastra określonych podczas tworzenia klastra. -
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
to lokalizacja przykładowego pliku użytego w zapytaniu.
Uruchamianie zapytania hive względem danych w Data Lake Storage Gen1 (jako dodatkowego magazynu)
Jeśli utworzony klaster używa magazynu obiektów blob jako magazynu domyślnego, przykładowe dane nie znajdują się na koncie magazynu z Data Lake Storage Gen1 używanymi jako dodatkowy magazyn. W takim przypadku najpierw przetransferuj dane z usługi Blob Storage na konto magazynu przy użyciu Data Lake Storage Gen1, a następnie uruchom zapytania, jak pokazano w poprzednim przykładzie.
Aby uzyskać informacje na temat kopiowania danych z usługi Blob Storage do konta magazynu za pomocą Data Lake Storage Gen1, zobacz następujące artykuły:
- Używanie narzędzia Distcp do kopiowania danych między usługą Azure Blob Storage i Data Lake Storage Gen1
- Kopiowanie danych z usługi Azure Blob Storage do Data Lake Storage Gen1 za pomocą narzędzia AdlCopy
Używanie Data Lake Storage Gen1 z klastrem Spark
Możesz użyć klastra Spark do uruchamiania zadań platformy Spark na danych przechowywanych w Data Lake Storage Gen1. Aby uzyskać więcej informacji, zobacz Use HDInsight Spark cluster to analyze data in Data Lake Storage Gen1 (Używanie klastra Spark usługi HDInsight do analizowania danych w Data Lake Storage Gen1).