Tworzenie klastrów usługi HDInsight za pomocą usługi Azure Data Lake Storage Gen1 przy użyciu witryny Azure Portal
Dowiedz się, jak za pomocą witryny Azure Portal utworzyć klaster usługi HDInsight z usługą Azure Data Lake Storage Gen1 jako magazynem domyślnym lub dodatkowym magazynem. Mimo że dodatkowy magazyn jest opcjonalny dla klastra usługi HDInsight, zaleca się przechowywanie danych biznesowych na dodatkowych kontach magazynu.
Wymagania wstępne
Przed rozpoczęciem upewnij się, że zostały spełnione następujące wymagania:
- Subskrypcja platformy Azure. Przejdź do pozycji Uzyskaj bezpłatną wersję próbną platformy Azure.
- Konto Azure Data Lake Storage Gen1. Postępuj zgodnie z instrukcjami z artykułu Rozpoczynanie pracy z usługą Azure Data Lake Storage Gen1 przy użyciu witryny Azure Portal. Musisz również utworzyć folder główny na koncie. W tym artykule jest używany folder główny o nazwie /clusters .
- jednostka usługi Entra firmy Microsoft. Ten przewodnik krok po kroku pokazuje, jak utworzyć jednostkę usługi w Microsoft Entra ID. Jednak aby utworzyć jednostkę usługi, musisz być administratorem firmy Microsoft Entra. Jeśli jesteś administratorem, możesz pominąć to wymaganie wstępne i kontynuować.
Uwaga
Jednostkę usługi można utworzyć tylko wtedy, gdy jesteś administratorem firmy Microsoft Entra. Administrator firmy Microsoft Entra musi utworzyć jednostkę usługi przed utworzeniem klastra usługi HDInsight za pomocą usługi Data Lake Storage Gen1. Ponadto jednostka usługi musi zostać utworzona przy użyciu certyfikatu zgodnie z opisem w temacie Tworzenie jednostki usługi z certyfikatem.
Tworzenie klastra HDInsight
W tej sekcji utworzysz klaster usługi HDInsight z usługą Data Lake Storage Gen1 jako domyślnym lub dodatkowym magazynem danych. Ten artykuł koncentruje się tylko na części konfigurowania usługi Data Lake Storage Gen1. Aby uzyskać ogólne informacje i procedury tworzenia klastra, zobacz Tworzenie klastrów Hadoop w usłudze HDInsight.
Tworzenie klastra z usługą Data Lake Storage Gen1 jako magazynem domyślnym
Aby utworzyć klaster usługi HDInsight z usługą Data Lake Storage Gen1 jako domyślne konto magazynowe:
Zaloguj się w witrynie Azure Portal.
Postępuj zgodnie z instrukcjami Tworzenia klastrów , aby uzyskać ogólne informacje na temat tworzenia klastrów usługi HDInsight.
Na bloku Magazyn, w sekcji Typ magazynu podstawowego, wybierz Azure Data Lake Storage Gen1, a następnie wprowadź następujące informacje:
- Wybierz konto usługi Data Lake Store: wybierz istniejące konto usługi Data Lake Storage Gen1. Wymagane jest istniejące konto usługi Data Lake Storage Gen1. Zobacz Wymagania wstępne.
- Ścieżka główna: wprowadź ścieżkę, w której mają być przechowywane pliki specyficzne dla klastra. Na zrzucie ekranu jest pokazane /clusters/myhdiadlcluster/, gdzie folder /clusters musi istnieć, a portal tworzy folder myhdicluster. myhdicluster to nazwa klastra.
- Dostęp do usługi Data Lake Store: skonfiguruj dostęp między kontem usługi Data Lake Storage Gen1 i klastrem usługi HDInsight. Aby uzyskać instrukcje, zobacz Konfigurowanie dostępu usługi Data Lake Storage Gen1.
- Dodatkowe konta magazynu: Dodaj konta Azure Storage jako dodatkowe konta magazynu dla klastra. Aby dodać dodatkowe konta usługi Data Lake Storage Gen1, należy nadać klastrowi uprawnienia do danych na większej liczbie kont usługi Data Lake Storage Gen1 podczas konfigurowania konta usługi Data Lake Storage Gen1 jako podstawowego typu magazynu. Zapoznaj się z konfigurowaniem dostępu do usługi Data Lake Storage Gen1.
W dostępie do usługi Data Lake Store kliknij pozycję Wybierz, a następnie kontynuuj tworzenie klastra zgodnie z opisem w temacie Tworzenie klastrów Hadoop w usłudze HDInsight.
Tworzenie klastra za pomocą usługi Data Lake Storage Gen1 jako dodatkowego magazynu
Poniższe instrukcje zawierają instrukcje dotyczące tworzenia klastra usługi HDInsight przy użyciu konta usługi Azure Blob Storage jako domyślnego magazynu oraz konta magazynu z usługą Data Lake Storage Gen1 jako dodatkowego magazynu.
Aby utworzyć klaster HDInsight z Data Lake Storage Gen1 jako dodatkowym kontem magazynu:
Zaloguj się w witrynie Azure Portal.
Postępuj zgodnie z instrukcjami Tworzenia klastrów , aby uzyskać ogólne informacje na temat tworzenia klastrów usługi HDInsight.
W bloku Magazyn, w obszarze Podstawowy typ magazynu wybierz Azure Storage, a następnie wprowadź następujące informacje:
Metoda wyboru — aby określić konto magazynu będące częścią subskrypcji platformy Azure, wybierz pozycję Moje subskrypcje, a następnie wybierz konto magazynu. Aby określić konto magazynu spoza subskrypcji platformy Azure, wybierz pozycję Klucz dostępu, a następnie podaj informacje dotyczące zewnętrznego konta magazynu.
Kontener domyślny — użyj wartości domyślnej lub określ własną nazwę.
Dodatkowe konta magazynu — dodaj więcej kont magazynowych jako dodatkowy magazyn w usłudze Azure Storage.
Dostęp do usługi Data Lake Store — skonfiguruj dostęp między kontem usługi Data Lake Storage Gen1 i klastrem usługi HDInsight. Aby uzyskać instrukcje, zobacz Konfigurowanie dostępu usługi Data Lake Storage Gen1.
Konfigurowanie dostępu do usługi Data Lake Storage Gen1
W tej sekcji skonfigurujesz dostęp usługi Data Lake Storage Gen1 z klastrów usługi HDInsight przy użyciu jednostki usługi Microsoft Entra.
Określanie jednostki usługi
W witrynie Azure Portal możesz użyć istniejącej jednostki usługi lub utworzyć nową.
Aby utworzyć jednostkę usługi w portalu Azure:
- Zobacz Tworzenie jednostki usługi i certyfikatów przy użyciu identyfikatora Entra firmy Microsoft.
Aby użyć istniejącej jednostki usługi w portalu Azure:
Jednostka usługi powinna mieć uprawnienia właściciela dla konta magazynu. Zobacz Konfigurowanie uprawnień dla jednostki usługi, aby być właścicielem konta magazynu.
Wybierz pozycję Dostęp do usługi Data Lake Store.
W bloku dostępu do usługi Data Lake Storage Gen1 wybierz pozycję Użyj istniejącej.
Wybierz pozycję Jednostka usługi, a następnie wybierz jednostkę usługi.
Prześlij certyfikat (plik .pfx) powiązany z wybraną główną usługą, a następnie wprowadź hasło certyfikatu.
Wybierz pozycję Dostęp , aby skonfigurować dostęp do folderu. Zobacz Konfigurowanie uprawnień do plików.
Skonfiguruj uprawnienia dla podmiotu usługi, aby był właścicielem konta magazynu
- W bloku Kontrola dostępu (IAM) konta magazynowego kliknij Dodaj przypisanie roli.
- Na panelu Dodawanie przypisania roli ustaw rolę na "właściciel", a następnie wybierz SPN i kliknij przycisk Zapisz.
Konfigurowanie uprawnień do plików
Konfiguracja różni się w zależności od tego, czy konto jest używane jako domyślna pamięć masowa, czy dodatkowe konto pamięci masowej.
Używany jako magazyn domyślny
- uprawnienia na poziomie głównym konta usługi Data Lake Storage Gen1
- uprawnienia na poziomie głównym magazynu klastra usługi HDInsight. Na przykład folder /clusters używany wcześniej w samouczku.
Użyj jako dodatkowego magazynu
- Uprawnienie w folderach, w których potrzebujesz dostępu do plików.
Aby przypisać uprawnienia na koncie magazynu przy użyciu usługi Data Lake Storage Gen1 na poziomie głównym:
Na karcie dostępu do usługi Data Lake Storage Gen1 wybierz opcję Dostęp. Zostanie otwarte okno Wybierz uprawnienia pliku. Wyświetla listę wszystkich kont przechowywania w ramach subskrypcji.
Umieść kursor (nie klikaj) myszy nad nazwą konta z usługą Data Lake Storage Gen1, aby pole wyboru było widoczne, a następnie zaznacz pole wyboru.
Domyślnie wszystkie pozycje ODCZYT, ZAPIS I WYKONYWANIE są zaznaczone.
Kliknij pozycję Wybierz w dolnej części strony.
Wybierz pozycję Uruchom , aby przypisać uprawnienie.
Wybierz pozycję Gotowe.
Aby przypisać uprawnienia na poziomie głównym klastra usługi HDInsight:
- W panelu dostępu do usługi Data Lake Storage Gen1 wybierz pozycję Dostęp. Otwiera się panel Wybierz uprawnienia do pliku. Wyświetla listę wszystkich kont magazynu z usługą Data Lake Storage Gen1 w ramach subskrypcji.
- Na panelu Wybierz uprawnienia pliku wybierz konto magazynu o nazwie Data Lake Storage Gen1 w celu wyświetlenia jego zawartości.
- Wybierz główny katalog magazynu klastra HDInsight, zaznaczając pole wyboru z lewej strony folderu. Zgodnie z wcześniejszym zrzutem ekranu, katalog główny pamięci klastra to folder /clusters, który określiłeś podczas wybierania Data Lake Storage Gen1 jako magazynu domyślnego.
- Ustaw uprawnienia w folderze. Domyślnie wszystkie operacje odczytu, zapisu i wykonywania są zaznaczone.
- Kliknij pozycję Wybierz w dolnej części strony.
- Wybierz Uruchom.
- Wybierz pozycję Gotowe.
Jeśli używasz usługi Data Lake Storage Gen1 jako dodatkowego magazynu, musisz przypisać uprawnienia tylko dla folderów, do których chcesz uzyskać dostęp z klastra usługi HDInsight. Na przykład na poniższym zrzucie ekranu zapewniasz dostęp tylko do folderu mynewfolder na koncie magazynu z usługą Data Lake Storage Gen1.
Weryfikowanie konfiguracji klastra
Po zakończeniu konfiguracji klastra, na panelu klastra sprawdź wyniki, wykonując jedną lub obie z poniższych czynności:
Aby sprawdzić, czy skojarzone konto magazynujące dla klastra to konto z usługą Data Lake Storage Gen1, które wskazałeś, wybierz pozycję Konta magazynujące w lewym panelu.
Aby sprawdzić, czy zasada usługi jest poprawnie skojarzona z klastrem HDInsight, wybierz opcję Dostęp do usługi Data Lake Storage Gen1 w lewym panelu.
Przykłady
Po skonfigurowaniu klastra za pomocą usługi Data Lake Storage Gen1 jako magazynu zapoznaj się z tymi przykładami użycia klastra usługi HDInsight do analizowania danych przechowywanych w usłudze Data Lake Storage Gen1.
Uruchom zapytanie Hive względem danych w usłudze Data Lake Storage Gen1 (jako magazyn podstawowy)
Aby uruchomić zapytanie hive, użyj interfejsu widoków Hive w portalu Ambari. Aby uzyskać instrukcje dotyczące korzystania z widoków Programu Hive systemu Ambari, zobacz Używanie widoku Hive z usługą Hadoop w usłudze HDInsight.
Podczas pracy z danymi w usłudze Data Lake Storage Gen1 należy zmienić kilka ciągów.
Jeśli na przykład używasz klastra utworzonego za pomocą usługi Data Lake Storage Gen1 jako magazynu podstawowego, ścieżka do danych to: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Zapytanie hive do utworzenia tabeli na podstawie przykładowych danych przechowywanych w usłudze Data Lake Storage Gen1 wygląda następująco:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Opisy:
-
adl://hdiadlsg1storage.azuredatalakestore.net/
jest korzeniem konta z usługą Data Lake Storage Gen1. -
/clusters/myhdiadlcluster
jest katalogem głównym danych klastra określonych podczas tworzenia klastra. -
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
to lokalizacja przykładowego pliku użytego w zapytaniu.
Uruchom zapytanie Hive dla danych w usłudze Data Lake Storage Gen1 (jako dodatkowa przestrzeń)
Jeśli utworzony klaster używa magazynu obiektów blob jako magazynu domyślnego, przykładowe dane nie znajdują się na koncie magazynu z usługą Data Lake Storage Gen1, która jest używana jako dodatkowy magazyn. W takim przypadku najpierw przetransferuj dane z usługi Blob Storage na konto magazynu za pomocą usługi Data Lake Storage Gen1, a następnie uruchom zapytania, jak pokazano w poprzednim przykładzie.
Aby uzyskać informacje na temat kopiowania danych z usługi Blob Storage na konto magazynu przy użyciu usługi Data Lake Storage Gen1, zobacz następujące artykuły:
- Kopiowanie danych między usługą Azure Blob Storage a usługą Data Lake Storage Gen1 przy użyciu narzędzia Distcp
- Kopiowanie danych z usługi Azure Blob Storage do usługi Data Lake Storage Gen1 przy użyciu narzędzia AdlCopy
Używanie usługi Data Lake Storage Gen1 z klastrem Spark
Za pomocą klastra Spark można uruchamiać zadania platformy Spark na danych przechowywanych w usłudze Data Lake Storage Gen1. Aby uzyskać więcej informacji, zobacz Używanie klastra Spark usługi HDInsight do analizowania danych w usłudze Data Lake Storage Gen1.