Migrowanie lokalnych klastrów Apache Hadoop do usługi Azure HDInsight — najlepsze rozwiązania dotyczące zabezpieczeń i metodyki DevOps
Ten artykuł zawiera zalecenia dotyczące zabezpieczeń i metodyki DevOps w systemach usługi Azure HDInsight. Jest to część serii, która zawiera najlepsze rozwiązania ułatwiające migrowanie lokalnych systemów Apache Hadoop do usługi Azure HDInsight.
Zabezpieczanie klastra i zarządzanie nim za pomocą pakietu Enterprise Security
Pakiet Enterprise Security (ESP) obsługuje uwierzytelnianie oparte na usłudze Active Directory, obsługę wielu użytkowników i kontrolę dostępu opartą na rolach. Po wybraniu opcji ESP klaster usługi HDInsight jest przyłączony do domeny usługi Active Directory, a administrator przedsiębiorstwa może skonfigurować kontrolę dostępu opartą na rolach (RBAC) dla zabezpieczeń apache Hive przy użyciu platformy Apache Ranger. Administrator może również przeprowadzać inspekcję dostępu do danych przez pracowników i wszelkie zmiany wprowadzone w zasadach kontroli dostępu.
Usługa ESP jest dostępna w następujących typach klastrów: Apache Hadoop, Apache Spark, Apache HBase, Apache Kafka i Interactive Query (Hive LLAP).
Wykonaj następujące kroki, aby wdrożyć przyłączony do domeny klaster usługi HDInsight:
Wdróż identyfikator Entra firmy Microsoft, przekazując nazwę domeny.
Wdrażanie usług Microsoft Entra Domain Services.
Utwórz wymaganą sieć wirtualną i podsieć.
Wdróż maszynę wirtualną w sieci wirtualnej, aby zarządzać usługami Microsoft Entra Domain Services.
Dołącz maszynę wirtualną do domeny.
Zainstaluj narzędzia AD i DNS.
Administrator usług Microsoft Entra Domain Services tworzy jednostkę organizacyjną.
Włącz protokół LDAPS dla usług Microsoft Entra Domain Services.
Utwórz konto usługi w usłudze Microsoft Entra ID z delegowanym uprawnieniem administratora odczytu i zapisu do jednostki organizacyjnej, aby mogła. To konto usługi może następnie dołączać maszyny do domeny i umieszczać jednostki maszyny w jednostce organizacyjnej. Może również tworzyć jednostki usługi w jednostce organizacyjnej określonej podczas tworzenia klastra.
Uwaga
Konto usługi nie musi być kontem administratora domeny usługi AD.
Wdróż klaster USŁUGI HDInsight ESP, ustawiając następujące parametry:
Parametr Opis Nazwa domeny Nazwa domeny skojarzona z usługami Microsoft Entra Domain Services. Nazwa użytkownika domeny Konto usługi w domenie zarządzanej przez kontroler domeny usług Microsoft Entra Domain Services utworzonej w poprzedniej sekcji, na przykład: hdiadmin@contoso.onmicrosoft.com
. Ten użytkownik domeny będzie administratorem tego klastra usługi HDInsight.Hasło domeny Hasło konta usługi. Jednostka organizacyjna Nazwa wyróżniająca jednostki organizacyjnej, której chcesz użyć z klastrem usługi HDInsight, na przykład: OU=HDInsightOU,DC=contoso,DC=onmicrosoft,DC=com
. Jeśli ta jednostka organizacyjna nie istnieje, klaster usługi HDInsight próbuje utworzyć jednostkę organizacyjną przy użyciu uprawnień konta usługi.LDAPS URL na przykład ldaps://contoso.onmicrosoft.com:636
.Uzyskiwanie dostępu do grupy użytkowników Grupy zabezpieczeń, których użytkownicy mają być synchronizowani z klastrem, na przykład: HiveUsers
. Jeśli chcesz określić wiele grup użytkowników, rozdziel je średnikami ";". Grupy muszą istnieć w katalogu przed utworzeniem klastra ESP.
Aby uzyskać więcej informacji, zobacz następujące artykuły:
- Wprowadzenie do zabezpieczeń usługi Apache Hadoop z przyłączonym do domeny klastrami usługi HDInsight
- Planowanie klastrów Apache Hadoop przyłączonych do domeny platformy Azure w usłudze HDInsight
- Konfigurowanie przyłączonego do domeny klastra usługi HDInsight przy użyciu usług Microsoft Entra Domain Services
- Synchronizowanie użytkowników usługi Microsoft Entra z klastrem usługi HDInsight
- Konfigurowanie zasad programu Apache Hive w usłudze HDInsight przyłączonej do domeny
- Uruchamianie usługi Apache Oozie w przyłączonych do domeny klastrach hadoop w usłudze HDInsight
Implementowanie kompleksowego zabezpieczeń przedsiębiorstwa
Kompleksowe zabezpieczenia przedsiębiorstwa można osiągnąć przy użyciu następujących mechanizmów kontroli:
Prywatny i chroniony potok danych (zabezpieczenia na poziomie obwodu) — zabezpieczenia na poziomie obwodu można osiągnąć za pośrednictwem sieci wirtualnych platformy Azure, sieciowych grup zabezpieczeń i usługi bramy.
Uwierzytelnianie i autoryzacja dostępu do danych — tworzenie przyłączonego do domeny klastra usługi HDInsight przy użyciu usług Microsoft Entra Domain Services. (Pakiet Enterprise Security). — Użyj systemu Ambari, aby zapewnić dostęp oparty na rolach do zasobów klastra dla użytkowników usługi AD. — Użyj platformy Apache Ranger, aby ustawić zasady kontroli dostępu dla programu Hive na poziomie tabeli/kolumny/wiersza. — Dostęp SSH do klastra może być ograniczony tylko do administratora.
Inspekcja — wyświetlanie i zgłaszanie całego dostępu do zasobów i danych klastra usługi HDInsight. — Wyświetlanie i zgłaszanie wszystkich zmian zasad kontroli dostępu.
Szyfrowanie — przezroczyste szyfrowanie po stronie serwera przy użyciu kluczy zarządzanych przez firmę Microsoft lub kluczy zarządzanych przez klienta. - Szyfrowanie tranzytowe przy użyciu szyfrowania po stronie klienta, https i TLS.
Aby uzyskać więcej informacji, zobacz następujące artykuły:
- Omówienie sieci wirtualnych platformy Azure
- Omówienie sieciowych grup zabezpieczeń platformy Azure
- Komunikacja równorzędna usługi Azure Virtual Network
- Azure Storage security guide (Przewodnik po zabezpieczeniach usługi Azure Storage)
- Szyfrowanie usługi Azure Storage w spoczynku
Korzystanie z monitorowania i alertów
Aby uzyskać więcej informacji, zobacz artykuł:
Omówienie usługi Azure Monitor
Uaktualnianie klastrów
Regularnie uaktualnij do najnowszej wersji usługi HDInsight, aby korzystać z najnowszych funkcji. Następujące kroki mogą służyć do uaktualniania klastra do najnowszej wersji:
- Utwórz nowy klaster TEST usługi HDInsight przy użyciu najnowszej dostępnej wersji usługi HDInsight.
- Przetestuj nowy klaster, aby upewnić się, że zadania i obciążenia działają zgodnie z oczekiwaniami.
- Zmodyfikuj zadania lub aplikacje lub obciążenia zgodnie z potrzebami.
- Twórz kopie zapasowe wszystkich danych przejściowych przechowywanych lokalnie w węzłach klastra.
- Usuń istniejący klaster.
- Utwórz klaster najnowszej wersji usługi HDInsight w tej samej podsieci sieci wirtualnej przy użyciu tych samych domyślnych danych i magazynu metadanych co poprzedni klaster.
- Zaimportuj wszystkie dane przejściowe, których kopia zapasowa została utworzona.
- Uruchom zadania/kontynuuj przetwarzanie przy użyciu nowego klastra.
Aby uzyskać więcej informacji, zobacz artykuł: Uaktualnianie klastra usługi HDInsight do nowej wersji.
Stosowanie poprawek w systemach operacyjnych klastra
Aby uzyskać więcej informacji, zobacz artykuł: Stosowanie poprawek systemu operacyjnego dla usługi HDInsight.
Po migracji
- Korygowanie aplikacji — iteracyjne wprowadzanie niezbędnych zmian w zadaniach, procesach i skryptach.
- Wykonywanie testów — iteracyjne uruchamianie testów funkcjonalnych i wydajnościowych.
- Optymalizacja — rozwiąż wszelkie problemy z wydajnością na podstawie powyższych wyników testu, a następnie ponownie przetestuj, aby potwierdzić poprawę wydajności.
Następne kroki
Przeczytaj więcej na temat usługi HDInsight 4.0.