Co to jest Apache Spark™ w HDInsight na AKS? (Wersja zapoznawcza)

Artykuł
09/20/2024

Ważny

Usługa Azure HDInsight w usłudze AKS została wycofana 31 stycznia 2025 r. Dowiedz się więcej z tym ogłoszeniem.

Aby uniknąć nagłego kończenia obciążeń, należy przeprowadzić migrację obciążeń do usługi Microsoft Fabric lub równoważnego produktu platformy Azure.

Ważny

Ta funkcja jest obecnie dostępna w wersji zapoznawczej. Dodatkowe warunki korzystania z platformy Microsoft Azure dla wersji wstępnych zawierają więcej warunków prawnych dotyczących funkcji platformy Azure, które są w wersji beta, w wersji zapoznawczej lub w inny sposób nie zostały jeszcze publicznie udostępnione. Aby uzyskać informacje na temat tej konkretnej wersji zapoznawczej, zobacz informacje o wersji zapoznawczej dla Azure HDInsight na AKS. W przypadku pytań lub sugestii dotyczących funkcji prześlij żądanie na AskHDInsight z szczegółami i śledź nas, aby uzyskać więcej aktualizacji na społeczności Azure HDInsight.

Apache Spark™ to platforma przetwarzania równoległego, która obsługuje przetwarzanie w pamięci w celu zwiększenia wydajności aplikacji analitycznych big data.

Platforma Apache Spark™ udostępnia elementy pierwotne na potrzeby przetwarzania w klastrze w pamięci. Zadanie platformy Spark może ładować i buforować dane do pamięci i wykonywać zapytania dotyczące ich wielokrotnie. Przetwarzanie w pamięci jest szybsze niż aplikacje oparte na dyskach, takie jak Hadoop, które udostępniają dane za pośrednictwem rozproszonego systemu plików Hadoop (HDFS). Platforma Apache Spark umożliwia integrację z językami programowania Scala i Python, aby umożliwić manipulowanie rozproszonymi zestawami danych, takimi jak kolekcje lokalne. Nie ma potrzeby tworzenia struktury wszystkich elementów w ramach operacji mapowania i redukcji.

Diagram przedstawiający przegląd Sparka w ramach usług HDInsight na AKS.

Klaster Apache Spark z usługą HDInsight w usłudze AKS

Azure HDInsight to zarządzana usługa analizy typu open source o pełnym spektrum dla przedsiębiorstw.

Apache Spark™ w Azure HDInsight na AKS to zarządzana usługa Spark w Microsoft Azure. Za pomocą platformy Apache Spark w usłudze Azure HDInsight w usłudze AKS możesz przechowywać i przetwarzać dane na platformie Azure. Klastry Spark w usłudze HDInsight są zgodne z usługą Azure Data Lake Storage Gen2 lub, dzięki czemu można zastosować przetwarzanie platformy Spark w istniejących magazynach danych.

Platforma Apache Spark dla usługi HDInsight w usłudze AKS umożliwia szybką analizę danych i przetwarzanie klastrów przy użyciu przetwarzania w pamięci. Jupyter Notebook umożliwia interakcję z danymi, łączenie kodu z tekstem w formacie markdown oraz wykonywanie prostych wizualizacji.

Platforma Apache Spark na AKS w usłudze HDInsight składa się z wielu składników jako podów.

Kontrolery klastra

Kontrolery klastrów są odpowiedzialne za instalowanie odpowiednich usług i zarządzanie nimi. Różne kontrolery są instalowane i zarządzane w klastrze Spark.

Składniki usługi Apache Spark

usługa Zookeeper: Klaster Zookeeper składający się z trzech węzłów, służy jako rozproszony koordynator lub magazyn o wysokiej dostępności dla innych usług.

Usługa Yarn: W klastrze Hadoop Yarn zadania Spark będą zaplanowane jako aplikacje Yarn.

Interfejsy Klienta: Klastry Apache Spark w HDInsight na AKS udostępniają różne interfejsy klientów. Livy Server, Jupyter Notebook, Spark History Server, świadczy usługi Spark użytkownikom HDInsight w AKS.

Odniesienie

Nazwy projektów typu open source Apache, Apache Spark i z nimi związane są znakami towarowymi Fundacji Apache Software Foundation (ASF).

Udostępnij za pośrednictwem

Co to jest Apache Spark™ w HDInsight na AKS? (Wersja zapoznawcza)

Klaster Apache Spark z usługą HDInsight w usłudze AKS

Kontrolery klastra

Składniki usługi Apache Spark

Odniesienie

Dodatkowe zasoby