Apache Spark 지침
이 문서에서는 Azure HDInsight에서 Apache Spark를 사용하기 위한 다양한 지침을 제공합니다.
Spark 작업을 실행하거나 제출하는 방법은 무엇인가요?
옵션 | 문서 |
---|---|
Visual Studio Code | Visual Studio Code용 Spark & Hive Tools 사용 |
Jupyter 노트북 | 자습서: Azure HDInsight의 Apache Spark 클러스터에서 데이터 로드 및 쿼리 실행 |
IntelliJ | 자습서: Azure Toolkit for IntelliJ를 사용하여 HDInsight 클러스터용 Apache Spark 애플리케이션 만들기 |
IntelliJ | 자습서: IntelliJ를 사용하여 HDInsight의 Apache Spark에 대한 Scala Maven 애플리케이션 만들기 |
Zeppelin Notebooks | Azure HDInsight에서 Apache Spark 클러스터와 함께 Apache Zeppelin Notebook 사용 |
Livy를 사용하여 원격 작업 제출 | Apache Spark REST API를 사용하여 HDInsight Spark 클러스터에 원격 작업 제출 |
Apache Oozie | Oozie는 Hadoop 작업을 관리하는 워크플로 및 코디네이션 시스템입니다. |
Apache Livy | Livy를 사용하여 대화형 Spark 셸을 실행하거나 Spark에서 실행되도록 배치 작업을 제출할 수 있습니다. |
Apache Spark에 대한 Azure Data Factory | Data Factory 파이프라인에서의 Spark 작업은 사용자 고유 또는 주문형 HDInsight 클러스터에서 Spark 프로그램을 실행합니다. |
Apache Hive에 대한 Azure Data Factory | Data Factory 파이프라인의 HDInsight Hive 작업은 사용자 고유 또는 주문형 HDInsight 클러스터의 Hive 쿼리를 실행합니다. |
Spark 작업을 모니터링 및 디버그하는 방법은 무엇인가요?
옵션 | 문서 |
---|---|
Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ로 실패 스파크 작업 디버깅(미리 보기) |
SSH를 통한 Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ를 사용하여 SSH를 통해 HDInsight 클러스터에서 로컬 또는 원격으로 Apache Spark 애플리케이션 디버그 |
VPN을 통한 Azure Toolkit for IntelliJ | Azure Toolkit for IntelliJ를 사용하여 VPN을 통해 HDInsight에서 원격으로 Apache Spark 애플리케이션 디버그 |
Apache Spark 기록 서버의 작업 그래프 | 확장된 Apache Spark 기록 서버를 사용하여 Apache Spark 애플리케이션 디버그 및 진단 |
Spark 작업을 보다 효율적으로 실행하는 방법은 무엇인가요?
옵션 | 문서 |
---|---|
IO 캐시 | Azure HDInsight IO 캐시를 사용하여 Apache Spark 워크로드의 성능 개선(미리 보기) |
구성 옵션 | Apache Spark 작업 최적화 |
기타 Azure 서비스에 어떻게 연결하나요?
옵션 | 문서 |
---|---|
HDInsight의 Apache Hive | Hive Warehouse 커넥터를 사용하여 Apache Spark 및 Apache Hive 통합 |
HDInsight의 Apache HBase | Apache Spark를 사용하여 Apache HBase 데이터 읽기 및 쓰기 |
HDInsight의 Apache Kafka | 자습서: HDInsight에서 Apache Kafka의 Apache Spark 구조적 스트림 사용 |
Azure Cosmos DB | Microsoft Azure Cosmos DB용 Azure Synapse Link |
내 스토리지 옵션은 무엇인가요?
옵션 | 문서 |
---|---|
Azure Data Lake Storage Gen2 | Azure HDInsight 클러스터에 Azure Data Lake Storage Gen2 사용 |
Azure Blob Storage | Azure HDInsight 클러스터에서 Azure Storage 사용 |