Windows PC에서 HDInsight의 Apache Hadoop 에코시스템 작업
HDInsight의 Apache Hadoop 에코시스템 작업을 위한 Windows PC의 개발 및 관리 옵션에 대해 알아봅니다.
HDInsight는 Apache Hadoop 및 Hadoop 구성 요소, Linux에서 개발된 오픈 소스 기술을 기반으로 합니다. HDInsight 버전 3.4 이상에서는 클러스터에 대한 기본 OS로 Ubuntu Linux 배포를 사용합니다. 그러나 Windows 클라이언트 또는 Windows 개발 환경에서 HDInsight로 작업할 수 있습니다.
PowerShell을 사용하여 배포 및 관리 작업
Azure PowerShell은 Windows에서 HDInsight의 배포 및 관리 작업을 제어하고 자동화하는 데 사용할 수 있는 스크립팅 환경입니다.
PowerShell로 수행할 수 있는 작업의 예:
Azure PowerShell 설치 및 구성 단계에 따라 최신 버전을 가져옵니다.
브라우저에서 실행할 수 있는 유틸리티
다음 유틸리티는 브라우저에서 실행되는 웹 UI가 있습니다.
Azure Cloud Shell은 브라우저 및 Azure Portal 내에서 실행되는 대화형 명령줄 셸입니다.
Apache Ambari Web UI는 다음과 같은 다양한 종류의 작업을 관리하는 데 사용할 수 있으며 Azure Portal에서 사용 가능한 관리 및 모니터링 유틸리티입니다.
다음 예제를 진행하기 전에 Visual Studio용 Data Lake 도구를 설치 및 시도합니다.
Visual Studio 및 .NET SDK
.NET SDK와 함께 Visual Studio를 사용하여 클러스터를 관리하고 빅 데이터 애플리케이션을 개발할 수 있습니다. 다음 작업에 대해 다른 IDE를 사용할 수 있으나 예제는 Visual Studio에 표시됩니다.
Visual Studio에서 .NET SDK와 함께 수행할 수 있는 작업의 예:
- .NET용 Azure HDInsight SDK
- .NET SDK를 사용하여 Apache Hive 쿼리 실행
- Apache Hadoop에서 Apache Hive 및 Apache Pig 스트림과 함께 C# 사용자 정의 함수 사용
Spark 클러스터에 대한 Intellij IDEA 및 Eclipse IDE
Intellij IDEA 및 Eclipse IDE는 다음에 사용할 수 있습니다.
- HDInsight Spark 클러스터에서 Scala Spark 애플리케이션을 개발 및 제출합니다.
- Spark 클러스터 리소스에 액세스합니다.
- Scala Spark 애플리케이션을 로컬로 개발 및 실행합니다.
다음 문서에 방법이 나와 있습니다.
- Intellij IDEA: Azure Toolkit for Intellij 플러그 인 및 Scala SDK를 사용하여 Apache Spark 애플리케이션을 만듭니다.
- Eclipse IDE 또는 Eclipse용 Scala IDE: Apache Spark 애플리케이션 및 Azure Toolkit for Eclipse 만들기
데이터 과학자들을 위한 Spark의 Notebook
HDInsight의 Apache Spark 클러스터는 Jupyter Notebook과 함께 사용할 수 있는 Apache Zeppelin Notebook 및 커널을 포함합니다.
- Apache Spark 클러스터에서 Jupyter Notebook과 함께 커널을 사용하여 Spark 애플리케이션을 테스트하는 방법 알아보기
- Apache Spark 클러스터에서 Apache Zeppelin Notebook을 사용하여 Spark 작업을 실행하는 방법 알아보기
Windows에서 Linux 기반 도구 및 기술 실행
Linux에서만 사용할 수 있는 도구나 기술을 사용해야 하는 상황이 발생하면 다음 옵션을 고려합니다.
- Windows 10의 Ubuntu Bash는 Windows에서 Linux 하위 시스템을 제공합니다. Bash를 사용하면 전용 Linux 설치를 유지하지 않고도 Linux 유틸리티를 직접 실행할 수 있습니다. Windows 10을 위한 Linux용 Windows 하위 시스템 설치 가이드에서 설치 단계를 참조하세요. 다른 Unix 셸도 작동합니다.
- Windows용 Docker는 대부분의 Linux 기반 도구에 대한 액세스를 제공하며 Windows에서 직접 실행할 수 있습니다. 예를 들어, Docker를 사용하여 Hive에 대한 Beeline 클라이언트를 Windows에서 직접 실행할 수 있습니다. 또한 Docker를 사용하여 로컬 Jupyter Notebook을 실행하고 HDInsight의 Spark에 원격으로 연결할 수 있습니다. Windows용 Docker 시작
- MobaXTerm을 사용하면 그래픽 방식으로 SSH 연결을 통해 클러스터 파일 시스템을 찾아볼 수 있습니다.
플랫폼 간 도구
Azure CLI(명령줄 인터페이스)는 Azure 리소스를 관리하기 위한 Microsoft의 플랫폼 간 명령줄 환경입니다. 자세한 내용은 Azure CLI(명령줄 인터페이스)를 참조하세요.
다음 단계
Linux 기반 클러스터에서 작업하는 데 익숙하지 않은 경우 다음 문서를 참조하세요.