Azure에서 데이터 분석 및 보고 기술 선택
대부분의 빅 데이터 솔루션의 목표는 분석 및 보고를 통해 데이터에 대한 정보를 제공하는 것입니다. 여기에는 미리 구성된 보고서 및 시각화나 대화형 데이터 탐색이 포함될 수 있습니다.
데이터 분석 기술을 선택할 때 사용할 수 있는 옵션은 무엇인가요?
Azure에서는 사용자의 요구에 따라 분석, 시각화 및 보고에 대한 여러 옵션을 사용할 수 있습니다.
Power BI
Power BI는 비즈니스 분석 도구 제품군입니다. 이 제품군은 수백 개의 데이터 원본에 연결될 수 있으며 임시 분석에 사용될 수 있습니다. 현재 사용 가능한 데이터 원본에 대해서는 이 목록을 참조하세요. Power BI Embedded를 사용하여 추가 라이선스 없이도 애플리케이션 내에 Power BI를 통합할 수 있습니다.
조직에서는 Power BI를 사용하여 보고서를 생성하고 조직에 게시할 수 있습니다. 모든 사용자는 거버넌스 및 기본 제공된 보안을 사용하여 개인별 대시보드를 만들 수 있습니다. Power BI는 Microsoft Entra ID를 사용하여 Power BI 서비스 로그인하는 사용자를 인증하고 사용자가 인증이 필요한 리소스에 액세스하려고 할 때마다 Power BI 로그인 자격 증명을 사용합니다.
Jupyter Notebook
Jupyter 노트는 데이터 과학자가 Python, Scala 또는 R 코드와 Markdown 텍스트를 포함하는 노트 파일을 만들어 코드 및 결과를 공유하고 단일 문서로 문서화함으로써 효과적으로 공동 작업하는 방법을 제공할 수 있도록 하는 브라우저 기반 셸을 제공합니다.
Spark 및 Hadoop과 같은 HDInsight 클러스터의 변형 대부분은 데이터로 상호 작용하고 처리를 위해 작업을 제출하기 위한 Jupyter 노트로 미리 구성되어 있습니다. 사용 하는 HDInsight 클러스터의 유형에 따라, 코드 해석 및 실행을 위해 하나 이상의 커널이 제공됩니다. 예를 들어, HDInsight의 Spark 클러스터는 Spark 엔진을 사용하여 Python 또는 Scala 코드를 실행하기 위해 선택할 수 있는 Spark 관련 커널을 제공합니다.
Jupyter 노트는 Power BI와 같은 BI/보고 도구로 보다 수준 높은 시각화를 구축하기 전에 데이터를 분석, 시각화 및 처리하기 위한 훌륭한 환경을 제공합니다.
Zeppelin 노트
Zeppelin 노트는 기능면에서 Jupyter와 유사한 브라우저 기반 셸을 위한 또 다른 옵션입니다. 일부 HDInsight 클러스터는 Zeppelin 노트로 미리 구성되어 있습니다. 그러나 현재, HDInsight 대화형 쿼리(Hive LLAP) 클러스터를 사용하는 경우 대화형 Hive 쿼리를 실행하는 데 사용할 수 있는 유일한 노트는 Zeppelin 뿐입니다. 또한 도메인에 가입된 HDInsight 클러스터를 사용하는 경우 노트 및 기본 Hive 테이블에 대한 액세스를 제어하기 위해 다른 사용자 로그인을 할당할 수 있는 유일한 유형이 Zeppelin 노트입니다.
VS Code의 Jupyter Notebook
VS Code는 로컬로 사용하거나 원격 컴퓨팅에 연결할 수 있는 무료 코드 편집기 및 개발 플랫폼입니다. Jupyter 확장과 결합되어 추가 언어 확장으로 향상될 수 있는 Jupyter 개발을 위한 전체 환경을 제공합니다. 선택한 컴퓨팅을 사용할 수 있는 최고의 무료 Jupyter 환경을 원하는 경우 이 옵션을 사용하는 것이 좋습니다. VS Code를 사용하여 원격 및 컨테이너에 대해 Notebook을 개발하고 실행할 수 있습니다. Azure Notebooks에서 더 쉽게 전환할 수 있도록 VS Code와 함께 사용할 수 있도록 컨테이너 이미지를 사용할 수 있도록 했습니다.
Jupyter(이전의 IPython Notebook)는 Notebook이라는 하나의 캔버스에서 Markdown 텍스트와 실행 가능한 Python 소스 코드를 쉽게 결합할 수 있는 오픈 소스 프로젝트입니다. Visual Studio Code는 기본적으로 Jupyter Notebook과 Python 코드 파일을 통한 작업을 지원합니다.
주요 선택 조건
선택 옵션의 범위를 좁히려면 먼저 다음 질문에 답변합니다.
다양한 데이터 원본에 연결하여 도메인 전체에 분산되어 있는 데이터에 대한 보고서를 만들 수 있는 중앙 위치를 제공해야 하나요? 그렇다면 수백 개의 데이터 원본에 연결할 수 있는 옵션을 선택합니다.
외부 웹 사이트 또는 애플리케이션에 동적 시각화를 포함하려고 하나요? 그렇다면 포함 기능을 제공하는 옵션을 선택합니다.
오프라인 상태에서 시각화 및 보고서를 디자인하려고 하나요? 그렇다면 오프라인 기능이 있는 옵션을 선택합니다.
크거나 복잡한 AI 모델을 학습하거나 매우 큰 데이터 집합으로 작업하기 위해 높은 처리 능력이 필요한가요? 그렇다면 빅 데이터 클러스터에 연결할 수 있는 옵션을 선택합니다.
기능 매트릭스
다음 표에서는 주요 기능 차이점을 요약해서 보여 줍니다.
일반 기능
기능 | Power BI | Jupyter Notebook | Zeppelin 노트 | VS Code의 Jupyter Notebook |
---|---|---|---|---|
고급 처리를 위해 빅 데이터 클러스터에 연결 | 예 | 예 | 예 | 예 |
관리되는 서비스 | 예 | 예 1 | 예 1 | 예 |
수백 개의 데이터 원본에 연결 | 예 | 아니요 | 아니요 | 예 |
오프라인 기능 | 예 2 | 아니요 | 아니요 | 예 |
포함 기능 | 예 | 아니요 | 아니요 | 예 |
자동 데이터 새로 고침 | 예 | 아니요 | 아니요 | 예 |
다양한 오픈 소스 패키지에 액세스 | 아니요 | 예 3 | 예 3 | 예 4 |
데이터 변환/정리 옵션 | 파워 쿼리, R | 40개 언어(Python, R, Julia 및 Scala 포함) | 20개 이상의 인터프리터(Python, JDBC 및 R 포함) | Python, F#, R |
가격 책정 | Power BI Desktop 무료(제작), 호스팅 옵션 가격 책정 참조 | 무료 | 무료 | 무료 |
다중 사용자 협업 | 예 | 예(공유를 통해 또는 JupyterHub와 같은 다중 사용자 서버를 사용하여) | 예 | 예(공유를 통해) |
[1] 관리되는 HDInsight 클러스터의 일부로 사용되는 경우
[2] Power BI Desktop을 사용하여
[2] Maven 리포지토리에서 커뮤니티 제공 패키지를 검색할 수 있습니다.
[3] Pip 또는 Conda를 사용하여 Python 패키지를 설치할 수 있습니다. R 패키지는 CRAN 또는 GitHub에서 설치할 수 있습니다. F#의 패키지는 Paket 종속성 관리자를 사용하여 nuget.org를 통해 설치할 수 있습니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Zoiner Tejada | CEO 및 설계자
다음 단계
- Python용 Jupyter Notebook 시작
- Notebooks
- Azure Data Factory를 사용하여 Azure Databricks Notebook 실행
- 작업 영역에서 Jupyter Notebook 실행
- Power BI란?