다음을 통해 공유


자습서: parquet 형식으로 Event Hubs 데이터를 캡처하고 Azure Synapse Analytics를 사용하여 분석

이 자습서는 Stream Analytics 코드 없는 편집기를 사용하여 Event Hubs 데이터를 parquet 형식으로 Azure Data Lake Storage Gen2에 캡처하는 작업을 만드는 방법을 보여줍니다.

이 자습서에서는 다음을 하는 방법을 알아볼 수 있습니다.

  • 이벤트 허브에 샘플 이벤트를 보내는 이벤트 생성기 배포
  • 코드 없는 편집기를 사용하여 Stream Analytics 작업 만들기
  • 입력 데이터 및 스키마 검토
  • 이벤트 허브 데이터를 캡처할 Azure Data Lake Storage Gen2 구성
  • Stream Analytics 작업 실행
  • Azure Synapse Analytics를 사용하여 parquet 파일 쿼리

필수 조건

시작하기 전에 다음 단계를 완료해야 합니다.

코드 없는 편집기를 사용하여 Stream Analytics 작업 만들기

  1. TollApp 이벤트 생성기가 배포된 리소스 그룹을 찾습니다.

  2. Azure Event Hubs 네임스페이스를 선택합니다. 별도의 탭이나 창에서 열 수 있습니다.

  3. Event Hubs 네임스페이스 페이지의 왼쪽 메뉴에 있는 엔터티 아래에서 Event Hubs를 선택합니다.

  4. entrystream 인스턴스를 선택합니다.

    이벤트 허브 선택을 보여 주는 스크린샷

  5. Event Hubs 인스턴스 페이지에서 왼쪽 메뉴의 기능 섹션에 있는 데이터 프로세스를 선택합니다.

  6. Capture data to ADLS Gen2 in Parquet format 타일의 시작을 선택합니다.

    Parquet 형식**의 ADLS Gen2에 **데이터 캡처 타일 선택을 보여 주는 스크린샷.

  7. 작업 이름을 parquetcapture로 지정하고 만들기를 선택합니다.

    새 Stream Analytics 작업 페이지의 스크린샷.

  8. 이벤트 허브 구성 페이지에서 다음 단계를 수행합니다.

    1. 소비자 그룹의 경우 기존 항목 사용을 선택합니다.

    2. 소비자 그룹이 선택되어 있는지 $Default 확인합니다.

    3. Serialization이 JSON으로 설정되어 있는지 확인합니다.

    4. 인증 방법이 연결 문자열로 설정되어 있는지 확인합니다.

    5. 이벤트 허브 공유 액세스 키 이름이 RootManageSharedAccessKey설정되어 있는지 확인합니다.

    6. 창 아래쪽에서 연결을 선택합니다.

      이벤트 허브의 구성 페이지 스크린샷.

  9. 몇 초 내에 샘플 입력 데이터와 스키마가 표시됩니다. 필드를 삭제하거나, 필드 이름을 바꾸거나, 데이터 형식을 변경하도록 선택할 수 있습니다.

    필드와 데이터 미리 보기를 보여 주는 스크린샷.

  10. 캔버스에서 Azure Data Lake Storage Gen2 타일을 선택하고 지정하여 구성합니다.

    • Azure Data Lake Gen2 계정이 있는 구독

    • 스토리지 계정 이름으로, 필수 구성 요소 섹션에서 수행된 Azure Synapse Analytics 작업 영역에 사용되는 것과 동일한 ADLS Gen2 계정이어야 합니다.

    • parquet 파일을 만들 컨테이너입니다.

    • 델타 테이블 경로의 경우 테이블의 이름을 지정합니다.

    • 기본값 yyyy-mm-ddHH인 날짜 및 시간 패턴입니다.

    • 연결을 선택합니다

      Data Lake Storage의 구성 설정을 보여 주는 스크린샷.

  11. 위쪽 리본에서 저장을 선택하여 작업을 저장한 다음 시작을 선택하여 작업을 실행합니다. 작업이 시작되면 오른쪽 모서리에서 X를 선택하여 Stream Analytics 작업 페이지를 닫습니다.

    Stream Analytics 작업 시작 페이지를 보여 주는 스크린샷.

  12. 그러면 코드 없는 편집기를 사용하여 만든 모든 Stream Analytics 작업 목록이 표시됩니다. 그리고 2분 이내에 작업이 실행 중 상태로 이동합니다. 페이지에서 새로 고침 단추를 선택하여 상태가 생성됨 ->시작 -> 실행 중으로 변경되는 것을 확인합니다.

    Stream Analytics 작업 목록을 보여 주는 스크린샷.

Azure Data Lake Storage Gen 2 계정에서 출력 보기

  1. 이전 단계에서 사용한 Azure Data Lake Storage Gen2 계정을 찾습니다.

  2. 이전 단계에서 만든 컨테이너를 선택합니다. 앞에서 지정한 폴더에 만든 parquet 파일이 표시됩니다.

    Azure Data Lake Storage Gen 2에서 캡처한 parquet 파일을 보여 주는 스크린샷

Azure Synapse Analytics를 사용하여 Parquet 형식으로 캡처된 데이터 쿼리

Azure Synapse Spark 2를 사용하여 쿼리

  1. Azure Synapse Analytics 작업 영역을 찾고 Synapse Studio 엽니다.

  2. 서버리스 Apache Spark 풀이 아직 없는 경우 작업 영역에 만듭니다.

  3. Synapse Studio에서 개발 허브로 이동하여 새 Notebook을 만듭니다.

    Synapse Studio를 보여 주는 스크린샷

  4. 새 코드 셀을 만들고, 다음 코드를 해당 셀에 입력합니다. 컨테이너 및 adlsname을 이전 단계에서 사용된 컨테이너 및 ADLS Gen2 계정의 이름으로 바꿉니다.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. 도구 모음에 있는 연결 대상의 경우 드롭다운 목록에서 Spark 풀을 선택합니다.

  6. 실행을 다시 선택하여 결과를 확인합니다.

    Azure Synapse Analytics의 Spark 실행 결과 스크린샷.

Azure Synapse 서버리스 SQL 사용하여 쿼리

  1. 개발 허브에서 새 SQL 스크립트를 만듭니다.

    새 SQL 스크립트 메뉴가 선택된 개발 페이지를 보여 주는 스크린샷.

  2. 다음 스크립트를 붙여넣고 기본 제공 서버리스 SQL 엔드포인트를 사용하여 실행합니다. 컨테이너 및 adlsname을 이전 단계에서 사용된 컨테이너 및 ADLS Gen2 계정의 이름으로 바꿉니다.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Azure Synapse Analytics의 SQL 스크립트 결과 스크린샷.

리소스 정리

  1. Event Hubs 인스턴스를 찾고 프로세스 데이터 섹션에서 Stream Analytics의 작업 목록을 확인합니다. 실행 중인 작업 중지
  2. TollApp 이벤트 생성기를 배포하는 동안 사용한 리소스 그룹으로 이동합니다.
  3. 리소스 그룹 삭제를 선택합니다. 삭제를 확인할 리소스 그룹의 이름을 입력합니다.

다음 단계

이 자습서에서는 코드 없는 편집기를 사용하여 Stream Analytics 작업을 만들어 Event Hubs 데이터 스트림을 parquet 형식으로 캡처하는 방법을 알아보았습니다. 그런 다음 Azure Synapse Analytics를 사용하여 Synapse Spark 및 Synapse SQL을 모두 사용하여 parquet 파일을 쿼리했습니다.