다음을 통해 공유


빠른 시작: Azure Synapse Pipelines을 사용하여 데이터 수집(미리 보기)

이 빠른 시작에서는 데이터 원본에서 Azure Synapse Data Explorer 풀로 데이터를 로드하는 방법을 알아봅니다.

필수 구성 요소

  • Azure 구독 평가판 Azure 계정을 만듭니다.

  • Synapse Studio 또는 Azure Portal을 사용하여 Data Explorer 풀 만들기

  • Data Explorer 데이터베이스를 만듭니다.

    1. Synapse Studio의 왼쪽 창에서 데이터를 선택합니다.

    2. +(새 리소스 추가) >Data Explorer 풀을 선택하고 다음 정보를 사용합니다.

      설정 제안 값 설명
      풀 이름 contosodataexplorer 사용할 Data Explorer 풀의 이름
      이름 TestDatabase 데이터베이스 이름은 클러스터 내에서 고유해야 합니다.
      기본 보존 기간 365 데이터를 쿼리에 사용할 수 있도록 보장되는 시간 범위(일)입니다. 시간 범위는 데이터가 수집된 시간부터 측정됩니다.
      기본 캐시 기간 31 자주 쿼리되는 데이터를 장기 스토리지가 아닌 SSD 스토리지 또는 RAM에 보관할 수 있는 시간 범위(일)입니다.
    3. 만들기를 선택하여 데이터베이스를 만듭니다. 만들기에는 일반적으로 채 1분이 소요되지 않습니다.

  • 테이블 만들기

    1. Synapse Studio의 왼쪽 창에서 개발을 선택합니다.
    2. KQL 스크립트에서 +(새 리소스 추가) >KQL 스크립트를 선택합니다. 오른쪽 창에서 스크립트 이름을 지정할 수 있습니다.
    3. 연결 대상 메뉴에서 contosodataexplorer를 선택합니다.
    4. 데이터베이스 사용 메뉴에서 TestDatabase를 선택합니다.
    5. 다음 명령을 붙여넣고 실행을 선택하여 테이블을 만듭니다.
    .create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
    

    테이블이 성공적으로 만들어졌는지 확인합니다. 왼쪽 창에서 데이터를 선택하고 contosodataexplorer 추가 메뉴를 선택한 다음, 새로 고침을 선택합니다. contosodataexplorer 아래에서 테이블을 확장하고 StormEvents 테이블이 목록에 표시되는지 확인합니다.

  • 쿼리 및 데이터 수집 엔드포인트를 가져옵니다. 연결된 서비스를 구성하려면 쿼리 엔드포인트가 필요합니다.

    1. Synapse Studio의 왼쪽 창에서 관리>Data Explorer 풀을 차례로 선택합니다.

    2. 세부 정보를 보는 데 사용할 Data Explorer 풀을 선택합니다.

      Screenshot of the Data Explorer pools screen, showing the list of existing pools.

    3. 쿼리 및 데이터 수집 엔드포인트를 기록해 둡니다. Data Explorer 풀에 대한 연결을 구성할 때 쿼리 엔드포인트를 클러스터로 사용합니다. 데이터 수집을 위해 SDK를 구성할 때 데이터 수집 엔드포인트를 사용합니다.

      Screenshot of the Data Explorer pools properties pane, showing the Query and Data Ingestion URI addresses.

연결된 서비스 만들기

Azure Synapse Analytics에서 연결된 서비스는 다른 서비스에 대한 연결 정보를 정의합니다. 이 섹션에서는 Azure Data Explorer를 위한 연결된 서비스를 만듭니다.

  1. Synapse Studio의 왼쪽 창에서 관리>연결된 서비스를 선택합니다.

  2. +새로 만들기를 선택합니다.

    Screenshot of the Linked services screen, showing the list of existing services and highlighting the add new button.

  3. 갤러리에서 Azure Data Explorer 서비스를 선택한 다음, 계속을 선택합니다.

    Screenshot of the new Linked services pane, showing the list of available services and highlighting the add new Azure Data Explorer service.

  4. 새 연결된 서비스 페이지에서 다음 정보를 사용합니다.

    설정 제안 값 Description
    이름 contosodataexplorerlinkedservice Azure Data Explorer 연결된 서비스의 이름.
    인증 방법 관리 ID 새 서비스에 대한 인증 방법.
    계정 선택 방법 직접 입력 쿼리 엔드포인트를 지정하는 방법.
    엔드포인트 https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net 이전에 기록해둔 쿼리 엔드포인트.
    데이터베이스 TestDatabase 데이터를 수집하려는 데이터베이스.

    Screenshot of the new Linked services details pane, showing the fields that need to be completed for the new service.

  5. 연결 테스트를 선택하여 설정의 유효성을 검사한 다음, 만들기를 선택합니다.

데이터를 수집하기 위한 파이프라인 만들기

파이프라인에는 일련의 활동을 실행하기 위한 논리적 흐름이 포함됩니다. 이 섹션에서는 기본 설정 원본의 데이터를 Data Explorer 풀로 수집하는 복사 작업을 포함하는 파이프라인을 만듭니다.

  1. Synapse Studio의 왼쪽 창에서 통합을 선택합니다.

  2. +>파이프라인을 선택합니다. 오른쪽 창에서 파이프라인 이름을 지정할 수 있습니다.

    Screenshot showing the selection for creating a new pipeline.

  3. 작업>이동 및 변환에서 데이터 복사를 파이프라인 캔버스로 끕니다.

  4. 복사 작업을 선택하고 원본 탭으로 이동합니다. 데이터를 복사할 원본으로 새 원본 데이터 세트를 선택하거나 만듭니다.

  5. 싱크 탭으로 이동합니다. 새로 만들기를 선택하여 새 싱크 데이터 세트를 만듭니다.

    Screenshot of the pipeline copy activity, showing the selection for creating a new sink.

  6. 갤러리에서 Azure Data Explorer 데이터 세트를 선택한 다음, 계속을 선택합니다.

  7. 속성 설정 창에서 다음 정보를 사용한 다음, 확인을 선택합니다.

    설정 제안 값 Description
    이름 AzureDataExplorerTable 새 파이프라인의 이름입니다.
    연결된 서비스 contosodataexplorerlinkedservice 이전에 만든 연결된 서비스.
    테이블 StormEvents 이전에 만든 테이블.

    Screenshot of the pipeline copy activity set properties pane, showing the fields that need to be completed for the new sink.

  8. 파이프라인의 유효성을 검사하려면 도구 모음에서 유효성 검사를 선택합니다. 페이지의 오른쪽에 파이프라인 유효성 검사 출력의 결과가 표시됩니다.

파이프라인 디버그 및 게시

파이프라인 구성을 완료한 후에는 아티팩트를 게시하기 전에 디버그 실행을 실행하여 모든 것이 올바른지 확인할 수 있습니다.

  1. 도구 모음에서 디버그를 선택합니다. 창의 아래쪽에 있는 출력 탭에서 파이프라인 실행 상태가 표시됩니다.

  2. 파이프라인이 성공적으로 실행되면 위쪽 도구 모음에서 모두 게시를 선택합니다. 이 작업은 사용자가 만든 엔터티(데이터 세트 및 파이프라인)를 Synapse Analytics 서비스에 게시합니다.

  3. 게시됨 메시지가 표시될 때까지 기다립니다. 알림 메시지를 보려면 오른쪽 위에 있는 종 모양 단추를 선택합니다.

파이프라인 트리거 및 모니터링

이 섹션에서는 이전 단계에서 게시한 파이프라인을 수동으로 트리거합니다.

  1. 도구 모음에서 트리거 추가를 선택한 다음, 지금 트리거를 선택합니다. 파이프라인 실행 페이지에서 확인을 선택합니다.

  2. 왼쪽 사이드바에 있는 모니터 탭으로 이동합니다. 수동 트리거로 트리거되는 파이프라인 실행이 표시됩니다.

  3. 파이프라인 실행이 성공적으로 완료되면 파이프라인 이름 열 아래의 링크를 선택하여 작업 실행 세부 정보를 보거나 파이프라인을 다시 실행합니다. 이 예제에서는 활동이 하나뿐이므로 목록에 하나의 항목만 표시됩니다.

  4. 복사 작업에 대한 자세한 내용을 보려면 작업 이름 열 아래의 세부 정보 링크(안경 아이콘)를 선택합니다. 원본에서 싱크로 복사된 데이터 양, 데이터 처리량, 해당 기간의 실행 단계 및 사용된 구성과 같은 세부 정보를 모니터링할 수 있습니다.

  5. 파이프라인 실행 보기로 다시 전환하려면 위쪽에서 모든 파이프라인 실행 링크를 선택합니다. 새로 고침을 선택하여 목록을 새로 고칩니다.

  6. 데이터가 Data Explorer 풀에 올바르게 작성되었는지 확인합니다.

다음 단계