다음을 통해 공유


Azure Data Factory로 내보낸 Dataverse 데이터 수집

Azure Synapse Link for Dataverse를 사용하여 Microsoft Dataverse에서 Azure Data Lake Storage Gen2로 데이터를 내보낸 후 Azure Data Factory를 사용하여 데이터 흐름을 만들고, 데이터를 변환하고, 분석을 실행할 수 있습니다.

참고

Azure Synapse Link for Dataverse는 이전에 데이터 레이크로 내보내기로 알려졌습니다. 이 서비스는 2021년 5월부터 이름이 변경되었으며 Azure Data Lake 및 Azure Synapse Analytics로 계속 데이터를 내보낼 예정입니다.

이 문서에서는 다음 작업을 수행하는 방법을 보여줍니다.

  1. Dataverse 데이터를 Data Factory 데이터 흐름의 원본으로 하여 Data Lake Storage Gen2 스토리지 계정을 설정합니다.

  2. 데이터 흐름을 사용하여 Data Factory의 Dataverse 데이터를 변환합니다.

  3. Dataverse 데이터를 Data Factory 데이터 흐름의 싱크로 하여 Data Lake Storage Gen2 스토리지 계정을 설정합니다.

  4. 파이프라인을 생성하여 데이터 흐름을 실행합니다.

필수 구성 요소

이 섹션에서는 Data Factory로 내보낸 Dataverse 데이터를 수집하는 데 필요한 전제 조건을 설명합니다.

  • Azure 역할. Azure에 로그인하는 데 사용되는 사용자 계정은 기여자 또는 소유자의 구성원이거나 Azure 구독의 관리자여야 합니다. 구독에 있는 권한을 보려면 Azure 포털로 이동하고, 오른쪽 상단에서 사용자 이름을 선택하고, ... 기호를 선택한 다음 내 권한을 선택합니다. 여러 개의 구독에 액세스하는 경우 적절한 구독을 선택합니다. 데이터 세트, 연결된 서비스, 파이프라인, 트리거 및 통합 런타임을 포함한 Azure Portal의 Data Factory에 대한 하위 리소스를 생성 및 관리하려면 리소스 그룹 수준 이상에서 Data Factory 기여자 역할에 속해야 합니다.——

  • Azure Synapse Link for Dataverse. 이 가이드에서는 Azure Synapse Link for Dataverse를 사용하여 Dataverse 데이터를 이미 내보냈다고 가정합니다. 이 예에서 계정 테이블 데이터는 데이터 레이크로 내보내집니다.

  • Azure Data Factory. 이 가이드에서는 내보낸 Dataverse 데이터가 포함된 스토리지 계정과 동일한 구독 및 리소스 그룹에서 데이터 팩터리를 이미 만들었다고 가정합니다.

Data Lake Storage Gen2 스토리지 계정을 원본으로 설정

  1. Azure Data Factory를 열고 내보낸 Dataverse 데이터가 포함된 스토리지 계정과 동일한 구독 및 리소스 그룹에 있는 데이터 팩터리를 선택합니다. 그런 다음 홈 페이지에서 데이터 흐름 만들기를 선택합니다.

  2. 데이터 흐름 디버그 모드를 켜고 원하는 게시 시간을 선택합니다. 최대 10분이 소요될 수 있지만 다음 단계를 진행할 수 있습니다.

    데이터 흐름 디버그 모드.

  3. 원본 추가를 선택합니다.

    원본 추가.

  4. 원본 설정에서 다음 작업을 수행합니다.

    • 출력 스트림 이름: 원하는 이름을 입력합니다.
    • 소스 종류: 인라인을 선택합니다.
    • 인라인 데이터 세트 유형: Common Data Model을 선택합니다.
    • 연결된 서비스: 드롭다운 메뉴에서 스토리지 계정을 선택한 다음 구독 세부 정보를 입력하고 모든 기본 구성을 그대로 두어 새 서비스를 연결합니다.
    • 샘플링: 모든 데이터를 사용하려면 비활성화를 선택합니다.
  5. 원본 옵션에서 다음 작업을 수행합니다.

    • 메타데이터 형식: Model.json을 선택합니다.

    • 루트 위치: 첫 번째 상자(컨테이너)에 컨테이너 이름을 입력하거나 컨테이너 이름을 검색하고 확인을 선택합니다.

    • 엔터티: 테이블 이름을 입력하거나 테이블을 검색합니다.

      원본 옵션.

  6. 프로젝션 탭에서 스키마를 성공적으로 가져왔는지 확인합니다. 열이 표시되지 않으면 스키마 옵션을 선택하고 이동한 열 유형 추론 옵션을 선택합니다. 데이터 집합과 일치하도록 형식 지정 옵션을 구성한 다음 적용을 선택합니다.

  7. 데이터 미리 보기 탭의 데이터를 보고 원본 생성이 완료되었으며 정확한지 확인합니다.

Dataverse 데이터 변환

Azure Data Lake Storage Gen2 계정에서 내보낸 Dataverse 데이터를 Data Factory 데이터 흐름의 원본으로 설정한 후 데이터를 변환할 수 있는 많은 가능성이 있습니다. 추가 정보: Azure Data Factory

다음 지침에 따라 거래처 테이블의 수익 필드를 기준으로 각 행의 순위를 지정합니다.

  1. 이전 변환의 오른쪽 하단에서 + 를 선택한 다음 순위를 검색하여 선택합니다.

  2. 순위 설정 탭에서 다음을 수행합니다.

    • 출력 스트림 이름: 원하는 이름을 입력합니다(예: 순위1).

    • 수신 스트림: 원하는 원본 이름을 선택합니다. 여기에서는 이전 단계의 원본 이름입니다.

    • 옵션: 옵션을 선택하지 않은 상태로 둡니다.

    • 순위 열: 생성된 순위 열의 이름을 입력합니다.

    • 정렬 조건: 수익 열을 선택하고 내림차순으로 정렬합니다.

      순위 설정 탭 구성

  3. 데이터 미리 보기의 데이터를 보면 맨 오른쪽에 새로운 revenueRank 열이 있는 걸 볼 수 있습니다.

Data Lake Storage Gen2 스토리지 계정을 싱크로 설정

최종적으로 데이터 흐름에 대한 싱크를 설정해야 합니다. 다음 지침에 따라 변환된 데이터를 Data Lake에 구분된 텍스트 파일로 배치합니다.

  1. 이전 변환의 오른쪽 하단에서 + 를 선택한 다음 싱크를 검색하여 선택합니다.

  2. 싱크 탭에서 다음 작업을 수행합니다.

    • 출력 스트림 이름: Sink1과 같이 원하는 이름을 입력합니다.

    • 수신 스트림: 원하는 원본 이름을 선택합니다. 여기에서는 이전 단계의 원본 이름입니다.

    • 싱크 유형: DelimitedText를 선택합니다.

    • 연결된 서비스: Azure Synapse Link for Dataverse를 사용하여 내보낸 데이터가 있는 Data Lake Storage Gen2 스토리지 컨테이너를 선택합니다.

      싱크 탭 구성

  3. 설정 탭에서 다음을 수행합니다.

    • 폴더 경로: 첫 번째 상자(파일 시스템)에 컨테이너 이름을 입력하거나 컨테이너 이름을 검색하고 확인을 선택합니다.

    • 파일 이름 옵션: 단일 파일로 출력을 선택합니다.

    • 단일 파일로 출력: 파일 이름을 입력합니다(예: ADFOutput).

    • 다른 모든 기본 설정은 그대로 둡니다.

      싱크 설정 탭 구성

  4. 최적화 탭에서 파티션 옵션단일 파티션으로 설정합니다.

  5. 데이터 미리 보기 탭에서 데이터를 볼 수 있습니다.

데이터 흐름 실행

  1. Factory 리소스의 왼쪽 창에서 + 기호를 선택한 다음 파이프라인을 선택합니다.

    새 파이프라인 만들기.

  2. 활동에서 이동 및 변환을 선택한 데이터 흐름을 작업 영역에 끌어다 놓습니다.

  3. 기존 데이터 흐름 사용을 선택한 다음 이전 단계에서 만든 데이터 흐름을 선택합니다.

  4. 명령 모음에서 디버그를 선택합니다.

  5. 하단 보기에 완료가 표시될 때까지 데이터 흐름을 실행합니다. 이는 몇 분 정도가 소요됩니다.

  6. 최종 대상 스토리지 컨테이너로 이동하여 변환된 테이블 데이터 파일을 찾습니다.

참조

Azure Data Lake로 Azure Synapse Link for Dataverse 구성

Power BI로 Azure Data Lake Storage Gen2의 Dataverse 데이터 분석

참고

귀사의 설명서 언어 기본 설정에 대해 말씀해 주시겠습니까? 간단한 설문 조사에 응해주세요. (이 설문 조사는 영어로 되어 있습니다.)

이 설문 조사는 약 7분 정도 걸립니다. 개인 데이터는 수집되지 않습니다(개인정보처리방침).