다음을 통해 공유


빠른 시작: 데이터를 가져와 변환하는 첫 번째 데이터 흐름 만들기

데이터 흐름은 셀프 서비스, 클라우드 기반 데이터 준비 기술입니다. 이 문서에서는 첫 번째 데이터 흐름을 만들고, 데이터 흐름에 대한 데이터를 가져온 다음, 데이터를 변환하고, 데이터 흐름을 게시합니다.

필수 조건

시작하기 전에 다음 필수 조건이 필요합니다.

데이터 흐름 만들기

이 섹션에서는 첫 번째 데이터 흐름을 만듭니다.

  1. 데이터 팩터리 환경으로 전환합니다.

  2. 작업 영역에서 Microsoft Fabric으로 이동합니다.

    작업 영역으로 이동하는 작업 영역 창의 스크린샷

  3. 새로 만들기를 선택한 다음, Dataflow Gen2를 선택합니다.

    Dataflow Gen2 선택 영역이 강조 표시된 스크린샷

데이터 가져오기

몇 가지 데이터를 가져와 보겠습니다! 이 예제에서는 OData 서비스에서 데이터를 가져옵니다. 데이터 흐름에서 데이터를 가져오려면 다음 단계를 따르세요.

  1. 데이터 흐름 편집기에서 데이터 가져오기를 선택한 다음, 자세히를 선택합니다.

    드롭다운 상자에서 데이터 가져오기 옵션이 선택되고 더 강조 표시된 스크린샷

  2. 데이터 원본 선택에서 자세히 보기를 선택합니다.

    보기가 더 강조 표시된 데이터 원본 가져오기의 스크린샷

  3. 새 원본에서 다른>OData를 데이터 원본으로 선택합니다.

    기타 카테고리와 OData 커넥터가 강조 표시된 데이터 원본 가져오기 스크린샷.

  4. URL https://services.odata.org/v4/northwind/northwind.svc/를 입력한 후 다음을 선택합니다.

    데이터 URL을 입력하는 OData 데이터 원본의 스크린샷

  5. OrdersCustomers 테이블을 선택한 다음, 만들기를 선택합니다.

    고객 및 주문 테이블이 강조 표시된 파워 쿼리 탐색기의 스크린샷

데이터 가져오기 개요에서 데이터 가져오기 환경 및 기능에 대해 자세히 알아볼 수 있습니다.

변환 적용 및 게시

이제 데이터를 첫 번째 데이터 흐름에 로드했습니다. 축하합니다! 이제 이 데이터를 원하는 셰이프로 가져오기 위해 몇 가지 변환을 적용해야 합니다.

파워 쿼리 편집기에서 이 작업을 수행합니다. 파워 쿼리 사용자 인터페이스에서 파워 쿼리 편집기의 자세한 개요를 찾을 수 있습니다.

다음 단계에 따라 변환을 적용하고 게시합니다.

  1. > 옵션 > 전역 옵션으로 이동하여 데이터 프로파일링 도구를 사용하도록 설정했는지 확인합니다.

    열 프로필 선택 영역이 강조 표시된 전역 옵션의 스크린샷

    또한 파워 쿼리 편집기 리본의 보기 탭 아래 옵션을 사용하거나 파워 쿼리 창의 오른쪽 아래에 있는 다이어그램 보기 아이콘을 선택하여 다이어그램 보기를 사용하도록 설정 했는지 확인합니다.

    파워 쿼리 다이어그램 보기의 전체 모양 스크린샷.

  2. Orders 테이블 내에서 고객당 총 주문 수를 계산합니다. 이 목표를 달성하려면 데이터 미리 보기에서 CustomerID 열을 선택한 다음 리본 메뉴의 변환 탭 아래에서 Group By을 선택합니다.

    선택한 Orders 테이블과 변환 탭에서 강조 표시된 그룹화 방법을 보여 주는 스크린샷.

  3. Group By 내에서 집계로 행 수를 수행합니다. 행 그룹화 또는 요약에서 Group By 기능에 대해 자세히 알아볼 수 있습니다.

    행 개수 작업이 선택된 그룹화 기준 스크린샷

  4. Orders 테이블에서 데이터를 그룹화한 후 CustomerIDCount를 열로 사용하여 2열 테이블을 가져옵니다.

    두 열 테이블의 스크린샷

  5. 다음으로 고객 테이블의 데이터를 고객당 주문 수와 결합하려고 합니다. 데이터를 결합하려면 다이어그램 뷰에서 고객 쿼리를 선택하고 "⋮" 메뉴를 사용하여 병합 쿼리에 새로운 변환으로 액세스합니다.

    고객 테이블 및 병합 쿼리의 세로 줄임표가 새로 강조된 데이터 흐름 편집기의 스크린샷

  6. 다음 스크린샷과 같이 두 테이블에서 일치하는 열로 CustomerID를 선택하여 병합 작업을 구성합니다. 그런 다음, 확인을 선택합니다.

    병합 창의 스크린샷.

    병합을 위한 왼쪽 테이블이 Customers 테이블로 설정되고 병합의 오른쪽 테이블이 Orders 테이블로 설정된 병합 창의 스크린샷 CustomerID 열은 고객 및 주문 테이블 모두에 대해 선택됩니다. 또한 조인 종류는 왼쪽 외부로 설정됩니다. 다른 모든 설정은 그들의 기본값을 유지합니다.

  7. 병합 쿼리를 새로운 작업으로 수행하면 Customers 테이블의 모든 열과 Orders 테이블의 중첩된 데이터가 있는 하나의 열이 있는 새 쿼리를 가져옵니다.

    고객 및 주문 테이블의 오른쪽에 새 병합 쿼리가 추가된 데이터 흐름 편집기의 스크린샷

  8. 이 예제에서는 Customers 테이블의 열 하위 집합에만 관심이 있습니다. 스키마 보기를 사용하여 해당 열을 선택합니다. 데이터 흐름 편집기의 오른쪽 아래 모서리에 있는 토글 단추 내에서 스키마 보기를 사용하도록 설정합니다.

    스키마 보기 단추가 오른쪽 아래 모서리에 강조 표시된 데이터 흐름 편집기의 스크린샷

  9. 스키마 뷰는 열 이름 및 데이터 형식을 포함하여 테이블의 스키마 정보에 대한 포커스가 있는 보기를 제공합니다. 스키마 보기에는 상황에 맞는 리본 탭을 통해 사용할 수 있는 스키마 도구 집합이 있습니다. 이 시나리오에서는 CustomerID, CompanyNameOrders(2) 열을 선택한 다음, 열 제거 단추를 선택한 다음 스키마 도구 탭에서 다른 열 제거를 선택합니다.

    CustomerID, CompanyName 및 Orders(2) 열이 강조 표시된 사용 가능한 모든 열 이름을 보여 주는 스키마 보기의 스크린샷

    다른 열 제거가 강조 표시된 스키마 도구 메뉴의 스크린샷

  10. Orders(2) 열에는 몇 단계 전에 수행한 병합 작업으로 인한 중첩된 정보가 포함됩니다. 이제 UI의 오른쪽 아래 모서리에 있는 스키마 보기 표시 단추 옆에 있는 데이터 보기 표시 단추를 선택하여 데이터 뷰로 다시 전환합니다. 그런 다음 Orders(2) 열 머리글에서 열 확장 변환을 사용하여 Count 열을 선택합니다.

    데이터 뷰를 사용하는 스크린샷.

  11. 최종 작업으로 주문 수에 따라 고객의 순위를 지정하려고 합니다. Count 열을 선택한 다음 리본 메뉴의 열 추가 탭에서 Rank 열 단추를 선택합니다.

    Count 열이 선택된 데이터 흐름 편집기의 스크린샷.

  12. Rank 열에 기본 설정을 유지합니다. 그런 다음 확인을 선택하여 이 변환을 적용합니다.

    모든 기본 설정이 표시된 Rank 창의 스크린샷

  13. 이제 화면 오른쪽에 있는 쿼리 설정 창을 사용하여 결과 쿼리의 이름을 순위가 매겨진 고객으로 바꿉니다.

    쿼리 설정 속성 아래에 순위가 지정된 고객 이름이 강조 표시된 데이터 흐름 편집기의 스크린샷

  14. 데이터 변환 및 결합을 완료했습니다. 따라서 이제 출력 대상 설정을 구성합니다. 쿼리 설정 창 아래쪽에서 데이터 대상 선택을 선택합니다.

    데이터 대상 선택 위치가 강조 표시된 데이터 흐름 편집기의 스크린샷.

  15. 이 단계에서는 사용 가능한 출력이 있는 경우 Lakehouse에 대한 출력을 구성하거나, 그렇지 않은 경우 이 단계를 건너뛸 수 있습니다. 이 환경 내에서 업데이트 방법(추가 또는 바꾸기) 외에도 쿼리 결과에 대한 대상 레이크하우스 및 테이블을 구성할 수 있습니다.

    Lakehouse가 선택된 데이터 대상에 연결 창의 스크린샷.

    대상 설정 선택 창의 스크린샷.

  16. 이제 데이터 흐름을 게시할 준비가 되었습니다. 다이어그램 보기에서 쿼리를 검토한 다음 게시를 선택합니다.

    오른쪽 아래에 게시 단추가 강조 표시된 데이터 흐름 편집기의 스크린샷

    이제 작업 영역으로 돌아갑니다. 데이터 흐름 이름 옆에 있는 회전자 아이콘은 게시가 진행 중임을 나타냅니다. 게시가 완료되면 데이터 흐름을 새로 고칠 준비가 된 것입니다.

    Important

    작업 영역에서 첫 번째 Dataflow Gen2를 만들면 레이크하우스 및 Warehouse 항목이 관련 SQL 분석 엔드포인트 및 의미 체계 모델과 함께 프로비전됩니다. 이러한 항목은 작업 영역의 모든 데이터 흐름에서 공유되며 Dataflow Gen2가 작동하기 위해 필요하고, 삭제해서는 안 되며 사용자가 직접 사용할 수 없습니다. 항목은 Dataflow Gen2의 구현 세부 정보입니다. 항목은 작업 영역에 표시되지 않지만 Notebook, SQL 분석 엔드포인트, Lakehouse 및 Warehouse 환경과 같은 다른 환경에서 액세스할 수 있습니다. 이름에 있는 접두사로 항목을 인식할 수 있습니다. 항목의 접두사는 'DataflowsStaging'입니다.

  17. 작업 영역에서 데이터 집합을 선택하고 일정 새로 고침 아이콘을 선택합니다.

    일정 새로 고침 아이콘이 강조 표시된 작업 영역의 스크린샷.

  18. 예약된 새로 고침을 켜고, 다른 시간 추가를 선택하고, 다음 스크린샷과 같이 새로 고침을 구성합니다.

    다른 시간을 선택하는 방법을 보여 주는 스크린샷.

    예약된 새로 고침이 켜져 있고 새로 고침 빈도가 매일로 설정되고 표준 시간대가 조정된 세계 시간으로 설정되고 시간이 오전 4:00로 설정된 예약된 새로 고침 옵션의 스크린샷 켜기 단추, 다른 시간 선택 추가, 데이터 흐름 소유자 및 적용 단추가 모두 강조되어 있습니다.

리소스 정리

이 데이터 흐름을 계속 사용하지 않을 경우 다음 단계에 따라 삭제할 수 있습니다.

  1. 작업 영역에서 Microsoft Fabric으로 이동합니다.

    작업 영역으로 이동하는 작업 영역 창의 스크린샷

  2. 데이터 흐름 이름 옆의 세로 줄임표를 선택한 다음 삭제를 선택합니다.

    세로 점 3개와 드롭다운 메뉴의 삭제 옵션이 강조 표시된 스크린샷

  3. 삭제를 선택하여 데이터 흐름의 삭제를 확인합니다.

    삭제 단추가 강조 표시된 데이터 흐름 삭제 창의 스크린샷

이 샘플의 데이터 흐름은 Dataflow Gen2에서 데이터를 로드하고 변환하는 방법을 보여 줍니다. 다음 방법에 대해 알아보았습니다.

  • 데이터 흐름 Gen2를 만듭니다.
  • 데이터를 변환합니다.
  • 변환된 데이터에 대한 대상 설정을 구성합니다.
  • 데이터 파이프라인을 실행하고 예약.

첫 번째 데이터 파이프라인을 만드는 방법을 알아보려면 다음 문서로 넘어가세요.