빠른 시작: PowerShell을 사용하여 Azure Data Factory 만들기
적용 대상: Azure Data Factory Azure Synapse Analytics
팁
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
이 빠른 시작에서는 PowerShell을 사용하여 Azure Data Factory를 만드는 방법을 설명합니다. 이 데이터 팩터리에서 만든 파이프라인은 Azure Blob Storage의 한 폴더에서 다른 폴더로 데이터를 복사합니다. Azure Data Factory를 사용하여 데이터를 변환하는 방법에 대한 자습서는 자습서: Apache Spark를 사용하여 데이터 변환을 참조하세요.
참고 항목
이 문서는 Data Factory 서비스의 자세한 소개를 제공하지 않습니다. Azure Data Factory 서비스 소개는 Azure Data Factory 소개를 참조하세요.
필수 조건
Azure 구독
Azure 구독이 없는 경우 시작하기 전에 체험 계정을 만듭니다.
Azure 역할
데이터 팩터리 인스턴스를 만들려면 Azure에 로그인하는 데 사용할 사용자 계정이 참여자 또는 소유자 역할의 구성원이거나, Azure 구독의 관리자여야 합니다. 구독에 있는 권한을 보려면 Azure portal로 이동하고, 오른쪽 위 모서리에 있는 사용자 이름을 선택하고, 추가 옵션에 대한 "..." 아이콘을 선택한 다음, 내 권한을 선택합니다. 여러 구독에 액세스할 수 있는 경우 적절한 구독을 선택합니다.
데이터 세트, 연결된 서비스, 파이프라인, 트리거 및 통합 런타임을 포함하여 Data Factory에 대한 자식 리소스를 만들고 관리하려면 다음 요구 사항을 적용해야 합니다.
- Azure Portal에서 자식 리소스를 만들고 관리하려면 리소스 그룹 수준 이상의 Data Factory 기여자 역할에 속해야 합니다.
- PowerShell 또는 SDK를 사용하여 자식 리소스를 만들고 관리하려면 리소스 수준 이상의 기여자 역할만으로도 충분합니다.
사용자를 역할에 추가하는 방법에 대한 지침 샘플은 역할 추가 문서를 참조하세요.
자세한 내용은 다음 문서를 참조하세요.
Azure Storage 계정
이 빠른 시작에서는 범용 Azure Storage 계정(특히 Blob 스토리지)을 원본 및 대상 데이터 저장소로 사용합니다. 범용 Azure Storage 계정이 없는 경우 스토리지 계정 만들기를 참조하여 새로 만듭니다.
스토리지 계정 이름 가져오기
이 빠른 시작에서는 Azure Storage 계정의 이름이 필요합니다. 다음 프로시저에서는 스토리지 계정 이름을 가져오는 단계를 제공합니다.
- 웹 브라우저에서 Azure Portal로 이동하고 Azure 사용자 이름 및 암호를 사용하여 로그인합니다.
- Azure Portal 메뉴에서 모든 서비스를 선택한 다음, 스토리지>스토리지 계정을 선택합니다. 모든 페이지에서 스토리지 계정을 검색하여 선택할 수도 있습니다.
- 스토리지 계정 페이지에서 스토리지 계정(필요한 경우)을 필터링한 다음, 사용자의 스토리지 계정을 선택합니다.
모든 페이지에서 스토리지 계정을 검색하여 선택할 수도 있습니다.
Blob 컨테이너 만들기
이 섹션에서는 Azure Blob Storage에 adftutorial이라는 Blob 컨테이너를 만듭니다.
스토리지 계정 페이지에서 개요>컨테이너를 선택합니다.
<계정 이름> - 컨테이너 페이지의 도구 모음에서 컨테이너를 선택합니다.
새 컨테이너 대화 상자에서 adftutorial을 이름으로 입력한 다음 확인을 선택합니다. <계정 이름> - 컨테이너 페이지가 컨테이너 목록에 adftutorial을 포함하도록 업데이트됩니다.
Blob 컨테이너에 대한 입력 폴더 및 파일 추가
이 섹션에서는 방금 만든 컨테이너에 입력이라는 폴더를 만든 다음, 입력 폴더에 샘플 파일을 업로드합니다. 시작하기 전에 메모장과 같은 텍스트 편집기를 열고 다음 내용을 사용하여 emp.txt라는 파일을 만듭니다.
John, Doe
Jane, Doe
C:\ADFv2QuickStartPSH 폴더에 이 파일을 저장합니다. 이 폴더가 아직 없으면 만듭니다. 그런 후 Azure Portal로 돌아가 다음 단계를 따릅니다.
작업을 중단했던 <계정 이름> - 컨테이너 페이지의 업데이트된 컨테이너 목록에서 adftutorial을 선택합니다.
- 창을 닫거나 다른 페이지로 이동한 경우 Azure Portal에 다시 로그인합니다.
- Azure Portal 메뉴에서 모든 서비스를 선택한 다음, 스토리지>스토리지 계정을 선택합니다. 모든 페이지에서 스토리지 계정을 검색하여 선택할 수도 있습니다.
- 스토리지 계정을 선택한 다음, 컨테이너>adftutorial을 선택합니다.
adftutorial 컨테이너 페이지의 도구 모음에서 업로드를 선택합니다.
Blob 업로드 페이지에서 파일 상자를 선택한 다음, emp.txt 파일을 선택합니다.
고급 제목을 펼칩니다. 이제 페이지가 다음과 같이 표시됩니다.
폴더에 업로드 상자에서 입력을 입력합니다.
업로드 버튼을 선택합니다. 목록에서 emp.txt 파일 및 업로드 상태를 참조하세요.
닫기 아이콘(X)을 선택하여 Blob 업로드 페이지를 닫습니다.
adftutorial 컨테이너 페이지를 열린 상태로 둡니다. 이 빠른 시작의 끝부분에서 출력을 확인하는 데 사용합니다.
Azure PowerShell
참고 항목
Azure Az PowerShell 모듈을 사용하여 Azure와 상호 작용하는 것이 좋습니다. 시작하려면 Azure PowerShell 설치를 참조하세요. Az PowerShell 모듈로 마이그레이션하는 방법에 대한 자세한 내용은 Azure PowerShell을 AzureRM에서 Azure로 마이그레이션을 참조하세요.
Azure PowerShell을 설치 및 구성하는 방법의 지침에 따라 최신 Azure PowerShell 모듈을 설치합니다.
Warning
최신 버전의 PowerShell 및 Data Factory 모듈을 사용하지 않는 경우 명령을 실행하는 동안 역직렬화 오류가 발생할 수 있습니다.
PowerShell에 로그인
컴퓨터에서 PowerShell을 시작합니다. 이 빠른 시작을 완료할 때까지 PowerShell을 열어 둡니다. 닫은 후 다시 여는 경우 이러한 명령을 다시 실행해야 합니다.
다음 명령을 실행하고 Azure Portal에 로그인하는 데 사용할 동일한 Azure사용자 이름 및 암호를 입력합니다.
Connect-AzAccount
다음 명령을 실행하여 이 계정의 모든 구독을 확인합니다.
Get-AzSubscription
계정과 연결된 구독이 여러 개인 경우 다음 명령을 실행하여 사용하려는 구독을 선택합니다. SubscriptionId를 Azure 구독의 ID로 바꿉니다.
Select-AzSubscription -SubscriptionId "<SubscriptionId>"
데이터 팩터리 만들기
나중에 PowerShell 명령에서 사용할 리소스 그룹 이름에 대한 변수를 정의합니다. PowerShell에 다음 명령 텍스트를 복사하고, 큰따옴표에 있는 Azure 리소스 그룹의 이름을 지정하고, 명령을 실행합니다. 예:
"ADFQuickStartRG"
$resourceGroupName = "ADFQuickStartRG";
리소스 그룹이 이미 있는 경우 덮어쓰지 않는 것이 좋습니다.
$ResourceGroupName
변수에 다른 값을 할당하고 명령을 다시 시도하세요.새 리소스 그룹을 만들려면 다음 명령을 실행합니다.
$ResGrp = New-AzResourceGroup $resourceGroupName -location 'East US'
리소스 그룹이 이미 있는 경우 덮어쓰지 않는 것이 좋습니다.
$ResourceGroupName
변수에 다른 값을 할당하고 명령을 다시 시도하세요.데이터 팩터리 이름에 대한 변수를 정의합니다.
Important
데이터 팩터리 이름을 전역적으로 고유한 이름으로 업데이트합니다. 예를 들어 ADFTutorialFactorySP1127이라는 이름을 사용합니다.
$dataFactoryName = "ADFQuickStartFactory";
데이터 팩터리를 만들려면 $ResGrp 변수의 Location 및 ResourceGroupName 속성을 사용하여 다음 Set-AzDataFactoryV2 cmdlet을 실행합니다.
$DataFactory = Set-AzDataFactoryV2 -ResourceGroupName $ResGrp.ResourceGroupName ` -Location $ResGrp.Location -Name $dataFactoryName
다음 사항에 유의하세요.
Azure Data Factory 이름은 전역적으로 고유해야 합니다. 다음 오류가 표시되면 이름을 변경하고 다시 시도하세요.
The specified Data Factory name 'ADFv2QuickStartDataFactory' is already in use. Data Factory names must be globally unique.
Data Factory 인스턴스를 만들려면 Azure에 로그인하는 데 사용할 사용자 계정은 참여자 또는 소유자 역할의 구성원이거나, 또는 Azure 구독의 관리자이어야 합니다.
Data Factory를 현재 사용할 수 있는 Azure 지역 목록을 보려면 다음 페이지에서 관심 있는 지역을 선택한 다음, Analytics를 펼쳐서 Data Factory: 지역별 사용 가능한 제품을 찾습니다. 데이터 팩터리에서 사용되는 데이터 저장소(Azure Storage, Azure SQL Database 등) 및 계산(HDInsight 등)은 다른 지역에 있을 수 있습니다.
연결된 서비스 만들기
데이터 팩터리에서 연결된 서비스를 만들어 데이터 저장소 및 컴퓨팅 서비스를 데이터 팩터리에 연결합니다. 이 빠른 시작에서 원본 및 싱크 저장소로 사용되는 Azure Storage 연결된 서비스를 만듭니다. 연결된 서비스에는 Data Factory 서비스가 런타임에 연결하는 데 사용하는 연결 정보가 있습니다.
팁
이 빠른 시작에서는 계정 키를 데이터 저장소의 인증 형식으로 사용하지만 지원되는 다른 인증 방법을 선택할 수 있습니다. 필요한 경우 SAS URI, 서비스 주체 및 관리 ID를 선택합니다. 자세한 내용은 이 문서의 해당 섹션을 참조하세요. 데이터 저장소에 대한 비밀을 안전하게 저장하려면 Azure Key Vault를 사용하는 것도 좋습니다. 자세한 그림은 이 문서를 참조하세요.
다음 콘텐츠가 포함된 AzureStorageLinkedService.json이라는 JSON 파일을 C:\ADFv2QuickStartPSH 폴더에 만듭니다. (없는 경우 ADFv2QuickStartPSH 폴더를 만듭니다.)
Important
파일을 저장하기 전에 <accountName>과 <accountKey>를 Azure Storage 계정의 이름과 키로 바꿉니다.
{ "name": "AzureStorageLinkedService", "properties": { "annotations": [], "type": "AzureBlobStorage", "typeProperties": { "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountName>;AccountKey=<accountKey>;EndpointSuffix=core.windows.net" } } }
메모장을 사용하는 경우 다른 이름으로 저장 대화 상자의 파일 형식 필드에서 모든 파일을 선택합니다. 선택하지 않으면 파일에
.txt
확장이 추가됩니다. 예:AzureStorageLinkedService.json.txt
. 메모장에서 파일을 열기 전에 파일 탐색기에서 파일을 만들면 알려진 파일 형식의 확장명 숨기기 옵션이 기본적으로 설정되어.txt
확장이 보이지 않을 수 있습니다..txt
확장을 제거한 후 다음 단계로 넘어갑니다.PowerShell에서 ADFv2QuickStartPSH 폴더로 전환합니다.
Set-Location 'C:\ADFv2QuickStartPSH'
Set-AzDataFactoryV2LinkedService cmdlet을 실행하여 AzureStorageLinkedService라는 연결된 서비스를 만듭니다.
Set-AzDataFactoryV2LinkedService -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "AzureStorageLinkedService" ` -DefinitionFile ".\AzureStorageLinkedService.json"
샘플 출력은 다음과 같습니다.
LinkedServiceName : AzureStorageLinkedService ResourceGroupName : <resourceGroupName> DataFactoryName : <dataFactoryName> Properties : Microsoft.Azure.Management.DataFactory.Models.AzureBlobStorageLinkedService
데이터 세트 만들기
이 절차에서는 InputDataset 및 OutputDataset라는 두 개의 데이터 세트를 만듭니다. 이러한 데이터 세트는 Binary 유형입니다. 이 데이터 집합은 이전 섹션에서 만든 Azure Storage 연결된 서비스를 참조합니다. 입력 데이터 세트는 입력 폴더의 원본 데이터를 나타냅니다. 입력 데이터 세트 정의에서 원본 데이터가 포함된 Blob 컨테이너(adftutorial), 폴더(input) 및 파일(emp.txt)을 지정합니다. 출력 데이터 세트는 대상에 복사되는 데이터를 나타냅니다. 출력 데이터 세트 정의에서 Blob 컨테이너(adftutorial), 폴더(output) 및 데이터가 복사될 파일을 지정합니다.
다음 콘텐츠가 포함된 InputDataset.json이라는 JSON 파일을 C:\ADFv2QuickStartPSH 폴더에 만듭니다.
{ "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "fileName": "emp.txt", "folderPath": "input", "container": "adftutorial" } } } }
데이터 세트: InputDataset를 만들려면: Set-AzDataFactoryV2Dataset cmdlet을 실행하여 SinkDataset 데이터 세트를 만듭니다.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" ` -DefinitionFile ".\InputDataset.json"
샘플 출력은 다음과 같습니다.
DatasetName : InputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
단계를 반복하여 출력 데이터 세트를 생성합니다. 다음 콘텐츠가 포함된 OutputDataset.json이라는 JSON 파일을 C:\ADFv2QuickStartPSH 폴더에 만듭니다.
{ "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "folderPath": "output", "container": "adftutorial" } } } }
Set-AzDataFactoryV2Dataset cmdlet을 실행하여 OutDataset를 만듭니다.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" ` -DefinitionFile ".\OutputDataset.json"
샘플 출력은 다음과 같습니다.
DatasetName : OutputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
파이프라인을 만듭니다.
이 절차에서는 입력 및 출력 데이터 세트를 사용하는 복사 작업이 포함된 파이프라인을 만듭니다. 복사 작업은 입력 데이터 세트 설정에 지정된 파일의 데이터를 출력 데이터 세트 설정에 지정된 파일로 복사합니다.
다음 콘텐츠가 포함된 Adfv2QuickStartPipeline.json이라는 JSON 파일을 C:\ADFv2QuickStartPSH 폴더에 만듭니다.
{ "name": "Adfv2QuickStartPipeline", "properties": { "activities": [ { "name": "CopyFromBlobToBlob", "type": "Copy", "dependsOn": [], "policy": { "timeout": "7.00:00:00", "retry": 0, "retryIntervalInSeconds": 30, "secureOutput": false, "secureInput": false }, "userProperties": [], "typeProperties": { "source": { "type": "BinarySource", "storeSettings": { "type": "AzureBlobStorageReadSettings", "recursive": true } }, "sink": { "type": "BinarySink", "storeSettings": { "type": "AzureBlobStorageWriteSettings" } }, "enableStaging": false }, "inputs": [ { "referenceName": "InputDataset", "type": "DatasetReference" } ], "outputs": [ { "referenceName": "OutputDataset", "type": "DatasetReference" } ] } ], "annotations": [] } }
파이프라인 Adfv2QuickStartPipeline을 만들려면 Set-AzDataFactoryV2Pipeline cmdlet을 실행합니다.
$DFPipeLine = Set-AzDataFactoryV2Pipeline ` -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName ` -Name "Adfv2QuickStartPipeline" ` -DefinitionFile ".\Adfv2QuickStartPipeline.json"
파이프라인 실행 만들기
이 단계에서는 파이프라인 실행을 만듭니다.
Invoke-AzDataFactoryV2Pipeline cmdlet을 실행하여 파이프라인 실행을 만듭니다. Cmdlet은 향후 모니터링을 위해 파이프라인 실행 ID를 캡처합니다.
$RunId = Invoke-AzDataFactoryV2Pipeline `
-DataFactoryName $DataFactory.DataFactoryName `
-ResourceGroupName $ResGrp.ResourceGroupName `
-PipelineName $DFPipeLine.Name
파이프라인 실행 모니터링
다음 PowerShell 스크립트를 실행하여 데이터 복사가 완료될 때까지 지속적으로 파이프라인 실행 상태를 검사합니다. PowerShell 창에서 다음 스크립트를 복사/붙여넣기하고 ENTER 키를 누릅니다.
while ($True) { $Run = Get-AzDataFactoryV2PipelineRun ` -ResourceGroupName $ResGrp.ResourceGroupName ` -DataFactoryName $DataFactory.DataFactoryName ` -PipelineRunId $RunId if ($Run) { if ( ($Run.Status -ne "InProgress") -and ($Run.Status -ne "Queued") ) { Write-Output ("Pipeline run finished. The status is: " + $Run.Status) $Run break } Write-Output ("Pipeline is running...status: " + $Run.Status) } Start-Sleep -Seconds 10 }
파이프라인 실행의 샘플 출력은 다음과 같습니다.
Pipeline is running...status: InProgress Pipeline run finished. The status is: Succeeded ResourceGroupName : ADFQuickStartRG DataFactoryName : ADFQuickStartFactory RunId : 00000000-0000-0000-0000-0000000000000 PipelineName : Adfv2QuickStartPipeline LastUpdated : 8/27/2019 7:23:07 AM Parameters : {} RunStart : 8/27/2019 7:22:56 AM RunEnd : 8/27/2019 7:23:07 AM DurationInMs : 11324 Status : Succeeded Message :
복사 활동 실행 세부 정보(예: 읽고/쓴 데이터의 크기)를 검색하는 다음 스크립트를 실행합니다.
Write-Output "Activity run details:" $Result = Get-AzDataFactoryV2ActivityRun -DataFactoryName $DataFactory.DataFactoryName -ResourceGroupName $ResGrp.ResourceGroupName -PipelineRunId $RunId -RunStartedAfter (Get-Date).AddMinutes(-30) -RunStartedBefore (Get-Date).AddMinutes(30) $Result Write-Output "Activity 'Output' section:" $Result.Output -join "`r`n" Write-Output "Activity 'Error' section:" $Result.Error -join "`r`n"
활동 실행 결과의 다음 샘플 출력과 유사한 출력이 표시되는지 확인합니다.
ResourceGroupName : ADFQuickStartRG DataFactoryName : ADFQuickStartFactory ActivityRunId : 00000000-0000-0000-0000-000000000000 ActivityName : CopyFromBlobToBlob PipelineRunId : 00000000-0000-0000-0000-000000000000 PipelineName : Adfv2QuickStartPipeline Input : {source, sink, enableStaging} Output : {dataRead, dataWritten, filesRead, filesWritten...} LinkedServiceName : ActivityRunStart : 8/27/2019 7:22:58 AM ActivityRunEnd : 8/27/2019 7:23:05 AM DurationInMs : 6828 Status : Succeeded Error : {errorCode, message, failureType, target} Activity 'Output' section: "dataRead": 20 "dataWritten": 20 "filesRead": 1 "filesWritten": 1 "sourcePeakConnections": 1 "sinkPeakConnections": 1 "copyDuration": 4 "throughput": 0.01 "errors": [] "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (Central US)" "usedDataIntegrationUnits": 4 "usedParallelCopies": 1 "executionDetails": [ { "source": { "type": "AzureBlobStorage" }, "sink": { "type": "AzureBlobStorage" }, "status": "Succeeded", "start": "2019-08-27T07:22:59.1045645Z", "duration": 4, "usedDataIntegrationUnits": 4, "usedParallelCopies": 1, "detailedDurations": { "queuingDuration": 3, "transferDuration": 1 } } ] Activity 'Error' section: "errorCode": "" "message": "" "failureType": "" "target": "CopyFromBlobToBlob"
배포된 리소스 검토
파이프라인은 자동으로 adftutorial Blob 컨테이너에서 출력 폴더를 만듭니다. 그런 다음 입력 폴더에서 출력 폴더로 emp.txt 파일을 복사합니다.
Azure Portal의 adftutorial 컨테이너 페이지에서 새로 고침을 선택하여 출력 폴더를 확인합니다.
폴더 목록에서 출력을 선택합니다.
emp.txt가 출력 폴더에 복사되었는지 확인합니다.
리소스 정리
빠른 시작에서 만든 리소스는 두 가지 방법으로 정리할 수 있습니다. 리소스 그룹의 모든 리소스를 포함하고 있는 Azure 리소스 그룹을 삭제할 수 있습니다. 다른 리소스를 그대로 유지하려면 이 자습서에서 만든 데이터 팩터리만 삭제합니다.
리소스 그룹을 삭제하면 그 안에 포함된 데이터 팩터리를 포함한 모든 리소스가 삭제됩니다. 다음 명령을 실행하여 전체 리소스 그룹을 삭제합니다.
Remove-AzResourceGroup -ResourceGroupName $resourcegroupname
참고 항목
리소스 그룹 삭제하는 데 약간의 시간이 걸릴 수 있습니다. 프로세스에 대해 조금 기다려 주십시오
전체 리소스 그룹이 아니라 데이터 팩터리만 삭제하려면 다음 명령을 실행 합니다.
Remove-AzDataFactoryV2 -Name $dataFactoryName -ResourceGroupName $resourceGroupName
관련 콘텐츠
이 샘플의 파이프라인은 Azure Blob Storage의 한 위치에서 다른 위치로 데이터를 복사합니다. 자습서를 통해 더 많은 시나리오에서의 데이터 팩터리 사용에 관해 알아보세요.