Python을 사용하여 Blob 다운로드

아티클
08/22/2024

이 문서에서는 Python용 Azure Storage 클라이언트 라이브러리를 사용하여 Blob을 다운로드하는 방법을 보여 줍니다. 로컬 파일 경로, 스트림 또는 텍스트 문자열을 비롯한 다양한 대상에 Blob 데이터를 다운로드할 수 있습니다. Blob 스트림을 열고 읽을 수도 있습니다.

비동기 API를 사용하여 blob을 다운로드하는 방법에 대해 알아보려면 비동기적으로 blob 다운로드를 참조하세요.

필수 조건

Azure 구독 - 체험 구독 만들기
Azure Storage 계정 - 스토리지 계정 만들기
Python 3.8+

환경 설정

기존 프로젝트가 없는 경우, 이 섹션에서는 Python Azure Blob Storage 클라이언트 라이브러리를 사용해서 작동하도록 프로젝트를 설정하는 방법을 보여 줍니다. 자세한 내용은 Azure Blob Storage 및 Python 시작을 참조하세요.

이 문서의 코드 예제를 사용하려면 다음 단계에 따라 프로젝트를 설정합니다.

패키지 설치

pip install를 사용하여 다음 패키지를 설치합니다.

pip install azure-storage-blob azure-identity

Import 문 추가

다음 import 문을 추가합니다.

import io
import os
from azure.identity import DefaultAzureCredential
from azure.storage.blob import BlobServiceClient, BlobClient

권한 부여

권한 부여 메커니즘에는 다운로드 작업을 수행하는 데 필요한 권한이 있어야 합니다. Microsoft Entra ID(권장)로 권한 부여하려면 Azure RBAC 기본 제공 역할 Storage Blob 데이터 읽기 권한자 이상이 필요합니다. 자세한 내용은 Blob 가져오기(REST API)에 대한 권한 부여 지침을 참조하세요.

클라이언트 개체 만들기

Blob Storage에 앱을 연결하려면 BlobServiceClient의 인스턴스를 만듭니다. 다음 예에서는 권한 부여를 위해 DefaultAzureCredential을 사용하여 클라이언트 개체를 만드는 방법을 설명합니다.

# TODO: Replace <storage-account-name> with your actual storage account name
account_url = "https://<storage-account-name>.blob.core.windows.net"
credential = DefaultAzureCredential()

# Create the BlobServiceClient object
blob_service_client = BlobServiceClient(account_url, credential=credential)

BlobServiceClient 개체에서 또는 직접 특정 컨테이너 또는 Blob에 대한 클라이언트 개체를 만들 수도 있습니다. 클라이언트 개체 만들기 및 관리에 대한 자세한 내용은 데이터 리소스와 상호 작용하는 클라이언트 개체 만들기 및 관리를 참조하세요.

Blob 다운로드

다음 메서드를 사용하여 Blob을 다운로드할 수 있습니다.

BlobClient.download_blob

download_blob 메서드는 StorageStreamDownloader 개체를 반환합니다. 다운로드하는 동안 클라이언트 라이브러리는 다운로드 요청을 청크로 분할하고, 각 청크는 별도의 Blob 가져오기 범위 요청과 함께 다운로드됩니다. 이 동작은 Blob의 총 크기와 데이터 전송 옵션을 설정하는 방법에 따라 달라집니다.

파일 경로에 다운로드

다음 예제에서는 파일 경로에 Blob을 다운로드합니다.

def download_blob_to_file(self, blob_service_client: BlobServiceClient, container_name):
    blob_client = blob_service_client.get_blob_client(container=container_name, blob="sample-blob.txt")
    with open(file=os.path.join(r'filepath', 'filename'), mode="wb") as sample_blob:
        download_stream = blob_client.download_blob()
        sample_blob.write(download_stream.readall())

스트림에 다운로드

다음 예제에서는 스트림에 Blob을 다운로드합니다. 이 예제에서 StorageStreamDownloader.read_into는 Blob 콘텐츠를 스트림에 다운로드하고 읽은 바이트 수를 반환합니다.

def download_blob_to_stream(self, blob_service_client: BlobServiceClient, container_name):
    blob_client = blob_service_client.get_blob_client(container=container_name, blob="sample-blob.txt")

    # readinto() downloads the blob contents to a stream and returns the number of bytes read
    stream = io.BytesIO()
    num_bytes = blob_client.download_blob().readinto(stream)
    print(f"Number of bytes: {num_bytes}")

청크로 Blob 다운로드

다음 예제에서는 Blob을 다운로드하고 다운로드 스트림의 청크를 반복합니다. 이 예제에서 StorageStreamDownloader.chunks는 청크로 Blob 콘텐츠를 읽을 수 있는 반복기를 반환합니다.

def download_blob_chunks(self, blob_service_client: BlobServiceClient, container_name):
    blob_client = blob_service_client.get_blob_client(container=container_name, blob="sample-blob.txt")

    # This returns a StorageStreamDownloader
    stream = blob_client.download_blob()
    chunk_list = []

    # Read data in chunks to avoid loading all into memory at once
    for chunk in stream.chunks():
        # Process your data (anything can be done here - 'chunk' is a byte array)
        chunk_list.append(chunk)

문자열에 다운로드

다음 예제에서는 Blob 콘텐츠를 텍스트로 다운로드합니다. 이 예제에서 encoding 매개 변수는 readall()에서 문자열을 반환하는 데 필요하고, 그렇지 않으면 바이트를 반환합니다.

def download_blob_to_string(self, blob_service_client: BlobServiceClient, container_name):
    blob_client = blob_service_client.get_blob_client(container=container_name, blob="sample-blob.txt")

    # encoding param is necessary for readall() to return str, otherwise it returns bytes
    downloader = blob_client.download_blob(max_concurrency=1, encoding='UTF-8')
    blob_text = downloader.readall()
    print(f"Blob contents: {blob_text}")

구성 옵션을 사용하여 블록 Blob 다운로드

Blob을 다운로드할 때 클라이언트 라이브러리 구성 옵션을 정의할 수 있습니다. 이러한 옵션을 조정하여 성능을 개선하고 안정성을 향상시킬 수 있습니다. 다음 코드 예제에서는 BlobClient를 인스턴스화할 때 클라이언트 수준과 메서드 수준 모두에서 다운로드에 대한 구성 옵션을 정의하는 방법을 보여 줍니다. ContainerClient 인스턴스 또는 BlobServiceClient 인스턴스에 대해서도 이러한 옵션을 구성할 수 있습니다.

다운로드할 때 데이터 전송 옵션 지정

클라이언트를 인스턴스화하여 데이터 전송 작업에 대한 성능을 최적화할 때 구성 옵션을 설정할 수 있습니다. Python에서 클라이언트 개체를 생성할 때 다음 키워드 인수를 전달할 수 있습니다.

max_chunk_get_size - Blob을 다운로드하는 데 사용되는 최대 청크 크기입니다. 기본값은 4MiB입니다.
max_single_get_size - 단일 호출에서 다운로드할 Blob의 최대 크기입니다. 총 Blob 크기가 max_single_get_size를 초과하면 Blob 데이터의 나머지가 청크로 다운로드됩니다. 기본값은 32MiB입니다.

다운로드 작업의 경우 download_blob을 호출할 때 max_concurrency 인수도 전달할 수 있습니다. 이 인수는 다운로드 작업에 대한 최대 병렬 연결 수를 정의합니다.

다음 코드 예제에서는 BlobClient 개체를 만들 때 데이터 전송 옵션을 지정하는 방법과 해당 클라이언트 개체를 사용하여 데이터를 다운로드하는 방법을 보여 줍니다. 이 샘플에 제공된 값은 권장 사항이 아닙니다. 이러한 값을 올바르게 조정하려면 앱의 특정 요구 사항을 고려해야 합니다.

def download_blob_transfer_options(self, account_url: str, container_name: str, blob_name: str):
    # Create a BlobClient object with data transfer options for download
    blob_client = BlobClient(
        account_url=account_url, 
        container_name=container_name, 
        blob_name=blob_name,
        credential=DefaultAzureCredential(),
        max_single_get_size=1024*1024*32, # 32 MiB
        max_chunk_get_size=1024*1024*4 # 4 MiB
    )

    with open(file=os.path.join(r'file_path', 'file_name'), mode="wb") as sample_blob:
        download_stream = blob_client.download_blob(max_concurrency=2)
        sample_blob.write(download_stream.readall())

비동기식으로 Blob 다운로드

Python용 Azure Blob Storage 클라이언트 라이브러리는 Blob의 비동기 다운로드를 지원합니다. 프로젝트 설정 요구 사항에 대해 자세히 알아보려면 비동기 프로그래밍을 참조하세요.

비동기 API를 사용하여 Blob을 다운로드하려면 다음 단계를 따릅니다.

다음 import 문을 추가합니다.

import asyncio

from azure.identity.aio import DefaultAzureCredential
from azure.storage.blob.aio import BlobServiceClient, BlobClient

asyncio.run을 사용하여 프로그램을 실행하는 코드를 추가합니다. 이 함수는 전달된 코루틴(예에서는 main())을 실행하고 asyncio 이벤트 루프를 관리합니다. 코루틴은 async/await 구문으로 선언됩니다. 이 예에서 main() 코루틴은 먼저 async with를 사용하여 최상위 수준 BlobServiceClient를 만든 다음 Blob을 다운로드하는 메서드를 호출합니다. 최상위 클라이언트에서만 async with를 사용해야 합니다. 이 클라이언트에서 만들어진 다른 클라이언트는 동일한 연결 풀을 공유하기 때문입니다.
```
async def main():
    sample = BlobSamples()

    # TODO: Replace <storage-account-name> with your actual storage account name
    account_url = "https://<storage-account-name>.blob.core.windows.net"
    credential = DefaultAzureCredential()

    async with BlobServiceClient(account_url, credential=credential) as blob_service_client:
        await sample.download_blob_to_file(blob_service_client, "sample-container")

if __name__ == '__main__':
    asyncio.run(main())
```

Blob을 다운로드하는 코드를 추가합니다. 다음 예에서는 BlobClient 개체를 사용하여 Blob을 로컬 파일 경로에 다운로드합니다. 메서드가 async 키워드로 선언되고 download_blob 메서드를 호출할 때 await 키워드가 사용된다는 점을 제외하면 코드는 동기 예와 동일합니다.

async def download_blob_to_file(self, blob_service_client: BlobServiceClient, container_name):
    blob_client = blob_service_client.get_blob_client(container=container_name, blob="sample-blob.txt")
    with open(file=os.path.join(r'filepath', 'filename'), mode="wb") as sample_blob:
        download_stream = await blob_client.download_blob()
        data = await download_stream.readall()
        sample_blob.write(data)

이 기본 설정을 사용하면 async/await 구문을 통해 이 문서의 다른 예를 코루틴으로 구현할 수 있습니다.

리소스

Python용 Azure Blob Storage 클라이언트 라이브러리를 사용하여 Blob을 다운로드하는 방법에 대해 자세히 알아보려면 다음 리소스를 참조하세요.

코드 샘플

이 문서(GitHub)에서 동기 또는 비동기 코드 샘플 보기

REST API 작업

Python용 Azure SDK에는 Azure REST API를 기반으로 빌드되는 라이브러리가 포함되어 있으므로 익숙한 Python 패러다임을 통해 REST API 작업과 상호 작용할 수 있습니다. Blob을 다운로드하기 위한 클라이언트 라이브러리 메서드는 다음 REST API 작업을 사용합니다.

Blob 가져오기(REST API)

클라이언트 라이브러리 리소스

이 문서는 Python용 Blob Storage 개발자 가이드의 일부입니다. 자세한 내용은 Python 앱 빌드에서 개발자 가이드 문서의 전체 목록을 참조하세요.

다음을 통해 공유

Python을 사용하여 Blob 다운로드

필수 조건

환경 설정

패키지 설치

Import 문 추가

권한 부여

클라이언트 개체 만들기

Blob 다운로드

파일 경로에 다운로드

스트림에 다운로드

청크로 Blob 다운로드

문자열에 다운로드

구성 옵션을 사용하여 블록 Blob 다운로드

다운로드할 때 데이터 전송 옵션 지정

비동기식으로 Blob 다운로드

리소스

코드 샘플

REST API 작업

클라이언트 라이브러리 리소스

피드백

추가 리소스

다음을 통해 공유

Python을 사용하여 Blob 다운로드

필수 조건

환경 설정

패키지 설치

Import 문 추가

권한 부여

클라이언트 개체 만들기

Blob 다운로드

파일 경로에 다운로드

스트림에 다운로드

청크로 Blob 다운로드

문자열에 다운로드

구성 옵션을 사용하여 블록 Blob 다운로드

다운로드할 때 데이터 전송 옵션 지정

비동기식으로 Blob 다운로드

리소스

코드 샘플

REST API 작업

클라이언트 라이브러리 리소스

관련 콘텐츠

피드백

추가 리소스