다음을 통해 공유


Azure OpenAI Service를 사용한 BCDR(비즈니스 연속성 및 재해 복구) 고려 사항

Azure OpenAI는 여러 지역에서 사용할 수 있습니다. Azure OpenAI 리소스를 만들 때 지역을 지정합니다. 그때부터 리소스와 모든 작업이 해당 Azure 서버 지역과 연결된 상태를 유지합니다.

전체 지역에 적용되는 네트워크 문제가 발생하는 것은 드물지만 불가능한 것도 아닙니다. 서비스를 항상 사용할 수 있어야 하는 경우, 다른 지역으로 장애 조치(failover)하거나 둘 이상의 지역 간에 워크로드를 분할하도록 설계해야 합니다. 두 방식은 모두 서로 다른 지역에 있는 둘 이상의 Azure OpenAI 리소스가 필요합니다. 이 문서에서는 Azure OpenAI 애플리케이션에 BCDR(비즈니스 연속성 및 재해 복구)을 구현하는 방법에 대한 일반적인 권장 사항을 제공합니다.

BCDR에 사용자 지정 코드 필요

오늘날 고객은 추론을 위해 배포 중에 제공된 엔드포인트를 호출합니다. 추론 작업은 상태 비저장이므로 지역을 사용할 수 없는 경우 데이터가 손실되지 않습니다.

지역이 작동하지 않는 경우 고객은 서비스 연속성을 보장하기 위한 조치를 취해야 합니다.

기본 모델 및 사용자 지정 모델에 대한 BCDR

기본 모델을 사용하는 경우 오류를 모니터링하도록 클라이언트 코드를 구성해야 하며, 오류가 지속되면 Azure OpenAI 구독이 있는 다른 지역을 선택하여 리디렉션할 준비를 해야 합니다.

다음 단계에 따라 오류를 모니터링하도록 클라이언트를 구성합니다.

  1. 모델 페이지를 사용하여 적합한 데이터 센터 및 지역을 선택합니다.

  2. 목록에서 기본 및 하나 이상의 보조/백업 영역을 선택합니다.

  3. 선택한 각 지역에 대해 Azure OpenAI 리소스를 만듭니다.

  4. 기본 지역 및 모든 백업 지역의 경우 코드가 다음을 알아야 합니다.

    • 리소스의 기본 URI
    • 지역 액세스 키 또는 Microsoft Entra ID 액세스
  5. 연결 오류(일반적으로 연결 시간 초과 및 서비스 사용 불가 오류)를 모니터링하도록 코드를 구성합니다.

    • 네트워크에 일시적인 오류가 발생하므로 단일 연결 문제가 발생하는 경우 다시 시도하는 것이 좋습니다.
    • 연결 문제가 계속 발생하는 경우 만든 지역의 백업 리소스로 트래픽을 리디렉션합니다.

주 지역에서 모델을 미세 조정한 경우 동일한 학습 데이터를 사용하여 보조 지역의 기본 모델을 다시 학습시켜야 합니다. 그런 다음, 위 단계를 수행합니다.