오케스트레이션 워크플로 모델 학습

아티클
11/21/2024

학습은 모델이 레이블이 지정된 발화에서 학습하는 프로세스입니다. 학습이 완료되면 모델 성능을 볼 수 있습니다.

모델을 학습시키려면 학습 작업을 시작합니다. 성공적으로 완료된 작업만 모델을 만듭니다. 학습 작업은 7일 후에 만료되며, 이 시간이 지나면 더 이상 작업 세부 정보를 검색할 수 없습니다. 학습 작업이 성공적으로 완료되고 모델이 만들어졌으면 작업 만료의 영향을 받지 않습니다. 한 번에 하나의 학습 작업만 실행할 수 있으며, 동일한 프로젝트에서 다른 작업을 시작할 수 없습니다.

학습 시간은 간단한 프로젝트를 처리할 때 몇 초에서 발화의 최대 제한에 도달할 때까지 몇 시간이 될 수 있습니다.

학습이 성공적으로 완료되면 모델 평가가 자동으로 트리거됩니다. 평가 프로세스는 학습된 모델을 사용하여 테스트 세트의 발화에 대한 예측을 실행하는 것으로 시작하고, 예측된 결과를 제공된 레이블과 비교합니다(진리 기준 설정). 모델의 성능을 검토할 수 있도록 결과가 반환됩니다.

필수 조건

구성된 Azure Blob Storage 계정을 사용하여 성공적으로 만들어진 프로젝트

자세한 내용은 프로젝트 개발 수명 주기를 참조하세요.

데이터 분할

학습 프로세스를 시작하기 전에 프로젝트의 레이블이 지정된 발화는 학습 세트와 테스트 세트로 나뉩니다. 각각 다른 기능을 제공합니다. 학습 세트는 모델 학습에 사용되며, 모델이 레이블이 지정된 발화를 학습하는 세트입니다. 테스트 세트는 학습 중이 아니라 평가 중에만 도입되는 블라인드 세트입니다.

모델이 성공적으로 학습되면 모델을 사용하여 테스트 세트의 발화에서 예측을 수행할 수 있습니다. 이러한 예측은 평가 메트릭을 계산하는 데 사용됩니다.

모든 의도가 학습 세트와 테스트 세트 모두에서 적절하게 표현되도록 하는 것이 좋습니다.

오케스트레이션 워크플로는 다음 두 가지 데이터 분할 방법을 지원합니다.

학습 데이터에서 자동으로 테스트 세트 분할: 선택한 백분율에 따라 시스템에서 태그가 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 권장되는 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다.

참고 항목

학습 데이터에서 자동으로 테스트 세트 분할 옵션을 선택하면 학습 세트에 할당된 데이터만 제공된 백분율에 따라 분할됩니다.

학습 및 테스트 데이터의 수동 분할 사용: 이 방법을 사용하면 사용자가 특정 세트에 속해야 하는 특정 발화를 정의할 수 있습니다. 이 단계는 레이블 지정 중에 발화를 테스트 세트에 추가한 경우에만 사용할 수 있습니다.

참고 항목

연결하지 않은 의도에 대해서만 학습 데이터 세트에 발화를 추가할 수 있습니다.

모델 학습

Language Studio 내에서 모델 학습을 시작하려면 다음을 수행합니다.

왼쪽 메뉴에서 학습 작업을 선택합니다.
상단 메뉴에서 학습 작업 시작을 선택합니다.
새 모델 학습을 선택하고, 텍스트 상자에서 모델 이름을 입력합니다. 또한 이 옵션을 선택하고 드롭다운 메뉴에서 덮어쓰려는 모델을 선택하면 기존 모델을 덮어쓸 수 있습니다. 학습된 모델을 덮어쓰는 것은 되돌릴 수 없지만, 새 모델을 배포할 때까지 배포된 모델에는 영향을 주지 않습니다.

발화에 태그를 지정할 때 프로젝트에서 수동으로 데이터를 분할하도록 설정한 경우 두 가지 데이터 분할 옵션이 표시됩니다.
- 학습 데이터에서 자동으로 테스트 세트 분할: 태그가 지정된 발화는 선택한 백분율에 따라 학습 집합과 테스트 집합 간에 임의로 분할합니다. 기본 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다. 이러한 값을 변경하려면 변경할 집합을 선택하고 새 값을 입력합니다.
참고 항목

학습 데이터에서 자동으로 테스트 세트 분할 옵션을 선택하면 학습 집합의 발화만 제공된 백분율에 따라 분할됩니다.
- 학습 및 테스트 데이터의 수동 분할 사용: 프로젝트의 태그 지정 단계에서 학습 또는 테스트 집합에 각 발화를 할당합니다.
참고 항목

학습 및 테스트 데이터의 수동 분할 사용 옵션은 태그 데이터 페이지에서 테스트 집합에 발화를 추가하는 경우에만 사용하도록 설정됩니다. 그렇지 않으면 사용하지 않도록 설정됩니다.
학습 단추를 선택합니다.

참고 항목

성공적으로 완료된 학습 작업만 모델을 생성합니다.
학습은 태그가 지정된 데이터의 크기에 따라 몇 분에서 몇 시간 사이의 시간이 걸릴 수 있습니다.
한 번에 하나의 학습 작업만 실행할 수 있습니다. 실행 중인 작업이 완료될 때까지 동일한 프로젝트 내에서 다른 학습 작업을 시작할 수 없습니다.

다음 URL, 헤더 및 JSON 본문을 사용하여 POST 요청을 만들어 학습 작업을 제출합니다.

요청 URL

API 요청을 만들 때 다음 URL을 사용합니다. 아래의 자리 표시자 값을 자신의 값으로 바꿉니다.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

자리 표시자	값	예제
`{ENDPOINT}`	API 요청을 인증하기 위한 엔드포인트입니다.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	프로젝트에 대한 이름입니다. 이 값은 대/소문자를 구분합니다.	`EmailApp`
`{API-VERSION}`	호출하는 API의 버전입니다.	`2023-04-01`

헤더

다음 헤더를 사용하여 요청을 인증합니다.

키	값
`Ocp-Apim-Subscription-Key`	리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

요청 본문

요청에 다음 개체를 사용합니다. 학습이 완료되면 모델 이름이 MyModel로 지정됩니다.

{
  "modelLabel": "{MODEL-NAME}",
  "trainingMode": "standard",
  "trainingConfigVersion": "{CONFIG-VERSION}",
  "evaluationOptions": {
    "kind": "percentage",
    "testingSplitPercentage": 20,
    "trainingSplitPercentage": 80
  }
}

키	자리 표시자	값	예제
`modelLabel`	`{MODEL-NAME}`	사용자의 모델 이름.	`Model1`
`trainingMode`	`standard`	학습 모드. 오케스트레이션에서는 하나의 학습 모드만 사용할 수 있습니다(`standard`).	`standard`
`trainingConfigVersion`	`{CONFIG-VERSION}`	학습 구성 모델 버전입니다. 기본적으로 최신 모델 버전이 사용됩니다.	`2022-05-01`
`kind`	`percentage`	분할 방법입니다. 가능한 값은 `percentage` 또는 `manual`입니다. 자세한 내용은 모델 학습 방법을 참조하세요.	`percentage`
`trainingSplitPercentage`	`80`	학습 세트에 포함할 태그가 지정된 데이터의 백분율입니다. 권장 값은 `80`입니다.	`80`
`testingSplitPercentage`	`20`	테스트 세트에 포함할 태그가 지정된 데이터의 백분율입니다. 권장 값은 `20`입니다.	`20`

참고 항목

Kind가 percentage로 설정되고 두 백분율의 합계가 100이어야 하는 경우에만 trainingSplitPercentage 및 testingSplitPercentage가 필요합니다.

API 요청을 보내면 성공을 나타내는 202 응답을 받게 됩니다. 응답 헤더에서 operation-location 값을 추출합니다. 다음과 같이 형식이 지정됩니다.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

이 URL을 사용하여 학습 작업 상태를 가져올 수 있습니다.

학습 작업 상태 가져오기

Language Studio
REST API

목록에서 학습 작업 ID를 클릭하면 이 작업에 대한 학습 진행률, 작업 상태 및 기타 세부 정보를 확인할 수 있는 사이드 창이 표시됩니다.

학습 데이터 크기와 스키마 복잡성에 따라 학습에 시간이 다소 걸릴 수 있습니다. 다음 요청을 사용하여 성공적으로 완료될 때까지 학습 작업의 상태를 계속 폴링할 수 있습니다.

다음 GET 요청을 사용하여 모델의 학습 진행률에 대한 상태를 가져옵니다. 아래의 자리 표시자 값을 자신의 값으로 바꿉니다.

요청 URL

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

자리 표시자	값	예제
`{YOUR-ENDPOINT}`	API 요청을 인증하기 위한 엔드포인트입니다.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	프로젝트에 대한 이름입니다. 이 값은 대/소문자를 구분합니다.	`EmailApp`
`{JOB-ID}`	모델의 학습 상태를 찾기 위한 ID입니다. 이 ID는 학습 작업을 제출할 때 받은 `location` 헤더 값에 있습니다.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	호출하는 API의 버전입니다.	`2023-04-01`

헤더

다음 헤더를 사용하여 요청을 인증합니다.

키	값
`Ocp-Apim-Subscription-Key`	리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

응답 본문

요청을 보내면 다음과 같은 응답을 받게 됩니다. status 매개 변수가 "succeeded"로 변경될 때까지 이 엔드포인트를 계속 폴링합니다.

{
  "result": {
    "modelLabel": "{MODEL-LABEL}",
    "trainingConfigVersion": "{TRAINING-CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "xxxxxx-xxxxx-xxxxxx-xxxxxx",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

키	값	예제
`modelLabel`	모델 이름	`Model1`
`trainingConfigVersion`	학습 구성 버전입니다. 기본적으로 최신 버전이 사용됩니다.	`2022-05-01`
`startDateTime`	학습 시작 시간	`2022-04-14T10:23:04.2598544Z`
`status`	학습 작업 상태	`running`
`estimatedEndDateTime`	예상 학습 작업 완료 시간	`2022-04-14T10:29:38.2598544Z`
`jobId`	학습 작업 ID	`xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx`
`createdDateTime`	학습 작업 생성 날짜 및 시간	`2022-04-14T10:22:42Z`
`lastUpdatedDateTime`	학습 작업 마지막 업데이트 날짜 및 시간	`2022-04-14T10:23:45Z`
`expirationDateTime`	학습 작업 만료 날짜 및 시간	`2022-04-14T10:22:42Z`

학습 작업 취소

Language Studio
REST API

Language Studio 내에서 학습 작업을 취소하려면 모델 학습 페이지로 이동합니다. 취소하려는 학습 작업을 선택하고, 위쪽 메뉴에서 취소를 선택합니다.

다음 URL, 헤더 및 JSON 본문을 사용하여 학습 작업을 취소하는 POST 요청을 만듭니다.

요청 URL

API 요청을 만들 때 다음 URL을 사용합니다. 아래의 자리 표시자 값을 자신의 값으로 바꿉니다.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

자리 표시자	값	예제
`{ENDPOINT}`	API 요청을 인증하기 위한 엔드포인트입니다.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	프로젝트에 대한 이름입니다. 이 값은 대/소문자를 구분합니다.	`EmailApp`
`{JOB-ID}`	학습 작업 ID입니다.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	호출하는 API의 버전입니다.	`2023-04-01`

헤더

다음 헤더를 사용하여 요청을 인증합니다.

키	값
`Ocp-Apim-Subscription-Key`	리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

API 요청을 보내면 성공을 나타내는 202 응답을 받게 됩니다. 이는 학습 작업이 취소되었음을 의미합니다. 작업의 상태를 확인하는 데 사용되는 Operation-Location 헤더가 포함된 성공적인 호출 결과.

다음 단계

모델 평가 메트릭 개념
모델을 배포하는 방법

다음을 통해 공유

오케스트레이션 워크플로 모델 학습

필수 조건

데이터 분할

모델 학습

학습 작업 시작

요청 URL

헤더

요청 본문

학습 작업 상태 가져오기

요청 URL

헤더

응답 본문

학습 작업 취소

요청 URL

헤더

다음 단계

피드백

추가 리소스