음성 모델 사용자 지정

아티클
10/09/2024

참고 항목

발음 학습을 포함한 음성 모델 사용자 지정은 Video Indexer Azure 평가판 계정과 Resource Manager 계정에서만 지원됩니다. 클래식 계정에서는 지원되지 않습니다. 비용 없이 계정 유형을 업데이트하는 방법에 대한 지침은 Azure AI Video Indexer 계정 업데이트를 참조하세요. 사용자 지정 언어 환경 사용에 대한 지침은 언어 모델 사용자 지정을 참조하세요.

Azure AI Video Indexer를 사용하면 음성 모델을 만드는 데 사용되는 데이터 세트를 업로드하여 음성 인식을 사용자 지정하는 사용자 지정 음성 모델을 만들 수 있습니다. 이 문서에서는 Video Indexer 웹 사이트를 통해 이렇게 하는 단계를 안내합니다. API를 사용하여 음성 모델 사용자 지정에 설명된 대로 API를 사용할 수도 있습니다.

사용자 지정 음성 모델의 자세한 개요와 모범 사례는 Azure AI Video Indexer를 사용하여 음성 모델 사용자 지정을 참조하세요.

필수 조건

Speech 모델 학습 모범 사례 가이드를 읽어보세요.
Azure 계정
Azure AI Video Indexer 계정

웹 포털
API

데이터 세트 만들기

모든 사용자 지정 모델에는 데이터 세트가 포함되어야 하므로 데이터 세트를 만들고 관리하는 방법부터 시작하겠습니다.

모델 사용자 지정 단추를 선택합니다.
음성(새) 탭을 선택합니다.
데이터 세트 업로드를 선택합니다.
데이터 세트 형식 드롭다운 메뉴에서 일반 텍스트 또는 발음을 선택합니다. 모든 음성 모델에는 반드시 일반 텍스트 데이터 세트가 있어야 하며 필요에 따라 발음 데이터 세트를 포함할 수 있습니다.
찾아보기를 선택하고 데이터 세트 파일을 선택합니다. 하나만 선택할 수 있습니다.
모델에 대한 언어를 선택합니다. 이 모델로 인덱싱하려는 미디어 파일에서 사용되는 언어를 선택합니다. 데이터 세트 이름은 파일 이름으로 미리 채워지지만 이름을 수정할 수 있습니다.
필요에 따라 데이터 세트 설명을 추가할 수 있습니다. 이렇게 하면 데이터 세트가 여러 개 있을 것으로 예상될 때 각 데이터 세트를 구분하는 데 도움이 될 수 있습니다.
업로드를 선택합니다. 데이터 세트 만들기가 완료되면 새 모델을 학습하고 만드는 데 사용할 수 있습니다.

데이터 세트 검토 및 업데이트

다음을 통해 데이터 세트 및 해당 속성을 볼 수 있습니다.

데이터 세트 이름 클릭
데이터 세트 위로 마우스를 가져가기
줄임표 선택

그런 다음, 데이터 세트 보기를 선택합니다.

그런 다음 데이터 세트의 이름, 설명, 언어 및 상태와 다음 속성을 볼 수 있습니다.

줄 수: 파일의 총 줄 수에서 성공적으로 로드된 줄 수를 나타냅니다. 전체 파일이 성공적으로 로드되면 숫자가 일치합니다(예: 10개 중 10개가 정규화됨). 숫자가 일치하지 않으면(예: 10개 중 7개가 정규화됨) 일부 줄만 성공적으로 로드되고 나머지 줄에서는 오류가 발생한 것입니다. 오류의 일반적인 원인은 발음 파일의 각 단어 사이에 탭 간격을 지정하지 않는 등의 줄 서식 지정 문제입니다. 학습 문서에 대한 일반 텍스트 및 발음 데이터를 검토하면 문제를 찾는 데 도움이 됩니다. 원인을 해결하려면 보고서에 포함된 오류 세부 정보를 검토합니다. 보고서 보기를 선택하여 성공적으로 로드되지 않은 줄에 대한 오류 세부 정보(errorKind)를 확인합니다. 보고서 탭을 선택하여 볼 수도 있습니다.

데이터 세트 ID: 각 데이터 세트에는 데이터 세트를 참조하는 작업에 API를 사용할 때 필요한 고유의 GUID가 있습니다.

일반 텍스트(정규화됨): 로드된 데이터 세트 파일의 정규화된 텍스트를 포함합니다. 정규화된 텍스트는 서식 없는 일반 형식으로 인식되는 텍스트입니다.

세부 정보 편집: 데이터 세트의 이름 또는 설명을 편집하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 세부 정보 편집을 선택합니다. 그러면 데이터 세트 이름과 설명을 편집할 수 있습니다.

참고 항목

데이터 세트가 업로드되면 데이터 세트의 데이터를 편집하거나 업데이트할 수 없습니다. 데이터 세트의 데이터를 편집하거나 업데이트해야 하는 경우에는 데이터 세트를 다운로드하고, 데이터를 편집하고, 파일을 저장하고, 새 데이터 세트 파일을 업로드합니다.

다운로드: 데이터 세트 파일을 다운로드하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 다운로드를 선택합니다. 또는 데이터 세트를 볼 때 [다운로드]를 선택하면 JSON 형식으로 데이터 세트 파일 또는 업로드 보고서를 다운로드하는 옵션을 사용할 수 있습니다.

삭제: 데이터 세트를 삭제하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 삭제를 선택합니다.

사용자 지정 음성 모델 만들기

데이터 세트는 모델을 만들고 학습시키는 데 사용됩니다. 일반 텍스트 데이터 세트를 만든 후에는 사용자 지정 음성 모델을 만들고 사용할 수 있습니다.

사용자 지정 음성 모델을 만들어서 사용할 때에는 다음 사항에 유의해야 합니다.

새 모델에는 일반 텍스트 데이터 세트가 하나 이상 있어야 하며 일반 텍스트 데이터 세트가 여러 개 있어도 됩니다.
발음 데이터 세트를 포함하는 것은 선택 사항이며 하나만 포함할 수 있습니다.
모델을 만든 후에는 데이터 세트를 추가하거나 데이터 세트를 수정할 수 없습니다. 데이터 세트를 추가하거나 수정해야 하는 경우 새 모델을 만들어야 합니다.
사용자 지정 음성 모델을 사용하여 비디오를 인덱싱한 다음 모델을 삭제한 경우 다시 인덱싱을 수행하지 않는 한 대본은 영향을 받지 않습니다.
사용자 지정 모델을 학습시키는 데 사용된 데이터 세트를 삭제하더라도 음성 모델이 이미 데이터 세트로 학습되었기 때문에 음성 모델은 삭제될 때까지 해당 데이터 세트를 계속 사용합니다.
사용자 지정 모델을 삭제해도 모델을 사용하여 이미 인덱싱된 비디오의 음성 텍스트에는 영향을 주지 않습니다.

모델 학습

참고 항목

모델을 만든 후에는 데이터 세트를 추가할 수 없습니다. 언어가 같은 데이터 세트만 모델에 포함할 수 있습니다.

[데이터 세트] 탭과 [모델] 탭을 통해 모델을 학습시킬 수 있습니다.

[데이터 세트] 탭을 통해 모델 학습

데이터 세트 목록을 봅니다.
일반 텍스트 데이터 세트를 선택합니다. 그런 다음 위의 새 모델 학습 아이콘을 선택할 수 있습니다.
새 모델 학습을 선택합니다.
모델 이름, 언어를 입력하고 필요에 따라 설명을 추가합니다.
데이터 세트 탭 선택
모델에 포함할 데이터 세트를 선택합니다.
만들기 및 학습을 선택합니다.

[모델] 탭을 통해 모델 학습

모델 탭을 선택합니다.
새 모델 학습 아이콘을 선택합니다.
모델의 일부가 될 데이터 세트를 선택합니다.
모델 이름, 언어를 입력하고 필요에 따라 설명을 추가합니다.
데이터 세트 탭을 선택합니다.
모델에 포함할 데이터 세트를 선택합니다.
만들기 및 학습을 선택합니다.

모델 검토 및 업데이트

모델 보기: 모델 이름을 클릭하거나 모델을 마우스로 가리키고 줄임표를 클릭한 다음, [모델 보기]를 선택하여 모델과 해당 속성을 볼 수 있습니다.

그런 다음 세부 정보 탭에 모델의 이름, 설명, 언어 및 상태와 다음 속성이 표시됩니다.

모델 ID: 각 모델에는 모델을 참조하는 작업에 API를 사용할 때 필요한 고유의 GUID가 있습니다.

만든 날짜: 모델을 만든 날짜입니다.

세부 정보 편집: 모델의 이름 또는 설명을 편집하려면 모델을 마우스로 가리키면 줄임표를 선택한 다음 세부 정보 편집을 선택합니다. 그러면 모델 이름과 설명을 편집할 수 있습니다.

참고 항목

모델의 이름과 설명만 편집할 수 있습니다. 데이터 세트를 변경하거나 데이터 세트를 추가하려면 새 모델을 만들어야 합니다.

삭제: 모델을 삭제하려면 데이터 세트를 마우스로 가리키면 줄임표를 선택한 다음 삭제를 선택합니다.

포함된 데이터 세트: 포함된 데이터 세트 탭에서 선택하여 모델의 데이터 세트를 봅니다.

비디오를 인덱싱할 때 사용자 지정 언어 모델 사용

사용자 지정 언어 모델은 기본적으로 인덱싱 작업에 사용되지 않으므로 인덱스 업로드 프로세스 중에 선택해야 합니다.

업로드 프로세스 중에 언어 드롭다운 메뉴에서 사용자 지정 언어 모델 원본을 선택합니다.
업로드를 선택합니다.

사용자 지정 모델을 사용하여 비디오를 다시 인덱싱하려는 경우에도 동일한 단계가 적용됩니다.

참고 항목

다음은 음성 모델 요청과 함께 사용되는 일부 매개 변수에 대한 설명 표입니다.

이름	입력	설명
`displayName`	문자열	데이터 세트/모델의 원하는 이름입니다.
`locale`	문자열	데이터 세트/모델의 언어 코드입니다. 전체 목록은 언어 지원을 참조하세요.
`kind`	정수	일반 텍스트 데이터 세트의 경우 0, 발음 데이터 세트의 경우 1입니다.
`description`	문자열	데이터 세트/모델에 대한 선택적 설명입니다.
`contentUrl`	uri	데이터 세트를 만드는 데 사용된 원본 파일의 URL입니다.
`customProperties`	object	데이터 세트/모델의 선택적 속성입니다.

음성 데이터 세트 만들기

Speech Dataset 만들기 요청은 음성 모델을 학습하기 위한 데이터 세트를 만듭니다. 이 요청을 사용하여 데이터 세트를 만드는 데 사용되는 파일을 업로드합니다. 데이터 세트의 콘텐츠를 만든 후에는 수정할 수 없습니다.

업로드할 텍스트 파일의 URL을 포함하여 요청 본문에 매개 변수를 정의합니다. 설명 및 사용자 지정 속성 필드는 선택 사항입니다. 요청 본문의 예는 다음과 같습니다.

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

예제 응답

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

음성 모델 만들기

음성 모델 만들기 요청은 비디오의 전사 정확도를 향상시키는 데 사용할 수 있는 사용자 지정 음성 모델을 만들고 학습시킵니다. 하나 이상의 일반 텍스트 데이터 세트를 포함해야 합니다. 필요에 따라 발음 데이터 세트가 있을 수 있습니다. 모델의 데이터 세트를 만들고 나면 추가하거나 업데이트할 수 없으므로, 만들 때 모든 관련 데이터 세트 파일을 사용하세요.

모델에서 포함할 데이터 세트 또는 데이터 세트의 문자열 목록을 포함하여 요청 본문에 매개 변수를 정의합니다. 설명 및 사용자 지정 속성 필드는 선택 사항입니다. 요청 본문의 샘플입니다.

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

예제 응답

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

음성 데이터 세트 가져오기

Get Speech Dataset API는 지정된 데이터 세트에 대한 정보를 반환합니다.

예제 응답

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

음성 데이터 세트 파일 가져오기

Speech Dataset 파일 가져오기 요청은 지정된 데이터 세트의 파일 및 메타데이터를 반환합니다.

예제 응답

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

지정된 계정 데이터 세트 가져오기

Speech Datasets 가져오기 요청은 지정된 모든 계정 데이터 세트에 대한 정보를 반환합니다.

예제 응답

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

지정된 음성 모델 가져오기

Speech Model API 가져오기는 지정된 모델에 대한 정보를 반환합니다.

예제 응답

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

지정된 계정 음성 모델 가져오기

Speech Models 가져오기 API는 지정된 계정의 모든 모델에 대한 정보를 반환합니다.

예제 응답

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

음성 데이터 삭제

Speech Dataset 삭제 API는 지정된 데이터 세트를 삭제합니다. 삭제된 데이터 세트로 학습된 모든 모델은 해당 모델이 삭제될 때까지 계속 사용할 수 있습니다. 인덱싱 또는 학습에 사용하는 동안에는 데이터 세트를 삭제할 수 없습니다.

예제 응답

데이터 세트가 성공적으로 삭제된 경우 콘텐츠가 반환되지 않습니다.

음성 모델 삭제

Speech Model 삭제 API는 지정된 음성 모델을 삭제합니다. 인덱싱 또는 학습에 사용하는 동안에는 모델을 삭제할 수 없습니다.

응답

음성 모델이 성공적으로 삭제된 경우 콘텐츠가 반환되지 않습니다.

다음을 통해 공유

음성 모델 사용자 지정

필수 조건

데이터 세트 만들기

데이터 세트 검토 및 업데이트

사용자 지정 음성 모델 만들기

모델 학습

[데이터 세트] 탭을 통해 모델 학습

[모델] 탭을 통해 모델 학습

모델 검토 및 업데이트

비디오를 인덱싱할 때 사용자 지정 언어 모델 사용

음성 데이터 세트 만들기

예제 응답

음성 모델 만들기

예제 응답

음성 데이터 세트 가져오기

예제 응답

음성 데이터 세트 파일 가져오기

예제 응답

지정된 계정 데이터 세트 가져오기

예제 응답

지정된 음성 모델 가져오기

예제 응답

지정된 계정 음성 모델 가져오기

예제 응답

음성 데이터 삭제

예제 응답

음성 모델 삭제

응답

피드백

추가 리소스