다음을 통해 공유


사용자 지정 신경망 음성에 대한 음성 샘플 녹음

이 문서에서는 사용자 지정 신경망 음성 Pro 프로젝트를 사용하여 전문 음성 모델을 만들기 위한 고품질 음성 샘플을 준비하는 방법에 대한 지침을 제공합니다.

고품질의 프로덕션 사용자 지정 신경망 음성을 처음부터 새로 만드는 것은 쉬운 작업이 아닙니다. 사용자 지정 신경망 음성의 핵심 구성 요소는 사람의 음성이 녹음된 대용량의 오디오 샘플 컬렉션입니다. 이러한 오디오 녹음은 단연 품질도 좋아야 합니다. 이러한 종류의 녹음을 해본 적이 있는 성우를 선정하고, 녹음 엔지니어가 전문 장비를 사용하여 녹음하도록 합니다.

한편, 이러한 녹음을 진행하기 위해서는 스크립트가 필요합니다. 스크립트는 오디오 샘플을 녹음하는 성우가 읽게 되는 단어들로 구성되어 있습니다.

전문가 품질의 음성 녹음을 만들 때는 소소하지만 중요한 세부적 측면이 다양하게 고려되어야 합니다. 이 가이드는 일관된 우수한 결과를 얻는 데 도움이 되는 프로세스의 로드맵입니다.

고품질 음성을 위한 데이터 준비 팁

매우 자연스러운 사용자 지정 신경망 음성은 학습 데이터의 품질 및 크기와 같은 여러 요인에 따라 달라집니다.

학습 데이터의 품질이 주요 요인입니다. 예를 들어 동일한 학습 집합에서 일관된 볼륨, 말하기 속도, 말하기 속도 및 말하기 스타일은 고품질 사용자 지정 신경망 음성을 만드는 데 필수적입니다. 또한 녹음/녹화에서 배경 노이즈를 방지하고 스크립트와 녹음/녹화가 일치하는지 확인해야 합니다. 데이터의 품질을 보장하려면 스크립트 선택 조건기록 요구 사항을 따라야 합니다.

학습 데이터의 크기와 관련하여 대부분의 경우 500개 발화로 합리적인 사용자 지정 신경망 음성을 빌드할 수 있습니다. 테스트에 따르면, 대부분의 언어로 더 많은 학습 데이터를 추가해도 반드시 음성 자체의 자연스러움이 개선되는 것은 아니지만(MOS 점수를 사용하여 테스트됨), 더 많은 단어 인스턴스를 포함하는 더 많은 학습 데이터를 사용하면 결함과 같이 음성에 대한 불만족스러운 음성 부분의 비율을 줄일 수 있는 가능성이 더 높습니다. 불만족스러운 음성 부분을 들어보려면 GitHub 예제를 참조하세요.

어떤 경우에는 고유한 특성을 지닌 음성 가상 사용자가 필요할 수도 있습니다. 예를 들어 만화 가상 사용자에는 특별한 말하기 스타일을 가진 음성 또는 억양이 역동적인 음성이 필요합니다. 이 경우 적어도 1,000개(가급적 2,000개) 발화를 준비하고 전문 녹음/녹화 스튜디오에서 녹음/녹화하는 것이 좋습니다. 음성 모델의 품질을 개선하는 방법에 대한 자세한 내용은 사용자 지정 신경망 음성 사용에 대한 특성 및 제한 사항을 참조하세요.

음성 녹음 역할

사용자 지정 신경망 음성 녹음 프로젝트에는 다음 네 가지 기본 역할이 있습니다.

역할 목적
성우 이 성우의 음성이 사용자 지정 신경망 음성의 기초가 됩니다.
녹음 엔지니어 녹음의 기술적 측면을 감독하고 녹음 장비를 작동합니다.
담당 이사 스크립트를 준비하고 성우의 녹음 과정을 코칭합니다.
편집기 오디오 파일을 마무리하고 Speech Studio에 업로드할 준비를 합니다.

한 개인이 둘 이상의 역할을 맡을 수 있습니다. 이 가이드에서는 사용자가 감독 역할을 수행하고 성우와 녹음 엔지니어를 모두 고용한다고 가정합니다. 직접 녹음하려는 경우 이 문서에는 녹음 엔지니어 역할에 대한 몇 가지 정보가 포함되어 있습니다. 편집자 역할은 녹음 세션이 끝날 때까지 필요하지 않습니다. 그 동안에는 감독이나 녹음 엔지니어가 이 역할을 수행할 수 있습니다.

성우 선정

음성 해설, 음성 배역 작업, 방송 진행 또는 뉴스 진행 경험이 작업자는 좋은 성우가 됩니다. 마음에 드는 자연스러운 음성을 갖춘 성우를 선택합니다. 독특한 "캐릭터" 음성을 만들 수도 있지만 대부분의 성우에게 이러한 음성을 일관되게 표현하는 일은 어려울 수 있으며 도중에 목소리에 무리가 갈 수도 있습니다. 성우를 선택할 때 가장 중요한 한 가지 요소는 일관성입니다. 녹음된 모든 음성은 마치 같은 날 같은 장소에서 녹음된 것처럼 일관되어야 합니다. 노련한 녹음 기술과 엔지니어링을 통해 이러한 일관성을 달성할 수 있습니다.

성우는 명확한 받아쓰기를 통해 일관된 속도, 음량 수준, 음높이 및 어조로 말할 수 있어야 합니다. 또한 음높이 변화, 감성적 효과, 말 버릇을 제어할 수 있어야 합니다. 음성 샘플 녹음은 다른 종류의 음성 작업보다 더 힘들 수 있으므로 대부분의 성우는 하루에 2~3시간 동안만 녹음할 수 있습니다. 가능한 경우 세션을 주 3~4일로 제한하고 중간에 하루를 쉽니다.

성우와 협력하여 사용자 지정 신경망 음성의 전반적인 소리와 감성적인 톤을 정의하는 페르소나를 개발합니다. 가상 사용자의 말하기 스타일을 정의하고 성우에게 원하는 스타일에 맞는 방식으로 스크립트를 읽도록 요청합니다. 말하기 스타일이 학습 데이터 집합에 대한 기록 전체에서 일관되게 유지되는지 확인합니다.

예를 들어, 자연적으로 낙관적인 성격을 가진 페르소나는 자신의 목소리에 낙관론의 메모를 전달합니다. 그러나 이러한 성격은 학습 데이터 집합에 대한 모든 기록에서 일관되게 표현되어야 합니다. 기존 음성을 듣고 목표로 하는 것을 파악할 수 있습니다.

일반적으로 음성 녹음 제작자는 자신이 만든 음성의 소유권을 보유하길 원합니다. 이 경우 성우는 해당 프로젝트에 대해 “고용자 저작권 보유” 계약에 동의해야 합니다.

스크립트 만들기

사용자 지정 신경망 음성 녹음 세션은 성우가 말해야 하는 발언을 포함하는 스크립트에서 시작됩니다. "발화"라는 용어는 전체 문장과 짧은 구 둘 다를 포함합니다. 사용자 지정 신경망 음성을 빌드하려면 학습 데이터로 녹음된 발화가 300개 이상 필요합니다.

스크립트의 발언은 소설, 실화, 연설문, 뉴스 기사를 비롯하여 인쇄된 형태의 모든 내용에서 가져올 수 있습니다. 잠재적 법적 문제에 대한 간략한 설명은 "법률적 측면" 섹션을 참조하세요. 텍스트를 직접 작성할 수도 있습니다.

발화는 동일한 원본, 동일한 종류의 원본에서 나오거나 서로 관련이 있을 필요가 없습니다. 그러나 음성 애플리케이션에서 설정된 문구(예: "성공적으로 로그인했습니다.")를 사용하는 경우 해당 문구를 대본에 포함해야 합니다. 이렇게 하면 사용자 지정 신경망 음성이 해당 구를 더 잘 발음할 가능성이 높아집니다.

녹음 대본에는 일반 문장과 영역 관련 문장이 모두 포함되는 것이 좋습니다. 예를 들어 2,000개의 문장을 기록하려는 경우 그 중 1,000개는 일반 문장일 수 있으며, 그 중 1,000개는 대상 도메인의 문장 또는 애플리케이션의 사용 사례일 수 있습니다.

기록 스크립트를 준비하는 데 도움이 되는 각 언어에 대한 샘플 스크립트를 '일반', '채팅' 및 '고객 서비스' 도메인에 제공합니다. 이러한 Microsoft 공유 스크립트를 녹음에 직접 사용하거나 참조로 사용하여 직접 만들 수 있습니다.

스크립트 선택 조건

다음은 사용자 지정 신경망 음성 학습에 적합한 모음(녹음된 오디오 샘플)을 만들기 위해 따를 수 있는 몇 가지 일반적인 지침입니다.

  • 문장, 질문, 느낌표, 긴 문장 및 짧은 문장을 포함하여 도메인의 다양한 문장 유형을 포함하도록 스크립트의 균형을 조정합니다.

    각 문장은 4~30개 단어로 구성해야 하며 대본에 중복된 문장이 포함되지 않아야 합니다.
    다양한 문장 형식의 균형을 유지하는 방법은 다음 표를 참조하세요.

    문장 유형 범위
    명령문 문장 명령문 문장은 대본의 70~80%이어야 합니다.
    질문 문장 질문 문장은 영역 대본의 약 10~20%여야 하며, 여기에는 올라가는 어조의 5~10%와 내려가는 어조의 5~10%가 포함됩니다.
    감탄사 문장 감탄사 문장은 대본의 약 10~20%여야 합니다.
    짧은 단어/문구 짧은 단어/구 대본은 총 발화의 약 10%여야 하며, 대/소문자당 단어는 5~7개입니다.

    참고 항목

    짧은 단어/구는 쉼표로 구분해야 합니다. 이러한 형태의 단어/구는 성우가 읽을 때 일시 중지하도록 상기시키는 데 도움이 됩니다.

    모범 사례는 다음을 포함해야 합니다.

    • 동사, 명사, 형용사 등과 같은 품사에 대한 균형 잡힌 적용 범위입니다.
    • 발음에 대한 균형 잡힌 적용 범위입니다. 텍스트 음성 변환 엔진에서 각 문자를 사용자 스타일로 발음하는 방법을 학습할 수 있도록 A부터 Z까지의 모든 문자를 포함합니다.
    • 화자가 읽을 수 있는 읽기 쉽고 이해할 수 있는 상식적인 대본입니다.
    • "easy" 및 "easier"와 같이 단어/구에 대해 비슷한 패턴을 너무 많이 사용하지 않습니다.
    • 모든 문장 유형에 주소, 단위, 전화, 수량, 날짜 등 다양한 형식의 숫자를 포함합니다.
    • 사용자 지정 신경망 음성을 읽는 경우 철자 문장을 포함합니다. 예를 들어 "Apple의 철자는 A P P L E"입니다.
  • 한 줄/한 발화에 여러 문장을 넣지 마십시오. 발화별로 각 줄을 구분합니다.

  • 문장이 깨끗해야 합니다. 일반적으로는 읽기 어려운 숫자 또는 약어와 같은 비표준 단어를 너무 많이 포함하지 않습니다. 일부 애플리케이션에서는 많은 숫자 또는 머리글자어를 읽어야 할 수 있습니다. 이러한 경우 해당 단어를 포함할 수 있지만 구어 형식으로 정규화합니다.

    예를 들어 다음과 같은 몇 가지 모범 사례가 있습니다.

    • 약어가 있는 줄의 경우 ‘BTW’ 대신 "by the way"를 씁니다.
    • 숫자가 있는 줄의 경우 "911" 대신 "구 일 일"로 씁니다.
    • 머리글자어가 있는 줄의 경우 "ABC" 대신 "A B C"를 씁니다.

    이를 통해 성우가 이러한 단어를 예상대로 발음하는지 확인합니다. 학습 프로세스 중에 대본과 녹음이 일치하도록 유지합니다.

  • 스크립트는 다양한 문장 길이, 구조 및 분위기를 갖는 여러 다른 단어 및 문장을 포함해야 합니다.

  • 스크립트에 오류가 있는지 신중하게 확인합니다. 가능한 경우 다른 사람도 확인할 수 있도록 합니다. 성우와 함께 대본을 전체적으로 살펴보면 더 많은 실수를 발견할 수 있습니다.

성우 스크립트와 학습 스크립트의 차이점

특히 숫자, 기호, 약어, 날짜, 시간을 포함하는 스크립트의 경우 학습 스크립트는 성우 스크립트와 다를 수 있습니다. 성우를 위해 준비된 대본은 50% 및 45달러와 같은 기본 읽기 규칙을 따라야 합니다. 학습에 사용되는 스크립트는 오디오 녹음과 일치하도록 정규화되어야 합니다(예: 50%, 45달러).

참고 항목

GitHub에서 성우를 위한 몇 가지 예제 스크립트를 제공합니다. 학습에 예제 스크립트를 사용하려면 파일을 업로드하기 전에 성우의 녹음에 따라 스크립트를 정규화해야 합니다.

다음 표에서는 성우를 위한 스크립트와 학습을 위한 정규화된 스크립트의 차이점을 보여 줍니다.

범주 성우 스크립트 예제 학습 스크립트 예제(정규화됨)
숫자 123 일백이십삼
기호 50% 오십 퍼센트
약어 ASAP 가능하면 빨리
날짜 및 시간 3월 3일 5:00 PM 3월 3일 오후 5시

스크립트의 일반적인 오류

스크립트의 품질이 좋지 않으면 학습 결과에 부정적인 영향을 줄 수 있습니다. 고품질의 학습 결과를 얻으려면 결함을 방지 하는 것이 중요합니다.

대본 결함은 일반적으로 다음과 같은 범주로 분류됩니다.

범주 예시
의미 없는 콘텐츠 "무색 녹색 아이디어는 격렬하게 잠이 듭니다."
문장이 완전하지 않습니다. - "내 마지막 이브날이었어." (제목 없음, 특정 의미 없음)
- "벌써 웃겨 (끝에 따옴표를 표시 하지 않고 전체 문장이 아님).
문장의 오타가 있습니다. -소문자로 시작하는 경우
-필요한 경우 끝 문장 부호 없는 경우
-철자 오류
-문장 부호 부족, 끝에 마침표가 없는 경우 (뉴스 제목 제외)
-기호 (쉼표, 물음표, 느낌표 제외)로 끝나는 경우
-잘못 된 형식은 다음과 같은 예시가 있습니다.
 -45$ ($45 이어야 합니다)
 - 단어/문장 부호 사이에 공백이나 불필요한 공백이 없는 경우
중복 되는 비슷한 형식들은 각 패턴 마다 하나씩 충분합니다. - "이제 뉴욕은 오후 1 시."
- "이제 뉴욕은 오후 2 시."
- "이제 뉴욕은 오후 3 시."
- "이제 시애틀은 오후 1 시."
- "이제 워싱턴 D.C는 오후 1 시"
일반적이지 않은 외래어: 일반적으로 사용되는 외부 단어만 대본에서 허용됨 영어에서는 일반적인 연설에서 "faux" 프랑스어 단어를 사용할 수 있지만 "coincer la bulle"와 같은 프랑스어 표현은 일반적이지 않습니다.
이모지 또는 일반적이지 않은 기타 기호

스크립트 형식

대본은 녹음 세션 동안 사용하기 위한 것이므로, 작업하기 쉬운 방식으로 설정할 수 있습니다. Speech Studio에서 필요한 텍스트 파일을 별도로 만듭니다.

기본 스크립트 형식에는 다음 세 개의 열이 포함됩니다.

  • 1부터 시작되는 발언 번호. 번호를 매기면 스튜디오의 모든 사람들이 특정 발화를 쉽게 참조할 수 있습니다("356번을 다시 시도하세요"). Microsoft Word의 단락 번호 매기기 기능을 사용하여 표의 행 번호를 자동으로 매길 수 있습니다.
  • 완성된 녹음에서 해당 발화를 찾는 데 도움이 되는 각 발화의 테이크 번호 또는 타임 코드를 쓰는 빈 열
  • 발언의 텍스트 자체

샘플 스크립트

참고 항목

대부분의 스튜디오에서는 "테이크스"라고 하는 짧은 세그먼트로 녹음합니다. 일반적으로 각 테이크에는 10-24개 발화가 포함됩니다. 테이크 번호만 적어 두는 것만으로도 나중에 발화를 찾는 데 충분합니다. 좀 더 길게 녹음하는 것을 선호하는 스튜디오에서 녹음하는 경우에는 대신 타임 코드를 적어둘 수 있습니다. 스튜디오에서는 잘 보이는 시간 디스플레이가 준비됩니다.

각 행 사이에 충분한 간격을 두고 녹음을 합니다. 연결된 발언이 다른 페이지로 분할되지 않도록 합니다. 페이지 번호를 매기고 스크립트를 용지의 한 면에 인쇄합니다.

대본은 성우, 녹음 엔지니어, 감독(사용자)을 위해 3부 인쇄합니다. 스테이플로 붙이지 말고 용지 클립을 끼웁니다. 숙련된 음성 아티스트는 페이지를 넘기는 소리가 나지 않도록 하기 위해 페이지를 분리해 놓습니다.

성우 설명

신경망 음성을 학습시키려면 사용자 지정 음성 모델 학습에 음성 데이터를 사용하는 것에 동의하는 성우가 녹음한 오디오 파일로 성우 프로필을 만들어야 합니다. 녹음 스크립트를 준비할 때 문장을 포함해야 합니다.

법률적 측면

저작권법에 따르면 배우가 저작권이 있는 텍스트를 읽는 것은 작품의 작성자에게 보상할 수 있는 성과일 수 있습니다. 이 성능은 최종 작품인 사용자 지정 신경망 음성에서는 인식되지 않을 것입니다. 그럼에도 불구하고 이 목적을 위해 저작권이 있는 작품을 사용하는 것에 대한 합법성은 잘 확립되어 있지 않습니다. Microsoft는 이 문제에 대해 법률 자문을 제공할 수 없으므로 사용자 자신의 법률 고문과 상의합니다.

다행히도 이러한 문제는 완전히 방지할 수 있습니다. 권한 또는 라이선스 없이 사용할 수 있는 텍스트 원본이 많이 있기 때문입니다.

텍스트 원본 설명
CMU Arctic corpus 저작권 없는 작품 중에서 음성 합성 프로젝트에 고유하게 사용할 1100개 정도의 문장을 선택했습니다. 이 원본으로 시작하면 좋습니다.
저작권이
없는 작품
일반적으로 1923년 이전에 출판된 작품입니다. 영어의 경우 Project Gutenberg에 이러한 수만 가지 작품을 제공하고 있습니다. 언어는 최신 영어에 더 가까우므로 최신 작품에 좀 더 주력하려고 할 수 있습니다.
정부 작업 미국 정부가 만든 저작물은 다른 국가/지역에서는 미국 정부가 저작권을 주장할 수 있지만 미국 내에서는 저작권이 없습니다.
공용 도메인 저작권이 명시적으로 거부되었거나 공용 도메인에 헌정된 작품입니다. 일부 관할지에서는 저작권을 완전히 포기하지 못할 수도 있습니다.
사용이 허가된 작품 Creative Commons 또는 GFDL(GNU Free Documentation License)과 같은 라이선스에 따라 배포된 작품입니다. Wikipedia는 GFDL을 사용합니다. 그러나 일부 라이선스는 사용이 허가된 콘텐츠의 성능을 제한하여 사용자 지정 신경망 음성 모델 생성에 영향을 줄 수 있으므로 라이선스를 잘 확인해야 합니다.

스크립트 녹음

음성 작업을 전문적으로 진행하는 전문 녹음 스튜디오에서 스크립트를 녹음합니다. 녹음 부스, 적절한 장비 및 적적한 작업자가 있어야 합니다. 녹음을 대충하지 않는 것이 좋습니다.

스튜디오의 녹음 엔지니어와 프로젝트를 논의하고 조언을 귀담아 듣습니다. 녹음은 동적 범위 압축이 거의 없거나 전혀 없어야 합니다(최대 4:1). 원치 않는 소리는 배제해야 하며 오디오는 일관된 볼륨과 높은 신호 대 노이즈 비율을 유지해야 합니다.

기록 요구 사항

고품질의 학습 결과를 얻으려면 기록 또는 데이터 준비 중에 다음 요구 사항을 따르십시오.

  • 명확하게 잘 발음이 되어야 합니다.

  • 자연스러운 속도: 오디오 파일 간의 속도가 너무 느리거나 너무 빠르면 안됩니다.

  • 적절한 볼륨, 운율 및 휴식은 동일한 문장 내에서 또는 문장 사이에서 안정을 위해 그리고 문장 부호에서 올바른 휴식을 위해 필요합니다.

  • 기록 중 노이즈가 없어야 합니다.

  • 가상 사용자의 디자인에 맞추어야 합니다.

  • 잘못된 강조효과 없이 대상 디자인에 맞추어야 합니다.

  • 잘못 된 발음 없어야 합니다.

아래 사양을 참조하여 오디오 샘플을 준비하는 것이 좋습니다.

속성
파일 형식 *.wav, Mono
샘플링 레이트 24 KHz
샘플 형식 16 비트, PCM
최대 볼륨 수준 -3 dB에서 6 dB
SNR > 35dB
침묵 -시작과 끝에 약간의 묵음 (권장 100 ms)이 있어야 하지만 200 ms 보다는 더 있으면 안됩니다.
- 단어 또는 문구 사이에 묵음 < -30dB
- 마지막 단어를 말한 후 웨이브에 묵음 < -60dB
주변 노이즈 또는 에코 - 말하기 전 웨이브 시작 시 노이즈 크기 < -70dB

참고 항목

더 높은 샘플링 속도와 비트 수준 (예를 들어 48 KHz 24 비트 PCM 형식)로 기록할 수 있습니다. 사용자 지정 신경망 음성 학습을 수행하는 동안 24khz 16비트 PCM을 자동으로 다운샘플링합니다.

SNR(신호 대 잡음 비율)이 더 높을 수록 오디오의 잡음이 더 낮은 것입니다. 일반적으로 전문 스튜디오에서 녹음하면 35 이상의 SNR에 도달할 수 있습니다. SNR이 20보다 낮은 오디오는 생성된 음성에서 잡음이 뚜렷하게 들릴 수 있습니다.

발음 점수가 낮거나 신호 대 잡음 비율이 떨어지는 모든 발화는 다시 녹음하는 것이 좋습니다. 다시 녹음할 수 없다면 해당 발화를 데이터에서 제외할 수 있습니다.

일반적인 오디오 오류

고품질의 학습 결과를 위해 오디오 오류를 방지 하는 것이 좋습니다. 오디오 오류는 일반적으로 다음과 같은 범주에 속합니다.

  • 오디오 파일 이름이 스크립트 ID와 일치하지 않습니다.

  • WAR 파일의 형식이 잘못되었으며 읽을 수 없습니다.

  • 오디오 샘플링 레이트가 16KHz보다 낮습니다. 고품질 신경망 음성의 경우 .wav 파일 샘플링 속도를 24KHz 이상으로 사용하는 것이 좋습니다.

  • 볼륨 사용량이-3 dB (최대 크기의 70%)-6 dB (50%) 범위 내에 있지 않습니다.

  • 파형 오버플로: 파형이 최고 값에서 잘리므로 완전하지 않습니다.

    파형 오버플로

  • 녹음의 묵음 부분은 깨끗하지 않습니다. 주변 소음, 입 소음 및 반향과 같은 소리를 들을 수 있습니다.

    예를 들어 아래 오디오는 음성 간의 주변 노이즈를 포함합니다.

    주변 노이즈

    아래 샘플에는 DC 오프셋 또는 에코의 신호가 포함되어 있습니다.

    DC 오프셋 또는 에코

  • 전체 볼륨이 너무 낮습니다. 볼륨이-18 dB (최대 볼륨 10%) 보다 낮은 경우 데이터가 문제로 태그가 지정 됩니다. 모든 오디오 파일이 동일한 수준의 볼륨에서 일치 하는지 확인 합니다.

    전체 볼륨

  • 첫 번째 단어 앞 이나 마지막 단어 뒤에는 묵음이 없어야 합니다. 또한 시작 또는 끝 묵음이 100ms보다 짧거나 200ms보다 길면 안 됩니다.

    묵음 없음

직접 해보십시오.

녹음 스튜디오에 가지 않고 직접 녹음하려는 경우 여기에 간단한 입문서가 있습니다. 홈 녹음 및 팟캐스팅이 증가하고 있으므로 이전보다 더 쉽게 유용한 녹음 조언 및 리소스를 온라인에서 찾을 수 있습니다.

에코나 "룸 톤"이 없는 작은 방을 "녹음 부스"로 사용하는 것이 좋습니다. 가능한 한 조용하고 방음 장치가 된 곳이 좋습니다. 벽 커튼을 사용하여 에코를 줄이고 룸 소리를 중화하거나 "줄일 수 있습니다".

음성 녹음용으로 제작된 고품질의 스튜디오 콘덴서 마이크로폰(줄여서 "마이크")을 사용합니다. Sennheiser, AKG, 최신 Zoom 마이크로도 좋은 결과를 얻을 수 있습니다. 마이크를 구입할 수도 있고 지역의 시청각 렌탈 회사에서 대여할 수도 있습니다. USB 인터페이스가 있는 마이크를 구합니다. 이 종류의 마이크는 마이크 요소, 프리앰프 및 아날로그-디지털 변환기를 하나의 패키지로 편리하게 결합하므로 간편하게 연결할 수 있습니다.

아날로그 마이크를 사용할 수도 있습니다. 많은 임대 주택에서는 음성 배역으로 알려진 "빈티지" 마이크를 제공합니다. 전문적인 아날로그 기어는 소비자 장비에서 사용되는 1/4인치 플러그 대신 밸런스 XLR 커넥터를 사용합니다. 아날로그로 전환하려면 이러한 커넥터와 함께 프리앰프와 컴퓨터 오디오 인터페이스가 필요합니다.

스탠드 또는 붐에 마이크를 설치하고, 마이크 전면에 팝 필터를 장착하여 "p" 및 "b"와 같은 "파열음"에서 노이즈를 제거합니다. 일부 마이크는 스탠드의 진동이 느껴지지 않도록 하는 서스펜션 마운트가 달려 있어서 도움이 됩니다.

성우는 마이크에서 일정한 거리만큼 떨어져 있어야 합니다. 바닥에 테이프를 붙여서 서있는 위치를 표시합니다. 성우가 앉아서 작업하기를 원할 경우 마이크 거리를 고려해서 배치하고 의자 소음이 발생하지 않도록 합니다.

스탠드에 스크립트를 올려놓습니다. 마이크 쪽으로 소리가 반사될 수 있으므로 스탠드를 기울이지 마세요.

녹음 장비를 작동하는 사람(녹음 엔지니어)은 녹음 부스에서 성우와 대화할 수 있는 방법(토크백 회로)으로 탤런트와 별도의 방에 있어야 합니다.

녹음은 -80dB를 목표로 하며 가능한 한 낮은 소음을 포함해야 합니다.

"부스"에서 아무 말도 하지 않고 녹음하여 잘 들어보고 소음이 어디서 나오는지 파악한 후 원인을 제거합니다. 노이즈의 일반적인 출처는 통풍구, 형광등 안정기, 도로 근처의 차량 소음 및 장비 팬(노트북 PC에도 팬이 있을 수 있음)입니다. 마이크 및 케이블은 근처의 AC 배선에서 전기 잡음(웅 또는 윙 소리)을 포착할 수 있습니다. 전기 잡음(buzz)은 장비가 둘 이상의 전기 회로에 연결되어 발생하는 접지 루프로 인해 발생할 수도 있습니다.

경우에 따라 이퀄라이저 또는 노이즈 감소 소프트웨어 플러그 인을 사용하여 녹음에서 노이즈를 제거하는 데 도움이 될 수 있지만, 항상 출처에서 노이즈를 멈추게 하는 것이 가장 좋습니다.

사용 가능한 디지털 녹음의 동적 범위 대부분이 증속 없이 사용되도록 수준을 설정합니다. 즉, 오디오는 크게 설정되지만 그렇게 크게 왜곡되지는 않습니다. 양호한 녹음 파형의 예는 다음 이미지에 나와 있습니다.

양호한 녹음 파형

여기서 대부분의 범위(높이)가 사용되지만, 창의 맨 위 또는 맨 아래에 신호의 최대치가 도달하지 않습니다. 또한 녹음에서 아무 말도 하지 않은 부분이 얇은 가로 선에 비슷해지므로 소음이 낮은 층이라는 것을 알 수 있습니다. 이 녹음은 허용되는 동적 범위 및 신호 대 잡은 비율을 갖습니다.

사용하는 마이크에 따라 고품질 오디오 인터페이스 또는 USB 포트를 통해 컴퓨터에 직접 녹음합니다. 아날로그 방식의 경우, 오디오 체인을 마이크, 프리앰프, 오디오 인터페이스, 컴퓨터 순서로 간단히 유지합니다. Avid Pro ToolsAdobe Audition에 대한 라이선스는 모두 월 단위의 합리적인 비용으로 취득할 수 있습니다. 예산이 충분치 않은 경우 무료 Audacity를 사용해보세요.

44.1KHz 16비트 모노포닉(CD 품질) 이상으로 녹음합니다. 장비에서 지원하는 경우 현재 최신 상태는 48kHz 24비트입니다. 오디오는 Speech Studio에 제출하기 전에 24kHz 16비트로 다운샘플링합니다. 그래도 편집이 필요한 경우에 대비하여 고품질의 원래 녹음을 확보하는 것이 좋습니다.

가급적이면 감독, 엔지니어 및 성우 역할을 각각 다른 사람이 맡는 것이 좋습니다. 이 모두를 직접 수행하려고 시도하지 마세요. 필요한 경우 한 사람이 감독과 엔지니어를 모두 맡을 수도 있습니다.

세션 전 수행할 작업

스튜디오 시간을 낭비하지 않으려면 녹음 세션 전에 성우와 함께 스크립트를 살펴봅니다. 성우는 텍스트에 익숙해지면서 친숙하지 않은 단어의 발음을 명확히 할 수 있습니다.

참고 항목

대부분의 녹음 스튜디오에서는 전자 기기를 통해 녹음 부스에 스크립트를 제공합니다. 이 경우 스크립트의 문서에 직접 메모를 입력(타이핑)합니다. 그러나 세션 중에 펜으로 메모하려면 용지로 된 사본(인쇄물)이 필요할 수 있습니다. 대부분의 엔지니어는 하드 카피를 선호합니다. 또한 컴퓨터가 다운되는 경우에 대비하여 성우에 대한 세 번째 인쇄본을 백업으로 원할 수도 있습니다.

성우는 발화에서 강조해야 하는 단어("중요한 단어")를 물어볼 수 있습니다. 특별히 강조하는 부분 없이 자연스럽게 읽어줄 것을 요청합니다. 음성이 합성될 때 강조가 추가될 수 있지만 원본 녹음에는 필요하지 않습니다.

성우에게 단어를 구분해서 발음하도록 지시합니다. 스크립트의 모든 단어는 쓰여진 그대로 발음해야 합니다. 스크립트에서 생략하거나 분명하게 발음하지 않도록 쓰여 있지 않는 한 소리는 일상적인 말투에서 흔히 있는 것처럼 이런 방식으로 처리되지 않아야 합니다.

작성된 텍스트 원치 않는 평상시 발음
never going to give you up never gonna give you up
there are four lights there're four lights
how's the weather today how's th' weather today
say hello to my little friend say hello to my lil' friend

성우는 단어 중간에 별도의 일시 중지를 추가하지 않아야* 합니다. 다소 격식을 차린 것처럼 들리더라도 문장이 자연스럽게 흘러야 합니다. 이 미세한 구별은 연습을 통해 달성할 수 있습니다.

녹음 세션

세션을 시작할 때 참조 녹음 또는 전형적인 발언을 포함하는 일치 파일을 만듭니다. 성우에게 모든 페이지에 이 줄을 반복해서 녹음할 것을 요청합니다. 매번 새 녹음을 참조 녹음과 비교합니다. 이렇게 하면 성우의 음성 볼륨, 박자, 높낮이 및 억양을 일정하게 유지할 수 있습니다. 한편, 엔지니어는 일치 파일을 기준으로 소리의 수준과 전반적인 일관성을 비교할 수 있습니다.

일치 파일은 휴식 후 또는 다른 날에 녹음을 재개할 때 특히 중요합니다. 성우를 위해 일치 파일을 여러 번 재생하고, 일치할 때까지 매번 반복해야 합니다.

특정 스타일로 코퍼스를 기록하려면 원하는 스타일을 보여 주는 스크립트를 신중하게 선택합니다. 녹음하는 동안 성우가 볼륨, 박자, 높낮이 및 억양을 일관되게 유지하여 의도한 스타일을 구현하는 녹음을 달성하도록 합니다.

성우가 각 발언 전에 깊게 심호흡하고 잠시 중단하도록 코칭합니다. 발언 사이에 몇 초 정도 아무 말도 하지 않고 녹음합니다. 단어가 문맥을 고려하여 나타날 때마다 해당 단어는 동일한 방식으로 발음해야 합니다. 예를 들어 "record" 동사는 "record" 명사와 다르게 발음됩니다.

첫 번째 녹음 전에 약 5초 동안 아무 말도 하지 않고 녹음하여 ‘룸 톤’을 포착합니다. 이렇게 하면 Speech Studio에서 녹음하는 나머지 모든 노이즈를 보정할 수 있습니다.

캡처해야 하는 것은 성우뿐이므로 해당 대사만 모노포닉(단일 채널)으로 녹음할 수 있습니다. 그렇지만 스테레오로 녹음할 경우에는 두 번째 채널을 통해 제어실의 대화 내용을 녹음하여 특정 줄이나 테이크에 대한 논의 내용을 포착할 수 있습니다. Speech Studio에 업로드된 버전에서 이 트랙을 제거합니다.

헤드폰을 사용해서 성우의 퍼포먼스를 자세히 들어봅니다. 유려하면서 자연스러운 발음, 정확한 발음, 불필요한 소리가 들리지 않는 결과를 원할 것입니다. 언제든지 이러한 표준을 충족하지 않는 발언은 다시 녹음하도록 성우에게 요청합니다.

많은 발화를 사용하는 경우 하나의 발화가 결과 사용자 지정 신경망 음성에 두드러진 영향을 주지 않을 수 있습니다. 문제가 있는 발화를 간단히 기록하고 이를 데이터 세트에서 제외하고 사용자 지정 신경망 음성이 어떻게 나오는지 확인하는 것이 더 편리할 수 있습니다. 나중에 항상 스튜디오로 돌아와 누락된 샘플을 다시 녹음할 수 있습니다.

각 발화에 대한 스크립트의 테이크 번호 또는 타임 코드를 메모합니다. 녹음의 메타데이터 또는 큐 시트에도 각 발화를 표시하도록 엔지니어에게 요청합니다.

성우가 좋은 음성을 낼 수 있도록 주기적으로 휴식을 취하고 충분한 음료를 제공합니다.

세션 후 수행할 작업

최신 녹음 스튜디오는 컴퓨터에서 작업합니다. 세션이 끝나면 테이프가 아닌 하나 이상의 오디오 파일이 전달됩니다. 이러한 파일은 CD 품질(44.1KHz 16비트) 이상의 WAV 또는 AIFF 형식일 수 있습니다. 24kHz 16비트가 일반적이고 적절합니다. 사용자 지정 신경망 음성의 기본 샘플링 속도는 24KHz입니다. 학습 데이터에 대해 24KHz 이상의 샘플 속도를 사용하는 것이 좋습니다. 일반적으로 96KHz와 같은 더 높은 샘플링 속도는 필요하지 않습니다.

Speech Studio에서는 제공된 각 발화는 자체 파일에 있어야 합니다. 스튜디오에서 제공하는 각 오디오 파일에는 여러 개의 발화가 포함되어 있습니다. 따라서 기본적인 제작 후 작업을 통해 녹음을 분할하고 제출용으로 준비해야 합니다. 녹음 엔지니어는 각 발화가 시작되는 위치를 나타내기 위해 파일에 마커를 배치할 수 있습니다(또는 별도의 큐 시트 제공).

메모를 사용하여 원하는 정확한 테이크를 찾은 다음, Avid Pro Tools, Adobe Audition 또는 무료 Audacity와 같은 소리 편집 유틸리티를 사용하여 각 발화를 새 파일에 복사합니다.

각 파일을 신중하게 들어봅니다. 이 단계에서는 줄 앞에서 입술 닿는 소리와 같이 녹음 중에 삭제하지 못한 원치 않는 소리를 없앨 수 있지만 실제 음성을 제거하지 않도록 주의해야 합니다. 파일을 수정할 수 없으면 데이터 세트에서 제거하고 해당 작업을 적어 둡니다.

저장하기 전에 각 파일을 16비트 및 24KHz 이상의 샘플 속도로 변환하고 스튜디오 채팅을 녹음한 경우 두 번째 채널을 제거합니다. 각 파일을 WAV 형식으로 저장하고, 스크립트의 발언 번호를 사용해서 파일 이름을 지정합니다.

마지막으로 각 WAV 파일과 관련된 해당 발화의 텍스트 버전인 대본을 만듭니다. 음성 모델 학습에는 필요한 형식에 대한 세부 정보가 포함됩니다. 스크립트에서 직접 텍스트를 복사할 수 있습니다. 그런 다음, WAV 파일 및 텍스트 기록이 포함된 Zip 파일을 만듭니다.

나중에 필요한 경우에 대비해서 녹음 원본을 안전한 위치에 보관합니다. 스크립트 및 메모도 함께 보관합니다.

다음 단계

녹음을 업로드하고 사용자 지정 신경망 음성을 만들 준비가 되었습니다.