다음을 통해 공유


문서 번역이란?

문서 번역은 Azure AI 번역기 서비스의 클라우드 기반 기계 번역 기능입니다. 원래 문서 구조와 데이터 형식은 유지하면서 모든 지원되는 언어에서 복잡한 여러 문서를 번역할 수 있습니다. 문서 번역 API는 두 가지 번역 프로세스를 지원합니다.

  • 비동기 일괄 처리 번역은 여러 문서와 대용량 파일의 처리를 지원합니다. 일괄 처리 번역 프로세스에는 원본 및 번역된 문서에 대한 스토리지 컨테이너가 포함된 Azure Blob Storage 계정이 필요합니다.

  • 동기식 단일 파일은 단일 파일 번역 처리를 지원합니다. 파일 번역 프로세스에는 Azure Blob Storage 계정이 필요하지 않습니다. 최종 응답에는 번역된 문서가 포함되어 있으며 호출 클라이언트에 직접 반환됩니다.

비동기식 일괄 처리 번역

비동기식 문서 처리를 사용하여 여러 문서 및 대용량 파일을 번역합니다.

일괄 처리 주요 기능

기능 설명
대용량 파일 번역 전체 문서를 비동기적으로 번역합니다.
대용량 파일 번역 문서 구조와 데이터 형식을 유지하면서 지원되는 모든 언어와 방언으로 여러 파일을 번역합니다.
원본 파일 프레젠테이션 보존 원래 레이아웃과 형식을 유지하면서 파일을 번역합니다.
사용자 지정 번역 적용 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역합니다.
사용자 지정 글로서리 적용 사용자 지정 글로서리를 사용하여 문서를 번역합니다.
문서 언어 자동 검색 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다.
여러 언어로 된 콘텐츠가 있는 문서 번역 자동 검색 기능을 사용하여 여러 언어로 된 콘텐츠가 있는 문서를 대상 언어로 번역합니다.

일괄 처리 개발 옵션

REST API 또는 클라이언트 라이브러리 SDK를 사용하여 애플리케이션에 문서 번역을 추가할 수 있습니다.

  • REST API는 HTTP 요청 및 권한 부여 헤더를 만들어 문서를 번역할 수 있는 언어 중립적 인터페이스입니다.

  • 클라이언트 라이브러리 SDK는 프로젝트에 참조를 추가하여 신속하게 사용할 수 있는 언어별 클래스, 개체, 메서드, 코드입니다. 현재 문서 번역에서는 C#/.NETPython 같은 프로그래밍 언어를 지원합니다.

일괄 처리 지원 문서 형식

지원되는 문서 형식 가져오기 메서드는 문서 번역 서비스에서 지원하는 문서 형식 목록을 반환합니다. 이 목록에는 공용 파일 확장명 및 업로드 API를 사용하는 경우 콘텐츠 형식이 포함되어 있습니다.

파일 형식 파일 확장명 설명
Adobe PDF pdf 이식 가능한 문서 파일 형식입니다. 문서 번역기는 OCR(광학 인식) 기술을 사용하여 원본 레이아웃을 유지하면서 스캔한 PDF 문서에서 텍스트를 추출하고 번역합니다.
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
HTML html: htm Hyper Text Markup Language
지역화 교환 파일 형식 xlf 번역 메모리 시스템에서 내보낸 병렬 문서 형식입니다. 사용되는 언어는 파일 안에 정의되어 있습니다.
마크다운 서식이 지정된 텍스트를 만들기 위한 간단한 태그 언어입니다.
MHTML mthml: mht HTML 코드와 포함 리소스를 결합하는 데 사용되는 웹 페이지 보관 형식입니다.
Microsoft Excel xls: xlsx 데이터 분석 및 설명서에 대한 스프레드 시트 파일입니다.
Microsoft Outlook msg Microsoft Outlook 내에서 만들어지거나 저장된 이메일 메시지입니다.
Microsoft PowerPoint ppt: pptx 슬라이드 쇼 형식으로 콘텐츠를 표시하는 데 사용되는 프레젠테이션 파일입니다.
Microsoft Word doc: docx 텍스트 문서 파일입니다.
OpenDocument 텍스트 odt 오픈 소스 텍스트 문서 파일입니다.
OpenDocument 프레젠테이션 odp 오픈 소스 프레젠테이션 파일입니다.
OpenDocument 스트레드시트 ods 오픈 소스 스프레드시트 파일입니다.
서식 있는 텍스트 형식 rtf 서식을 포함하는 텍스트 문서입니다.
탭으로 구분된 값/TAB tsv/tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.
Text txt 서식이 지정되지 않은 텍스트 문서입니다.

일괄 처리 레거시 파일 형식

원본 파일 형식은 다음을 제외하고 문서 번역 중에 유지됩니다.

원본 파일 확장명 번역된 파일 확장명
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

일괄 처리 지원 용어집 형식

문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.

파일 형식 파일 확장명 설명
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
지역화 교환 파일 형식 xlf, , 번역 메모리 시스템에서 내보낸 병렬 문서 형식입니다. 사용되는 언어는 파일 내에 정의되어 있습니다.
탭으로 구분된 값/TAB tsv: tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.

동기식 번역

동기식 번역 처리를 사용하여 HTTP 요청 본문의 일부로 문서를 보내고 HTTP 응답에서 번역된 문서를 받습니다.

동기식 번역 주요 기능

기능 설명
단일 페이지 파일 번역 동기식 요청은 단일 문서만 입력으로 허용합니다.
원본 파일 프레젠테이션 보존 원래 레이아웃과 형식을 유지하면서 파일을 번역합니다.
사용자 지정 번역 적용 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역합니다.
사용자 지정 글로서리 적용 사용자 지정 글로서리를 사용하여 문서를 번역합니다.
단일 언어 번역 지원되는 언어로 또는 지원되는 언어에서 번역합니다.
문서 언어 자동 검색 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다.
사용자 지정 글로서리 적용 사용자 지정 용어집을 사용하여 문서를 번역합니다.

동기식 지원 문서 형식

파일 형식 파일 확장명 콘텐츠 형식 설명
일반 텍스트 .txt text/plain 서식이 지정되지 않은 텍스트 문서입니다.
탭으로 구분된 값 .txv
.tab
text/tab-separated-values 탭을 사용하여 값을 구분하고 줄바꿈을 사용하여 레코드를 구분하는 텍스트 파일 형식입니다.
쉼표로 구분된 값 .csv text/csv 값 사이의 구분 기호로 쉼표를 사용하는 텍스트 파일 형식입니다.
HyperText Markup Language .html
.htm
text/html HTML은 웹 페이지 및 콘텐츠를 구성하는 데 사용되는 표준 태그 언어입니다.
M​HTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
웹 페이지 아카이브 파일 형식입니다.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation PowerPoint 슬라이드 쇼 프레젠테이션에 사용되는 XML 기반 파일 형식입니다.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Excel 스프레드시트에 사용되는 XML 기반 파일 형식입니다.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Word 문서에 사용되는 XML 기반 파일 형식입니다.
Microsoft Outlook .msg application/vnd.ms-outlook 저장된 Outlook 메일 메시지 개체에 사용되는 파일 형식입니다.
XML 지역화 교환 .xlf
.xliff
application/xliff+xml 번역 및 지역화 소프트웨어 처리에 널리 사용되는 표준화된 XML 기반 파일 형식입니다.

동기식 지원 용어집 형식

문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.

파일 형식 파일 확장명 설명
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
XmlLocalizationInterchange xlf, , 지역화 프로세스 중에 데이터가 전달되는 방식을 표준화하도록 설계된 XML 기반 형식입니다.
TabSeparatedValues tsv: tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.

문서 번역 요청 제한

Azure AI 번역기 서비스 요청 제한에 대한 자세한 내용은 문서 번역 요청 제한을 참조하세요.

문서 번역 데이터 보존

문서 번역 데이터 보존은 Translator 리소스가 만들어진 Azure 지역에 따라 달라집니다.

✔️ 기능: 문서 번역
✔️ 서비스 엔드포인트: 사용자 지정:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

리소스를 만든 지역 요청 처리 데이터 센터
Global 가장 가까운 사용 가능한 데이터 센터입니다.
아메리카 미국 동부 2 • 미국 서부 2
아시아 태평양 일본 동부 • 동남 아시아
유럽(스위스 제외): 프랑스 중부 • 서유럽
스위스 스위스 북부 • 스위스 서부

다음 단계

이 빠른 시작에서는 문서 번역 사용을 빠르게 시작하는 방법을 알아봅니다. 시작하려면 활성 Azure 계정이 필요합니다. 계정이 없는 경우 무료 계정에 만들 수 있습니다.