문서 번역이란?
문서 번역은 Azure AI 번역기 서비스의 클라우드 기반 기계 번역 기능입니다. 원래 문서 구조와 데이터 형식은 유지하면서 모든 지원되는 언어에서 복잡한 여러 문서를 번역할 수 있습니다. 문서 번역 API는 두 가지 번역 프로세스를 지원합니다.
비동기 일괄 처리 번역은 여러 문서와 대용량 파일의 처리를 지원합니다. 일괄 처리 번역 프로세스에는 원본 및 번역된 문서에 대한 스토리지 컨테이너가 포함된 Azure Blob Storage 계정이 필요합니다.
동기식 단일 파일은 단일 파일 번역 처리를 지원합니다. 파일 번역 프로세스에는 Azure Blob Storage 계정이 필요하지 않습니다. 최종 응답에는 번역된 문서가 포함되어 있으며 호출 클라이언트에 직접 반환됩니다.
비동기식 일괄 처리 번역
비동기식 문서 처리를 사용하여 여러 문서 및 대용량 파일을 번역합니다.
일괄 처리 주요 기능
기능 | 설명 |
---|---|
대용량 파일 번역 | 전체 문서를 비동기적으로 번역합니다. |
대용량 파일 번역 | 문서 구조와 데이터 형식을 유지하면서 지원되는 모든 언어와 방언으로 여러 파일을 번역합니다. |
원본 파일 프레젠테이션 보존 | 원래 레이아웃과 형식을 유지하면서 파일을 번역합니다. |
사용자 지정 번역 적용 | 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역합니다. |
사용자 지정 글로서리 적용 | 사용자 지정 글로서리를 사용하여 문서를 번역합니다. |
문서 언어 자동 검색 | 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다. |
여러 언어로 된 콘텐츠가 있는 문서 번역 | 자동 검색 기능을 사용하여 여러 언어로 된 콘텐츠가 있는 문서를 대상 언어로 번역합니다. |
일괄 처리 개발 옵션
REST API 또는 클라이언트 라이브러리 SDK를 사용하여 애플리케이션에 문서 번역을 추가할 수 있습니다.
REST API는 HTTP 요청 및 권한 부여 헤더를 만들어 문서를 번역할 수 있는 언어 중립적 인터페이스입니다.
클라이언트 라이브러리 SDK는 프로젝트에 참조를 추가하여 신속하게 사용할 수 있는 언어별 클래스, 개체, 메서드, 코드입니다. 현재 문서 번역에서는 C#/.NET 및 Python 같은 프로그래밍 언어를 지원합니다.
일괄 처리 지원 문서 형식
지원되는 문서 형식 가져오기 메서드는 문서 번역 서비스에서 지원하는 문서 형식 목록을 반환합니다. 이 목록에는 공용 파일 확장명 및 업로드 API를 사용하는 경우 콘텐츠 형식이 포함되어 있습니다.
파일 형식 | 파일 확장명 | 설명 |
---|---|---|
Adobe PDF | pdf |
이식 가능한 문서 파일 형식입니다. 문서 번역기는 OCR(광학 인식) 기술을 사용하여 원본 레이아웃을 유지하면서 스캔한 PDF 문서에서 텍스트를 추출하고 번역합니다. |
쉼표로 구분된 값 | csv |
스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다. |
HTML | html : htm |
Hyper Text Markup Language |
지역화 교환 파일 형식 | xlf | 번역 메모리 시스템에서 내보낸 병렬 문서 형식입니다. 사용되는 언어는 파일 안에 정의되어 있습니다. |
마크다운 | 서식이 지정된 텍스트를 만들기 위한 간단한 태그 언어입니다. | |
MHTML | mthml : mht |
HTML 코드와 포함 리소스를 결합하는 데 사용되는 웹 페이지 보관 형식입니다. |
Microsoft Excel | xls : xlsx |
데이터 분석 및 설명서에 대한 스프레드 시트 파일입니다. |
Microsoft Outlook | msg |
Microsoft Outlook 내에서 만들어지거나 저장된 이메일 메시지입니다. |
Microsoft PowerPoint | ppt : pptx |
슬라이드 쇼 형식으로 콘텐츠를 표시하는 데 사용되는 프레젠테이션 파일입니다. |
Microsoft Word | doc : docx |
텍스트 문서 파일입니다. |
OpenDocument 텍스트 | odt |
오픈 소스 텍스트 문서 파일입니다. |
OpenDocument 프레젠테이션 | odp |
오픈 소스 프레젠테이션 파일입니다. |
OpenDocument 스트레드시트 | ods |
오픈 소스 스프레드시트 파일입니다. |
서식 있는 텍스트 형식 | rtf |
서식을 포함하는 텍스트 문서입니다. |
탭으로 구분된 값/TAB | tsv /tab |
스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다. |
Text | txt |
서식이 지정되지 않은 텍스트 문서입니다. |
일괄 처리 레거시 파일 형식
원본 파일 형식은 다음을 제외하고 문서 번역 중에 유지됩니다.
원본 파일 확장명 | 번역된 파일 확장명 |
---|---|
.doc, .odt, .rtf, | .docx |
.xls, .ods | .xlsx |
.ppt, .odp | .pptx |
일괄 처리 지원 용어집 형식
문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.
파일 형식 | 파일 확장명 | 설명 |
---|---|---|
쉼표로 구분된 값 | csv |
스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다. |
지역화 교환 파일 형식 | xlf , , |
번역 메모리 시스템에서 내보낸 병렬 문서 형식입니다. 사용되는 언어는 파일 내에 정의되어 있습니다. |
탭으로 구분된 값/TAB | tsv : tab |
스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다. |
동기식 번역
동기식 번역 처리를 사용하여 HTTP 요청 본문의 일부로 문서를 보내고 HTTP 응답에서 번역된 문서를 받습니다.
동기식 번역 주요 기능
기능 | 설명 |
---|---|
단일 페이지 파일 번역 | 동기식 요청은 단일 문서만 입력으로 허용합니다. |
원본 파일 프레젠테이션 보존 | 원래 레이아웃과 형식을 유지하면서 파일을 번역합니다. |
사용자 지정 번역 적용 | 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역합니다. |
사용자 지정 글로서리 적용 | 사용자 지정 글로서리를 사용하여 문서를 번역합니다. |
단일 언어 번역 | 지원되는 언어로 또는 지원되는 언어에서 번역합니다. |
문서 언어 자동 검색 | 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다. |
사용자 지정 글로서리 적용 | 사용자 지정 용어집을 사용하여 문서를 번역합니다. |
동기식 지원 문서 형식
파일 형식 | 파일 확장명 | 콘텐츠 형식 | 설명 |
---|---|---|---|
일반 텍스트 | .txt |
text/plain |
서식이 지정되지 않은 텍스트 문서입니다. |
탭으로 구분된 값 | .txv .tab |
text/tab-separated-values |
탭을 사용하여 값을 구분하고 줄바꿈을 사용하여 레코드를 구분하는 텍스트 파일 형식입니다. |
쉼표로 구분된 값 | .csv |
text/csv |
값 사이의 구분 기호로 쉼표를 사용하는 텍스트 파일 형식입니다. |
HyperText Markup Language | .html .htm |
text/html |
HTML은 웹 페이지 및 콘텐츠를 구성하는 데 사용되는 표준 태그 언어입니다. |
MHTML | .mthml .mht |
message/rfc822 @ application/x-mimearchive @ multipart/related |
웹 페이지 아카이브 파일 형식입니다. |
Microsoft PowerPoint | .pptx |
application/vnd.openxmlformats-officedocument.presentationml.presentation |
PowerPoint 슬라이드 쇼 프레젠테이션에 사용되는 XML 기반 파일 형식입니다. |
Microsoft Excel | .xlsx |
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
Excel 스프레드시트에 사용되는 XML 기반 파일 형식입니다. |
Microsoft Word | .docx |
application/vnd.openxmlformats-officedocument.wordprocessingml.document |
Word 문서에 사용되는 XML 기반 파일 형식입니다. |
Microsoft Outlook | .msg |
application/vnd.ms-outlook |
저장된 Outlook 메일 메시지 개체에 사용되는 파일 형식입니다. |
XML 지역화 교환 | .xlf .xliff |
application/xliff+xml |
번역 및 지역화 소프트웨어 처리에 널리 사용되는 표준화된 XML 기반 파일 형식입니다. |
동기식 지원 용어집 형식
문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.
파일 형식 | 파일 확장명 | 설명 |
---|---|---|
쉼표로 구분된 값 | csv |
스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다. |
XmlLocalizationInterchange | xlf , , |
지역화 프로세스 중에 데이터가 전달되는 방식을 표준화하도록 설계된 XML 기반 형식입니다. |
TabSeparatedValues | tsv : tab |
스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다. |
문서 번역 요청 제한
Azure AI 번역기 서비스 요청 제한에 대한 자세한 내용은 문서 번역 요청 제한을 참조하세요.
문서 번역 데이터 보존
문서 번역 데이터 보존은 Translator 리소스가 만들어진 Azure 지역에 따라 달라집니다.
✔️ 기능: 문서 번역
✔️ 서비스 엔드포인트: 사용자 지정:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1
리소스를 만든 지역 | 요청 처리 데이터 센터 |
---|---|
Global | 가장 가까운 사용 가능한 데이터 센터입니다. |
아메리카 | 미국 동부 2 • 미국 서부 2 |
아시아 태평양 | 일본 동부 • 동남 아시아 |
유럽(스위스 제외): | 프랑스 중부 • 서유럽 |
스위스 | 스위스 북부 • 스위스 서부 |
다음 단계
이 빠른 시작에서는 문서 번역 사용을 빠르게 시작하는 방법을 알아봅니다. 시작하려면 활성 Azure 계정이 필요합니다. 계정이 없는 경우 무료 계정에 만들 수 있습니다.