什麼是文件翻譯?
文件翻譯是 Azure AI 翻譯工具服務的雲端式機器翻譯功能。 您可以翻譯所有支援的語言和方言的多個複雜文件,同時保留原始文件結構和資料格式。 文件翻譯 API 支援兩種翻譯流程:
異步批次翻譯支援多個文件和大型檔案的處理。 批次翻譯流程需要具有來源和翻譯文件儲存體容器的 Azure Blob 儲存體帳戶。
同步單一檔案支援單一檔案翻譯的處理。 檔案翻譯流程不需要 Azure Blob 儲存體帳戶。 最終回應包含已翻譯的文件,並會直接傳回給呼叫用戶端。
非同步批次轉譯
使用非同步文件處理來翻譯多個文件和大型檔案。
批次重要功能
功能 | 描述 |
---|---|
翻譯大型檔案 | 以非同步方式翻譯整份文件。 |
翻譯許多檔案 | 翻譯所有支援語言和方言的多個檔案,同時保留文件結構和資料格式。 |
保留來源檔案簡報 | 翻譯檔案,同時保留原始的版面配置和格式。 |
套用自訂翻譯 | 使用一般和自訂翻譯模型來翻譯文件。 |
套用自訂字彙 | 使用自訂字彙翻譯文件。 |
自動偵測文件語言 | 讓文件翻譯服務判斷文件的語言。 |
翻譯內容包含多種語言的文件 | 您可以使用自動偵測功能,將內容包含多種語言的文件翻譯成您的目標語言。 |
批次開發選項
您可以使用 REST API 或用戶端程式庫 SDK,將文件翻譯新增至您的應用程式:
REST API。 是一種語言中立的介面,可讓您建立 HTTP 要求和授權標頭來翻譯文件。
用戶端程式庫 SDK 是語言特定的類別、物件、方法和程式碼,您可以在專案中新增參考即可快速使用。 文件翻譯目前有 C#/.NET 和 Python 的程式設計語言支援。
批次支援的檔案格式
取得支援的文件格式方法會傳回文件翻譯服務所支援的文件格式清單。 此清單包含通用副檔名,以及使用上傳 API 時的 content-type。
檔案類型 | 副檔名 | 描述 |
---|---|---|
Adobe PDF | pdf |
可攜式文件檔案格式。 文件翻譯會使用光學字元辨識 (OCR) 技術來擷取和轉譯掃描 PDF 文件中的文字,同時保留原始版面配置。 |
逗點分隔值 | csv |
試算表程式所使用的逗點分隔原始資料檔案。 |
HTML | % | 超文字標記語言。 |
當地語系化交換檔案格式 | xlf | 平行文件格式,翻譯記憶體系統的匯出。 使用的語言定義於檔案內。 |
Markdown | 用於建立格式化文字的輕量標記語言。 | |
MHTML | % | 用來合併 HTML 程式碼與其附屬資源的網頁封存格式。 |
Microsoft Excel | % | 用於資料分析和文件的試算表檔案。 |
Microsoft Outlook | msg |
在 Microsoft Outlook 內建立或儲存的電子郵件訊息。 |
Microsoft PowerPoint | % | 用來以投影片格式顯示內容的簡報檔案。 |
Microsoft Word | % | 文字文件檔案。 |
OpenDocument 文字 | odt |
開放原始碼的文字文件檔案。 |
OpenDocument 簡報 | odp |
開放原始碼展示檔。 |
OpenDocument 試算表 | ods |
開放原始碼試算表檔案。 |
RTF 文字格式 | rtf |
包含格式的文字文件。 |
定位字元分隔值/TAB | tsv /tab |
試算表程式所使用的逗點分隔原始資料檔案。 |
Text | txt |
未格式化的文字文件。 |
批次舊版檔案類型
在文件翻譯期間會保留來源檔案類型,但有下列例外:
來源檔案副檔名 | 翻譯檔案的副檔名 |
---|---|
.doc, .odt, .rtf, | .docx |
.xls, .ods | .xlsx |
.ppt, .odp | .pptx |
批次支援的詞彙格式
文件翻譯支援下列詞彙檔案類型:
檔案類型 | 副檔名 | 描述 |
---|---|---|
逗點分隔值 | csv |
試算表程式所使用的逗點分隔原始資料檔案。 |
當地語系化交換檔案格式 | 平行文件格式,匯出翻譯記憶體系統,所使用語言是在檔案中定義。 | |
定位字元分隔值/TAB | % | 試算表程式所使用的逗點分隔原始資料檔案。 |
同步翻譯
使用同步翻譯處理將文件傳送為 HTTP 要求本文的一部分,並在 HTTP 回應中接收翻譯的文件。
同步翻譯重要功能
功能 | 描述 |
---|---|
翻譯單頁檔案 | 同步要求只接受單一文件作為輸入。 |
保留來源檔案簡報 | 翻譯檔案,同時保留原始的版面配置和格式。 |
套用自訂翻譯 | 使用一般和自訂翻譯模型來翻譯文件。 |
套用自訂字彙 | 使用自訂字彙翻譯文件。 |
單一語言翻譯 | 在單一支援的語言來回翻譯。 |
自動偵測文件語言 | 讓文件翻譯服務判斷文件的語言。 |
套用自訂字彙 | 使用自訂字彙翻譯文件。 |
同步支援的檔案格式
檔案類型 | 副檔名 | 內容類型 | 描述 |
---|---|---|---|
純文字 | .txt |
text/plain |
未格式化的文字文件。 |
定位字元分隔值 | .txv .tab |
text/tab-separated-values |
文字檔案格式,使用定位字元來分隔值以及使用新行來分隔記錄。 |
逗點分隔值 | .csv |
text/csv |
使用逗點作為值之間分隔符號的文字檔案格式。 |
超文字標記語言 | .html .htm |
text/html |
HTML 是用來建構網頁和內容的標準標記語言。 |
MHTML | .mthml .mht |
message/rfc822 @ application/x-mimearchive @ multipart/related |
網頁封存檔案格式。 |
Microsoft PowerPoint | .pptx |
application/vnd.openxmlformats-officedocument.presentationml.presentation |
用於 PowerPoint 投影片簡報的 XML 檔案格式。 |
Microsoft Excel | .xlsx |
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
用於 Excel 試算表的 XML 檔案格式。 |
Microsoft Word | .docx |
application/vnd.openxmlformats-officedocument.wordprocessingml.document |
用於 Word 文件的 XML 檔案格式。 |
Microsoft Outlook | .msg |
application/vnd.ms-outlook |
用於儲存 Outlook 郵件訊息物件的檔案格式。 |
XML 當地語系化交換 | .xlf .xliff |
application/xliff+xml |
廣泛用於翻譯和當地語系化軟體處理的標準化 XML 檔案格式。 |
同步支援的詞彙格式
文件翻譯支援下列詞彙檔案類型:
檔案類型 | 副檔名 | 描述 |
---|---|---|
逗點分隔值 | csv |
試算表程式所使用的逗點分隔原始資料檔案。 |
XmlLocalizationInterchange | XML 格式,其設計目的是標準化當地語系化程序期間傳遞資料的方式。 | |
TabSeparatedValues | % | 試算表程式所使用的逗點分隔原始資料檔案。 |
文件翻譯要求限制
如需有關 Azure AI 翻譯工具服務要求限制的詳細資訊,請參閱文件翻譯要求限制。
文件翻譯資料落地
文件翻譯資料落地取決於建立翻譯工具資源的 Azure 區域:
✔️ 功能:文件翻譯
✔️服務端點:自訂:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1
資源建立的區域 | 要求處理資料中心 |
---|---|
全球 | 最接近的可用資料中心。 |
美洲 | 美國東部 2 • 美國西部 2 |
亞太地區 | 日本東部 • 東南亞 |
歐洲 (瑞士除外) | 法國中部 • 西歐 |
瑞士 | 瑞士北部 • 瑞士西部 |
下一步
在快速入門中,您將了解如何透過文件翻譯來快速開始使用。 若要開始,您需要使用中的 Azure 帳戶。 如果您沒有帳戶,您可以建立免費帳戶。