什麼是交談謄寫多頻道自動分段標記? (預覽版)
注意
此功能目前處於公開預覽。 此預覽版是在沒有服務等級協定的情況下提供,不建議用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
交談謄寫多頻道自動分段標記是一種語音轉換文字解決方案,可提供任何會議的即時或非同步謄寫。 這項功能結合語音辨識、說話者識別和句子屬性,以判斷會議中的說話者、說話內容與說話的時機。
重要
對話轉譯多通道自動分段標記 (預覽) 將於 2025 年 3 月 28 日淘汰。 如需移轉至其他語音轉換文字功能的詳細資訊,請參閱移出交談謄寫多頻道自動分段標記。
移出交談謄寫多頻道自動分段標記
交談謄寫多頻道自動分段標記 (預覽) 將於 2025 年 3 月 28 日淘汰。
若要繼續使用語音轉換文字搭配自動分段標記,請改用下列功能:
這些語音轉換文字功能僅支援單頻道音訊的自動分段標記。 不支援搭配交談謄寫多頻道自動分段標記使用的多頻道音訊。
主要功能
您可能會發現對話謄寫的下列功能相當實用:
- 時間戳記:每個說話者的說話內容都有時間戳記,因此您可以輕鬆地找出某個字詞脫口而出的時間。
- 可讀取的文字記錄:文字記錄已自動新增格式設定和標點符號,以確保文字與所說的內容緊密相符。
- 使用者設定檔:使用者設定檔的產生方式是收集使用者語音範例,並將其傳送到簽章產生。
- 說話者識別:使用使用者設定檔識別說話者,並將說話者識別碼指派給每個使用者設定檔。
- 多說話者自動分段標記:使用每個說話者識別碼合成音訊串流,判斷誰說了什麼。
- 即時謄寫:提供使用者的即時文字記錄,指出會議發生的內容和時間。
- 非同步謄寫:使用多頻道音訊串流提供更高精確度的文字記錄。
注意
雖然對話謄寫不會限制空間內的說話者人數,但其最佳效果是每個工作階段 2 到 10 位說話者。
使用案例
若要讓所有人都能參與會議,例如失聰和重聽的參與者,請務必即時謄寫。 即時模式的對話謄寫會接受會議音訊,並判斷誰說了什麼,讓所有會議參與者都能跟上文字記錄並參與會議,而不會有延遲。
會議參與者可專注於會議,讓對話謄寫為他們做筆記。 參與者可以主動參與會議,並使用文字記錄來快速跟進後續步驟,而不是在會議期間做筆記而可能有所遺漏。
運作方式
下圖顯示系統功能運作方式的高階概觀。
預期輸入
對話謄寫使用兩種類型的輸入:
- 多頻道音訊串流:如需規格和設計詳細資料,請參閱麥克風陣列建議。
- 使用者語音範例:對話謄寫在對話前需要使用者設定檔以識別說話者。 向每位使用者收集音訊錄製,然後將記錄傳送到簽章產生服務,以驗證音訊,並產生使用者設定檔。
說話者識別需要語音簽章的使用者語音範例。 沒有語音範例的說話者會被辨識為「無法識別」。 當啟用 DifferentiateGuestSpeakers
屬性時,仍可以區分無法辨識的說話者 (請參閱下列範例)。 然後謄寫輸出會顯示說話者 (例如 Guest_0 和 Guest_1),而不是辨識為預先註冊的特定說話者名稱。
config.SetProperty("DifferentiateGuestSpeakers", "true");
即時或非同步
下列各節提供您可以選擇之謄寫模式的詳細資料。
即時
音訊資料會即時處理,以傳回說話者識別碼和文字記錄。 如果您的謄寫解決方案需求是為會議參與者提供進行中會議的即時文字記錄檢視,請選取此模式。 例如,建置應用程式讓聽力受損或失聰的參與者更容易參與會議,這是即時謄寫的理想使用案例。
非同步
音訊資料會經過批次處理,以傳回說話者識別碼和文字記錄。 如果您的謄寫解決方案需求是在沒有即時文字記錄檢視的情況下提供更高的精確度,請選取此模式。 例如,如果您想要建置應用程式,讓會議參與者能夠輕鬆趕上錯過的會議,請使用非同步謄寫模式來取得高精確度的謄寫結果。
即時加上非同步
音訊資料會即時處理以傳回說話者識別碼和文字記錄,此外,要求透過非同步處理取得高精確度的文字記錄。 如果您的應用程式需要即時謄寫,也需要較高精確度的文字記錄,以便在會議結束之後使用,請選取此模式。
語言與區域支援
目前,對話謄寫支援下列區域中的所有語音轉換文字語言:centralus
、eastasia
、eastus
、westeurope
。