如何使用壓縮的輸入音訊

發行項
10/16/2024

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 SDK 可以使用 GStreamer 來處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須安裝一些相依性和外掛程式。

GStreamer 二進位檔必須位於系統路徑中，才能在執行時間由語音 SDK 載入。例如在 Windows 上，若語音 SDK 於執行階段期間找到 libgstreamer-1.0-0.dll 或 gstreamer-1.0-0.dll (最新的 GStreamer)，則表示 GStreamer 二進位檔位於系統路徑中。

選擇平台以取得安裝指示。

Linux
Windows

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

確定已安裝相同平台 (x64 或 x86) 的套件。例如，若您已安裝適用於 Python 的 x64 套件，您必須安裝 x64 GStreamer 套件。下述指示適用於 x64 套件。

建立資料夾 c:\gstreamer。
下載安裝程式。
將安裝程式複製至 c:\gstreamer。
以管理員身分開啟 PowerShell。

在 PowerShell 中執行下列命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用 "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" 作為變數值來新增系統變數 GST_PLUGIN_PATH。
使用 "C:\gstreamer\1.0\msvc_x86_64" 作為變數值來新增系統變數 GSTREAMER_ROOT_X86_64。
編輯系統變數 PATH，將 "C:\gstreamer\1.0\msvc_x86_64\bin" 新增為新項目。
重新啟動電腦。

如需 GStreamer 的詳細資訊，請參閱 Windows 安裝指示 (英文)。

範例

如要設定語音 SDK 接受壓縮的音訊輸入，請建立 PullAudioInputStream 或 PushAudioInputStream。然後再從串流類別的執行個體中建立 AudioConfig，該類別可指定資料流的壓縮格式。在關於語音 SDK 音訊輸入資料流 API中，可找到相關的範例程式碼片段。

假設您有一個名為 pullStream，且使用 OPUS/OGG 的輸入資料流類別。您的程式碼外觀如下：

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

// ... omitted for brevity

var speechConfig =
    SpeechConfig.FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion");

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
var pullStream = AudioInputStream.CreatePullStream(
    AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.OGG_OPUS));
var audioConfig = AudioConfig.FromStreamInput(pullStream);

using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);
var result = await recognizer.RecognizeOnceAsync();

var text = result.Text;

參考文件 | 套件 (NuGet) | GitHub 上的其他範例

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 SDK 可以使用 GStreamer 來處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須安裝一些相依性和外掛程式。

選擇平台以取得安裝指示。

Linux
Windows

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

確定已安裝相同平台 (x64 或 x86) 的套件。例如，若您已安裝適用於 Python 的 x64 套件，您必須安裝 x64 GStreamer 套件。下述指示適用於 x64 套件。

建立資料夾 c:\gstreamer。
下載安裝程式。
將安裝程式複製至 c:\gstreamer。
以管理員身分開啟 PowerShell。

在 PowerShell 中執行下列命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用 "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" 作為變數值來新增系統變數 GST_PLUGIN_PATH。
使用 "C:\gstreamer\1.0\msvc_x86_64" 作為變數值來新增系統變數 GSTREAMER_ROOT_X86_64。
編輯系統變數 PATH，將 "C:\gstreamer\1.0\msvc_x86_64\bin" 新增為新項目。
重新啟動電腦。

如需 GStreamer 的詳細資訊，請參閱 Windows 安裝指示 (英文)。

範例

如要設定語音 SDK 接受壓縮的音訊輸入，請建立 PullAudioInputStream 或 PushAudioInputStream。然後再從串流類別的執行個體中建立 AudioConfig，該類別可指定資料流的壓縮格式。在語音 SDK 範例 (英文) 中，可找到相關的範例程式碼。

假設您有一個名為 pushStream，且使用 OPUS/OGG 的輸入資料流類別。您的程式碼外觀如下：

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

// ... omitted for brevity

 auto config =
    SpeechConfig::FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion"
    );

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
auto pullStream = AudioInputStream::CreatePullStream(
    AudioStreamFormat::GetCompressedFormat(AudioStreamContainerFormat::OGG_OPUS));
auto audioConfig = AudioConfig::FromStreamInput(pullStream);

auto recognizer = SpeechRecognizer::FromConfig(config, audioConfig);
auto result = recognizer->RecognizeOnceAsync().get();

auto text = result->Text;

參考文件 | 套件 (Go) | GitHub 上的其他範例

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 SDK 可以使用 GStreamer 來處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須安裝一些相依性和外掛程式。

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

範例

如要設定語音 SDK 接受壓縮的音訊輸入，請建立 PullAudioInputStream 或 PushAudioInputStream。然後再從串流類別的執行個體中建立 AudioConfig，該類別可指定資料流的壓縮格式。

在下列範例中，我們假設您的使用案例是針對壓縮檔案使用 PushStream。


package recognizer

import (
  "fmt"
  "time"
    "strings"

  "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/samples/helpers"
)

func RecognizeOnceFromCompressedFile(subscription string, region string, file string) {
  var containerFormat audio.AudioStreamContainerFormat
  if strings.Contains(file, ".mulaw") {
    containerFormat = audio.MULAW
  } else if strings.Contains(file, ".alaw") {
    containerFormat = audio.ALAW
  } else if strings.Contains(file, ".mp3") {
    containerFormat = audio.MP3
  } else if strings.Contains(file, ".flac") {
    containerFormat = audio.FLAC
  } else if strings.Contains(file, ".opus") {
    containerFormat = audio.OGGOPUS
  } else {
    containerFormat = audio.ANY
  }
  format, err := audio.GetCompressedFormat(containerFormat)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer format.Close()
  stream, err := audio.CreatePushAudioInputStreamFromFormat(format)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer stream.Close()
  audioConfig, err := audio.NewAudioConfigFromStreamInput(stream)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer audioConfig.Close()
  config, err := speech.NewSpeechConfigFromSubscription(subscription, region)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer config.Close()
  speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(config, audioConfig)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer speechRecognizer.Close()
  speechRecognizer.SessionStarted(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
  })
  speechRecognizer.SessionStopped(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
  })
  helpers.PumpFileIntoStream(file, stream)
  task := speechRecognizer.RecognizeOnceAsync()
  var outcome speech.SpeechRecognitionOutcome
  select {
  case outcome = <-task:
  case <-time.After(40 * time.Second):
    fmt.Println("Timed out")
    return
  }
  defer outcome.Close()
  if outcome.Error != nil {
    fmt.Println("Got an error: ", outcome.Error)
  }
  fmt.Println("Got a recognition!")
  fmt.Println(outcome.Result.Text)
}

參考文件 | GitHub 上的其他範例

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 SDK 可以使用 GStreamer 來處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須安裝一些相依性和外掛程式。

選擇平台以取得安裝指示。

系統會使用 GStreamer 實作已壓縮音訊的處理作業。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須改用 Android 的預建二進位檔。如要下載預建程式庫，請參閱安裝 Android 開發環境。

需要 libgstreamer_android.so 物件。請確定所有的 GStreamer 外掛程式 (來自下方的 Android.mk 檔案)，皆連結於 libgstreamer_android.so 中。當您使用具有 GStreamer 1.18.3 版的語音 SDK 時，在 android ndk 中也必須具有 libc++_shared.so。

GSTREAMER_PLUGINS := coreelements app audioconvert mpg123 \
    audioresample audioparsers ogg opusparse \
    opus wavparse alaw mulaw flac

此處提供範例 Android.mk 與 Application.mk 檔案。請依照下列步驟建立gstreamer共用物件：libgstreamer_android.so。

# Android.mk
LOCAL_PATH := $(call my-dir)

include $(CLEAR_VARS)

LOCAL_MODULE    := dummy
LOCAL_SHARED_LIBRARIES := gstreamer_android
include $(BUILD_SHARED_LIBRARY)

ifndef GSTREAMER_ROOT_ANDROID
$(error GSTREAMER_ROOT_ANDROID is not defined!)
endif

ifndef APP_BUILD_SCRIPT
$(error APP_BUILD_SCRIPT is not defined!)
endif

ifndef TARGET_ARCH_ABI
$(error TARGET_ARCH_ABI is not defined!)
endif

ifeq ($(TARGET_ARCH_ABI),armeabi)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm
else ifeq ($(TARGET_ARCH_ABI),armeabi-v7a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/armv7
else ifeq ($(TARGET_ARCH_ABI),arm64-v8a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm64
else ifeq ($(TARGET_ARCH_ABI),x86)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86
else ifeq ($(TARGET_ARCH_ABI),x86_64)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86_64
else
$(error Target arch ABI not supported: $(TARGET_ARCH_ABI))
endif

GSTREAMER_NDK_BUILD_PATH  := $(GSTREAMER_ROOT)/share/gst-android/ndk-build/
include $(GSTREAMER_NDK_BUILD_PATH)/plugins.mk
GSTREAMER_PLUGINS         :=  $(GSTREAMER_PLUGINS_CORE) \ 
                              $(GSTREAMER_PLUGINS_CODECS) \ 
                              $(GSTREAMER_PLUGINS_PLAYBACK) \
                              $(GSTREAMER_PLUGINS_CODECS_GPL) \
                              $(GSTREAMER_PLUGINS_CODECS_RESTRICTED)
GSTREAMER_EXTRA_LIBS      := -liconv -lgstbase-1.0 -lGLESv2 -lEGL
include $(GSTREAMER_NDK_BUILD_PATH)/gstreamer-1.0.mk

# Application.mk
APP_STL = c++_shared
APP_PLATFORM = android-21
APP_BUILD_SCRIPT = Android.mk

您可在 Ubuntu 18.04 或 20.04 上，使用下列命令建置 libgstreamer_android.so。以下命令列已使用 Android NDK b16b 針對 [GStreamer Android 1.14.4 版] 進行了測試。

# Assuming wget and unzip are already installed on the system
mkdir buildLibGstreamer
cd buildLibGstreamer
wget https://dl.google.com/android/repository/android-ndk-r16b-linux-x86_64.zip
unzip -q -o android-ndk-r16b-linux-x86_64.zip
export PATH=$PATH:$(pwd)/android-ndk-r16b
export NDK_PROJECT_PATH=$(pwd)/android-ndk-r16b
wget https://gstreamer.freedesktop.org/download/
mkdir gstreamer_android
tar -xjf gstreamer-1.0-android-universal-1.14.4.tar.bz2 -C $(pwd)/gstreamer_android/
export GSTREAMER_ROOT_ANDROID=$(pwd)/gstreamer_android

mkdir gstreamer
# Copy the Application.mk and Android.mk from the documentation above and put it inside $(pwd)/gstreamer

# Enable only one of the following at one time to create the shared object for the targeted ABI
echo "building for armeabi-v7a. libgstreamer_android.so will be placed in $(pwd)/armeabi-v7a"
ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=armeabi-v7a NDK_LIBS_OUT=$(pwd)

#echo "building for arm64-v8a. libgstreamer_android.so will be placed in $(pwd)/arm64-v8a"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=arm64-v8a NDK_LIBS_OUT=$(pwd)

#echo "building for x86_64. libgstreamer_android.so will be placed in $(pwd)/x86_64"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86_64 NDK_LIBS_OUT=$(pwd)

#echo "building for x86. libgstreamer_android.so will be placed in $(pwd)/x86"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86 NDK_LIBS_OUT=$(pwd)

當建置共用物件 (libgstreamer_android.so) 後，請將共用物件置於 Android 應用程式中，以便語音 SDK 能夠負載。

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

確定已安裝相同平台 (x64 或 x86) 的套件。例如，若您已安裝適用於 Python 的 x64 套件，您必須安裝 x64 GStreamer 套件。下述指示適用於 x64 套件。

建立資料夾 c:\gstreamer。
下載安裝程式。
將安裝程式複製至 c:\gstreamer。
以管理員身分開啟 PowerShell。

在 PowerShell 中執行下列命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用 "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" 作為變數值來新增系統變數 GST_PLUGIN_PATH。
使用 "C:\gstreamer\1.0\msvc_x86_64" 作為變數值來新增系統變數 GSTREAMER_ROOT_X86_64。
編輯系統變數 PATH，將 "C:\gstreamer\1.0\msvc_x86_64\bin" 新增為新項目。
重新啟動電腦。

如需 GStreamer 的詳細資訊，請參閱 Windows 安裝指示 (英文)。

範例

假設您有一個名為 pullAudio，且使用 MP3 的輸入資料流類別。您的程式碼外觀如下：

String filePath = "whatstheweatherlike.mp3";
PullAudioInputStream pullAudio = AudioInputStream.createPullStream(new BinaryAudioStreamReader(filePath),
    AudioStreamFormat.getCompressedFormat(AudioStreamContainerFormat.MP3));
AudioConfig audioConfig = AudioConfig.fromStreamInput(pullAudio);

參考文件 | 套件 (npm) | GitHub 上的其他範例 | 程式庫原始程式碼

適用於 JavaScript 的語音 SDK 不支援壓縮的音訊。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。若要輸入壓縮的音訊檔案 (例如 mp3)，您必須先以預設輸入格式將它轉換成 WAV 檔案。若要串流壓縮的音訊，您必須先將音訊緩衝區解碼為預設輸入格式。如需詳細資訊，請參閱如何使用音訊輸入資料流。

參考文件 | 套件 (下載) | GitHub 上的其他範例

適用於 Objective-C 的語音 SDK 不支援壓縮的音訊。

參考文件 | 套件 (下載) | GitHub 上的其他範例

適用於 Swift 的語音 SDK 不支援壓縮的音訊。

參考文件 | 套件 (PyPi) | GitHub 上的其他範例

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 SDK 可以使用 GStreamer 來處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 SDK 進行編譯和連結。您必須安裝一些相依性和外掛程式。

選擇平台以取得安裝指示。

Linux
Windows

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

確定已安裝相同平台 (x64 或 x86) 的套件。例如，若您已安裝適用於 Python 的 x64 套件，您必須安裝 x64 GStreamer 套件。下述指示適用於 x64 套件。

建立資料夾 c:\gstreamer。
下載安裝程式。
將安裝程式複製至 c:\gstreamer。
以管理員身分開啟 PowerShell。

在 PowerShell 中執行下列命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用 "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" 作為變數值來新增系統變數 GST_PLUGIN_PATH。
使用 "C:\gstreamer\1.0\msvc_x86_64" 作為變數值來新增系統變數 GSTREAMER_ROOT_X86_64。
編輯系統變數 PATH，將 "C:\gstreamer\1.0\msvc_x86_64\bin" 新增為新項目。
重新啟動電腦。

如需 GStreamer 的詳細資訊，請參閱 Windows 安裝指示 (英文)。

範例

讓我們假設您的使用案例是針對 MP3 檔案使用 PullStream。您的程式碼外觀如下：


import azure.cognitiveservices.speech as speechsdk

class BinaryFileReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
    def __init__(self, filename: str):
        super().__init__()
        self._file_h = open(filename, "rb")

    def read(self, buffer: memoryview) -> int:
        print('trying to read {} frames'.format(buffer.nbytes))
        try:
            size = buffer.nbytes
            frames = self._file_h.read(size)

            buffer[:len(frames)] = frames
            print('read {} frames'.format(len(frames)))

            return len(frames)
        except Exception as ex:
            print('Exception in `read`: {}'.format(ex))
            raise

    def close(self) -> None:
        print('closing file')
        try:
            self._file_h.close()
        except Exception as ex:
            print('Exception in `close`: {}'.format(ex))
            raise

def compressed_stream_helper(compressed_format,
        mp3_file_path,
        default_speech_auth):
    callback = BinaryFileReaderCallback(mp3_file_path)
    stream = speechsdk.audio.PullAudioInputStream(stream_format=compressed_format, pull_stream_callback=callback)

    speech_config = speechsdk.SpeechConfig(**default_speech_auth)
    audio_config = speechsdk.audio.AudioConfig(stream=stream)

    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    done = False

    def stop_cb(evt):
        """callback that signals to stop continuous recognition upon receiving an event `evt`"""
        print('CLOSING on {}'.format(evt))
        nonlocal done
        done = True

    # Connect callbacks to the events fired by the speech recognizer
    speech_recognizer.recognizing.connect(lambda evt: print('RECOGNIZING: {}'.format(evt)))
    speech_recognizer.recognized.connect(lambda evt: print('RECOGNIZED: {}'.format(evt)))
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))
    # stop continuous recognition on either session stopped or canceled events
    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # Start continuous speech recognition
    speech_recognizer.start_continuous_recognition()
    while not done:
        time.sleep(.5)

    speech_recognizer.stop_continuous_recognition()

def pull_audio_input_stream_compressed_mp3(mp3_file_path: str,
        default_speech_auth):
    # Create a compressed format
    compressed_format = speechsdk.audio.AudioStreamFormat(compressed_stream_format=speechsdk.AudioStreamContainerFormat.MP3)
    compressed_stream_helper(compressed_format, mp3_file_path, default_speech_auth)

語音轉換文字 REST API 參考 | 適用於簡短音訊的語音轉換文字 REST API 參考 | GitHub 上的其他範例

您可以針對壓縮的音訊使用 REST API，但我們尚未將指南納入此處。請選取另一種程式設計語言，以開始使用並了解概念。

語音 SDK 和語音 CLI 使用 GStreamer 來支援不同類型的輸入音訊格式。 GStreamer 會先將音訊解壓縮，再透過網路以原始 PCM 的形式傳送至語音服務。

預設的音訊串流格式為 WAV (16 kHz 或 8 kHz、16 位元和 mono PCM)。除了 WAV 和 PCM 之外，GStreamer 亦可支援下列壓縮輸入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器或未知媒體格式的 ANY

GStreamer 設定

語音 CLI 可以使用 GStreamer 處理已壓縮的音訊。基於授權理由，GStreamer 二進位檔不會以語音 CLI 進行編譯和連結。您必須安裝一些相依性和外掛程式。

GStreamer 二進位檔必須位於系統路徑中，才能在執行時間由語音 CLI 載入。例如在 Windows 上，若語音 CLI 於執行階段期間找到 libgstreamer-1.0-0.dll 或 gstreamer-1.0-0.dll (最新的 GStreamer)，則表示 GStreamer 二進位檔位於系統路徑中。

選擇平台以取得安裝指示。

Linux
Windows

您必須安裝數個相依性和外掛程式。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

如需詳細資訊，請參閱 Linux 安裝指示和支援的 Linux 發行版本和目標結構。

確定已安裝相同平台 (x64 或 x86) 的套件。例如，若您已安裝適用於 Python 的 x64 套件，您必須安裝 x64 GStreamer 套件。下述指示適用於 x64 套件。

建立資料夾 c:\gstreamer。
下載安裝程式。
將安裝程式複製至 c:\gstreamer。
以管理員身分開啟 PowerShell。

在 PowerShell 中執行下列命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用 "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" 作為變數值來新增系統變數 GST_PLUGIN_PATH。
使用 "C:\gstreamer\1.0\msvc_x86_64" 作為變數值來新增系統變數 GSTREAMER_ROOT_X86_64。
編輯系統變數 PATH，將 "C:\gstreamer\1.0\msvc_x86_64\bin" 新增為新項目。
重新啟動電腦。

如需 GStreamer 的詳細資訊，請參閱 Windows 安裝指示 (英文)。

範例

--format選項會指定要辨識的音訊檔案容器格式。針對 mp4 檔案，請將格式設定為 any，如下列命令所示：

終端機
PowerShell

spx recognize --file YourAudioFile.mp4 --format any

spx --% recognize --file YourAudioFile.mp4 --format any

若要取得支援的音訊格式清單，請執行下列命令：

終端機
PowerShell

spx help recognize format

spx help recognize format

共用方式為

如何使用壓縮的輸入音訊

GStreamer 設定

範例

GStreamer 設定

範例

GStreamer 設定

範例

GStreamer 設定

範例

GStreamer 設定

範例

GStreamer 設定

範例

下一步

意見反應

其他資源