音声入力ストリームの使用方法

[アーティクル]
03/10/2025

Speech SDK は、マイクまたはファイル入力の代わりに、認識エンジンにオーディオをストリーミングする方法を提供します。

このガイドでは、オーディオ入力ストリームを使用する方法について説明します。また、オーディオ入力ストリームのいくつかの要件と制限事項についても説明します。

オーディオ入力ストリームを使用した音声テキスト変換認識のその他の例については、GitHub を参照してください。

オーディオストリームの形式を識別する

オーディオストリームの形式を識別します。

サポートされているオーディオのサンプルは次のとおりです。

PCM 形式 (int-16、署名済み)
1 つのチャネル
16 ビット/サンプル、8,000 または 16,000 サンプル/秒 (16,000 バイトまたは 32,000 バイト/秒)
2 ブロック配列 (サンプルのパディングを含む 16 ビット)

オーディオ形式を作成するための SDK の対応するコードは次の例のようになります。

byte channels = 1;
byte bitsPerSample = 16;
int samplesPerSecond = 16000; // or 8000
var audioFormat = AudioStreamFormat.GetWaveFormatPCM(samplesPerSecond, bitsPerSample, channels);

コードがこれらの仕様に従って RAW オーディオデータを提供していることを確認します。また、16 ビットのサンプルは、リトルエンディアン形式で到達するようにしてください。オーディオソースデータが、サポートされている形式と一致しない場合、オーディオは、必要な形式にトランスコードする必要があります。

独自のオーディオ入力ストリームクラスを作成する

PullAudioInputStreamCallback から派生された独自のオーディオ入力ストリームクラスを作成できます。 Read() メンバーと Close() メンバーを実装します。正確な関数シグネチャは言語に依存しますが、そのコードは以下のサンプルコードのようになります。

public class ContosoAudioStream : PullAudioInputStreamCallback 
{
    public ContosoAudioStream() {}

    public override int Read(byte[] buffer, uint size) 
    {
        // Returns audio data to the caller.
        // E.g., return read(config.YYY, buffer, size);
        return 0;
    }

    public override void Close() 
    {
        // Close and clean up resources.
    }
}

オーディオ形式とカスタムオーディオ入力ストリームに基づいて、オーディオ構成を作成します。次に例を示します。

var audioConfig = AudioConfig.FromStreamInput(new ContosoAudioStream(), audioFormat);

音声認識エンジンのコンテキストでカスタムオーディオ入力ストリームを使用する方法を次に示します。

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

public class ContosoAudioStream : PullAudioInputStreamCallback 
{
    public ContosoAudioStream() {}

    public override int Read(byte[] buffer, uint size) 
    {
        // Returns audio data to the caller.
        // E.g., return read(config.YYY, buffer, size);
        return 0;
    }

    public override void Close() 
    {
        // Close and clean up resources.
    }
}

class Program 
{
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    async static Task Main(string[] args)
    {
        byte channels = 1;
        byte bitsPerSample = 16;
        uint samplesPerSecond = 16000; // or 8000
        var audioFormat = AudioStreamFormat.GetWaveFormatPCM(samplesPerSecond, bitsPerSample, channels);
        var audioConfig = AudioConfig.FromStreamInput(new ContosoAudioStream(), audioFormat);

        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); 
        speechConfig.SpeechRecognitionLanguage = "en-US";
        var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
    }
}

次の方法で共有

音声入力ストリームの使用方法

オーディオストリームの形式を識別する

独自のオーディオ入力ストリームクラスを作成する

次の手順

フィードバック

その他のリソース

次の方法で共有

音声入力ストリームの使用方法

オーディオ ストリームの形式を識別する

独自のオーディオ入力ストリーム クラスを作成する

次の手順

フィードバック

その他のリソース

オーディオストリームの形式を識別する

独自のオーディオ入力ストリームクラスを作成する