発話検出

発話区間とは、音声データの中で人が話している部分を指します。音声データには、人の声とそれ以外の部分、例えば、無音や背景ノイズなどが含まれています。音声認識をする前に、発話区間を検出し、発話区間だけを対象として処理します。これは不要な音声区間を無視することにより、計算量の削減や、誤って音声として認識してしてしまうことを防ぐためです。AmiVoice APIでは深層学習モデルを使って、人の声とそれ以外を区別しており、単純に音量だけを使った発話検出よりも高い精度で発話を検出します。

以下の図は、クライアントからAmiVoice APIへ音声データが送信された際の流れを示しています。まず初めに発話検出が行われ、その後音声認識処理が行われます。図では紫色の帯が発話区間を表しています。3つの発話区間が検出され、それぞれに対して音声認識処理を行います。

図. 音声認識のパイプライン

非同期HTTPインタフェースとWebSocketインタフェースは、発話区間ごとに時間情報や音声認識結果、信頼度が得られます。詳細は発話区間の結果を参照してください。また、WebSocketインタフェースでは、発話の開始と終了のタイミングをリアルタイムで受け取ることができます。詳細は状態イベントの取得を参照してください。

注記

同期HTTPインタフェースでは発話区間の結果は取得できません。

発話検出パラメータの調整

発話検出パラメータは、利用シーンに応じた調整を行うことができます。デフォルト値は、AmiVoice API の多くの利用シーンに適した値に設定されているので、まずはデフォルトの設定のまま音声認識を試して様子見を行い、必要が認められたらパラメータの調整を行うようにしてください。口述筆記や会議の文字起こしなどのアプリケーションでは、多くの場合、変更は不要です。コールセンターのIVRや、ロボットとの対話などのアプリケーションでは、感度や発話終了の検出時間など、特定のパラメータの変更が必要となる場合があります。調整可能なパラメータの詳細や設定方法については、segmenterPropertiesを参照してください。

以下はパラメータの調整の例です。

声がとても小さい場面

powerThresholdの値を小さくすると、小さい音量でも検出されやすくなります。

segmenterProperties="powerThreshold=0"

BGM や保留音、非定常ノイズなどが多い場面

非常にノイズが多い場面では、人の声が含まれないノイズを誤って人の声として検出してしまう場合があります。この場合、thresholdの値を大きくすることで発話検出の感度が下がり、ノイズの誤検出を低減させることができます。

一方、大きな値にしすぎると発話の検出漏れにつながります。

segmenterProperties="threshold=9000"

はい・いいえなど短い発話のレスポンスを早くしたい時

デフォルトでは、発話終了と判断するためには、発話が終わってからpostTimeに設定されている 550 ミリ秒の無音が続くまで待ちます。はい・いいえなど短い発話に対しては長すぎる場合が多いため、250〜300ミリ秒程度に短くすることで、音声認識結果を得るまでの時間を短くし、よりリアルタイムなやりとりができるようになります。

一方、短すぎると発話の途中でも終了してしまう場合があるので、通常は変更の必要はありません。

segmenterProperties="postTime=250"

発話検出パラメータの調整​

声がとても小さい場面​

BGM や保留音、非定常ノイズなどが多い場面​

はい・いいえなど短い発話のレスポンスを早くしたい時​

発話検出パラメータの調整

声がとても小さい場面

BGM や保留音、非定常ノイズなどが多い場面

はい・いいえなど短い発話のレスポンスを早くしたい時