発話検出
発話区間とは、音声データの中で人が話している部分を指します。音声データには、人の声とそれ以外の部分、例えば、無音や背景ノイズなどが含まれています。音声認識をする前に、発話区間を検出し、発話区間だけを対象として処理します。これは不要な音声区間を無視することにより、計算量の削減や、誤って音声として認識してしてしまうことを防ぐためです。AmiVoice APIでは深層学習モデルを使って、人の声とそれ以外を区別しており、単純に音量だけを使った発話検出よりも高い精度で発話を検出します。
以下の図は、クライアントからAmiVoice APIへ音声データが送信された際の流れを示しています。まず初めに発話検出が行われ、その後音声認識処理が行われます。図では紫色の帯が発話区間を表しています。3つの発話区間が検出され、それぞれに対して音声認識処理を行います。