故障排除
常见问题
Q. 语音识别准确度不如预期,我该怎么办?
请检查以下几点。 另请参阅结果处理中的客户端错误。如果问题仍然存在,请与我们联系。
-
检查音频数据的声道数
对于立体声录音,只会识别第一个声道的音频。如果想要识别两个声道的音频,请分别发送分离后的音频文件。
-
检查音频数据的采样率
电话通话音频通常以8kHz采样,其他常用音频通常以16kHz或更高采样率录制。 会話_汎用引擎支持这些不同的采样率,但由于连接到不同的引擎,在请求时需要指定正确的采样率。 ※如果采样率指定错误,几乎无法识别(识别结果为空)。
-
检查音频格式指定的字节序
发送 不带 header 音频数据(RAW数据)时,除了采样率外,还需要指定字节序。小端数据添加lsb,大端数据添加msb(如
lsb8K、msb16K等)。※如果lsb或msb指定错误,几乎无法识别(识别结果为空)。
-
确认是否录制了要识别的音频
由于受到周围环境和录音麦克风设备等的影响,请听一下录音,确认发言者的声音是否被清晰录制。也可参考 TIPS 中的音频数据相关内容。
-
确认发送到 API 的音频二进制数据中是否混入了多余的数据
在向 API发送音频数据时,如果在二进制数据中混入了多余的数据,可能会导致音频异常,从而影响语音识别的效果。如果语音识别请求和引擎选择等都适当,录音环境等也没有问题,但识别精度仍然不理想,请检查是否出现了这种程序问题。例如,可以在客户端录制发送给 API 的音频,并确认音频是否正常。
-
确认发言内容是否与所使用的引擎匹配
如果频繁出现专业术语,识别准确度会下降。 我们为医疗、金融、保险等行业提供了专门的领域特化引擎。如果发言内容可能匹配,请尝试使用这些引擎。详情请参阅语音识别引擎。 如果想要识别仅在公司内部使用的专有术语或缩写,请使用单词注册功能。
Q. 是否可以对视频文件、HLS等流媒体格式的视频和音频进行语音识别?
我们不提供用于识别流媒体视频或音频的API或示例程序。 对于不支持的数据格式,您需要将其转换为支持的音频格式。
用于转换音频格式的软件包括免费软件FFmpeg等。 但是,对于某些视频和音频格式,格式本身可能在许可证中有使用限制或需要支付版税。 请您自行确认并使用。
如果您想在播放视频或音频的同时进行语音识别,可以考虑将JavaScript示例程序中的getUserMedia()更 改为getDisplayMedia(),这样就可以识别浏览器或系统音频,而不是麦克风输入。
(例) wrp.js
更改前
navigator.mediaDevices.getUserMedia(
{audio: true, video: false}
更改后
navigator.mediaDevices.getDisplayMedia(
{audio: true, video: true}
※ 并非所有浏览器都支持getDisplayMedia()的音频。我们已确认它在Chrome和Edge上可以正常工作。