请求参数
本文介绍在使用 AmiVoice API 发送语音识别请求时可以设置的参数。虽然 HTTP 和 WebSocket 接口的发送方式不同,但可以设置的参数是相同的。
参数列表
authorization(认证信息)和grammarFileNames(连接引擎名称)是必需的。其他参数是可选的。某些参数可能不适用于所有接口,请参考下表。
| 参数名称 | 说明 | 必需 | 同步HTTP | WebSocket | 异步HTTP |
|---|---|---|---|---|---|
| authorization | 认证信息 | ● | ● | ● | ● |
| grammarFileNames | 连接引擎名称 | ● | ● | ● | ● |
| profileId | profile ID | ● | ● | ● | |
| profileWords | 单词注册列表 | ● | ● | ● | |
| keepFillerToken | 控制自动删除填充词(无意义词语) | ● | ● | ● | |
| segmenterProperties | 语音段检测和说话人区分的参数 | ● | ● | ● (*1) | |
| extension | 使用量统计标签 | ● | ● | ● | |
| maxDecodingTime | 最大识别处理时间 | ● | ● | ● | |
| maxResponseTime | 最大响应时间 | ● | ● | ● | |
| maxDecodingRate | 最大 RT | ● | ● | ● | |
| targetResponseTime | 目标响应时间 | ● | ● | ● | |
| targetDecodingRate | 目标 RT | ● | ● | ● | |
| recognitionTimeout | 识别完成超时 | ● | ● | ● | |
| resultUpdatedInterval | 识别中事件的间隔 | ● | |||
| noInputTimeout | 等待语音开始超时 | ● | |||
| loggingOptOut | 更改日志保存的有无 | ● | |||
| contentId | 用户定义 ID | ● | |||
| compatibleWithSync | 结果格式的兼容性 | ● | |||
| speakerDiarization | 说话人区分启用选项 | ● | |||
| diarizationMinSpeaker | 说话人区分的最小预估说话人数 | ● | |||
| diarizationMaxSpeaker | 说话人区分的最大预估说话人数 | ● | |||
| sentimentAnalysis | 情绪分析启用选项 | ● |
(*1)在异步 HTTP 接口中,无法使用与说话人区分相关的参数
有关这些请求参数的发送方法 ,请参阅以下部分:
参数详情
以下是各参数的详细说明。
必需参数
authorization
认证信息
使用 API 时必须设置认证信息。认证信息是在 MyPage 上显示的 [APPKEY],或者通过一次性 APPKEY 发行 API获取的一次性 APPKEY。
从浏览器应用程序连接到语音识别服务器时,为避免将 APPKEY 写入 HTML 文件,请使用一次性 APPKEY。详情请参阅一次性 APPKEY。
grammarFileNames
连接引擎名称
指定该会话中要使用的语音识别引擎。每个会话指定一个。可设置的值请参考连接引擎名称列表或 MyPage。详情请参阅语音识别引擎。
可选参数
profileId
profile ID
profile 是存在于语音识别服务器上的每个用户的数据文件,用户可以为其命名并保存注册的单词。profile ID 是用于指定该数据文件的标识符。详情请参阅单词注册。
profileWords
单词注册列表
可以注册在会话中有效的单词。每个单词以"显示(半角空格)读音"的格式注册。如果要指定类名,请使用"显示<半角空格>读音 <半角空格> 类名"的格式。注册多个单词时,用"|"(半角竖线)分隔单词。值的格式如下(以下是未指定类名的示例):
显示1 读音1|显示2 读音2|显示3 读音3|显示4 读音4
详情请参阅单词注册。
keepFillerToken
控制自动删除填充词(无意义词语)
指定1或0。默认值为0。当不想自动删除语音识别结果中包含的填充词(如"あー"或"えー"等)时,指定1。另请参阅填充词自动删除。
填充词前后用半角"%"包围。以下是填充词的示例:
%あー%
%えー%
%おー%
%えっと%
另请参阅 AmiVoice Tech Blog 上的How to choose whether to display or remove unnecessary words (fillers) with AmiVoice API。
segmenterProperties
语音段检测参数
这是用于调节语音检测灵敏度等的参数。首先尝试默认设置,然后根据需要进行调整。可以设置以下参数:
同步 HTTP 接口和 WebSocket 接口的默认值是相同的,异步 HTTP 接口的一些值有所不同。后者的值在括号内显示。
默认值可能会在没有预先通知的情况下发生变更。
threshold- 用于判断是否为语音的得分阈值,得分大于或等于此值时被视为语音。降低此值会使语音更容易被检测到,减少语音中断或末尾被截断的情况,但也会增加误检测的可能性。在有较多噪音的环境中,如果误检测明显,可以增大此值。
- 默认值为 5000(8000)。
preTime- 当被视为语音的时间持续一定时间后,系统会进入语音段检测状态,此值用于指定这个"一定时间"的长度。如果短语音无法被检测到或语音开头容易被截断,可以减小此值。如果短噪音的误检测较多,可以增大此值。
- 单位为毫秒,默认值为 100(100)。请以 50 的倍数指定。
postTime- 当语音段末尾被视为非语音的时间持续一定时间后,系统会结束语音段检测状态,此值用于指定这个"一定时间"的长度。如果语音中途被分割,可以增大此值。如果两个语音段连在一起,可以减小此值。
- 单位为毫秒,默认值为 550(800)。
preForcedTime- 当进入语音段检测状态时,此值用于指定从被视为语音的最初时刻向前回溯多长时间作为语音段的开始点。如果语音开头容易被截断,可以增大此值。
- 单位为毫秒,默认值为 350(350)。
postForcedTime- 当语音段检测状态结束时,此值用于指定从被视为非语音的最后时刻向后延伸多长时间作为语音段的结束点。如果语音末尾容易被截断,可以增大此值。如果实时响应性变差,可以减小此值。