转录任务提交接口
更新时间:
参数规范
请求URL: https://asr.ilivedata.com/api/v1/speech/recognize/submit
HTTP请求Header:
Header
值
描述
Content-Type
application/json;charset=UTF-8
请求体类型
Accept
application/json;charset=UTF-8
接受的返回类型
X-AppId
项目或应用的唯一标识符
X-TimeStamp
请求的UTC时间戳。需要把时间戳按W3C标准格式化,例如: 2010-01-31T23:59:59Z. (http://www.w3.org/TR/xmlschema-2/#dateTime)。
Authorization
签名值
请求方法:POST
请求体:
参数
子参数
必需
描述
languageCode
必需
音频对应的语种 支持语种
uri
必需
音频文件的URI地址(支持HTTP和HTTPS)
config
codec
可选
编码格式,支持AMR、AMR_WB、OPUS、PCM。如未指定则默认使用AMR_WB
sampleRateHertz
可选
AMR只支持8000,其余编码格式只支持16000
userId
可选
唯一的终端用户ID。 用户ID应当不超过32个字符。
hotWordTableId
可选
热词表ID,具体ID见后台热词表功能模块。
diarizationConfig
enableSpeakerDiarization
可选
是否开启说话人分离功能,适用于双人对话场景。
true:开启,未指定则默认关闭。
注意:电话场景双声道音频建议使用channel=2来区分说话人,即不用开启说话人分离。
speakers
可选
enableSpeakerDiarization=True时生效,默认为2,候选为2/3
channel
可选
识别声道数,值为2并且audio字段的音频文件本身也是双声道,则按双声道处理。未指定则默认按单声道处理。
注意:此功能适用于双声道发音人分离,无需再开启说话人分离功能。即channel = 2时,diarizationConfig = true参数失效。
alternativeLangCodes
可选
候选语种数组,最多支持传入4个候选语种 支持语种
digitalize
可选
中文识别结果转数字,值为 0(关闭)/1(开启),默认开启此功能
callbackConfig
callbackUrl
可选
回调url:http协议
callbackSecretKey
可选
回调密钥,可自行定义,需要在回调验签方式使用密钥一致,否则无法验证回调数据是否被篡改
callbackRegion
可选
回调区域:默认cn,可选cn,us,ap。不给或不在取值范围内默认使用cn区域发起回调
请求体示例
{
"languageCode": "zh-CN",
"config": {
"codec": "PCM",
"sampleRateHertz": 16000
},
"diarizationConfig": {
"enableSpeakerDiarization": true
},
"uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav",
"channel": 1,
"alternativeLangCodes": ["en-US", "th-TH","id-ID"],
"callbackConfig": {
"callbackUrl": "回调地址",
"callbackRegion": "回调区域,默认cn,可选 cn, us, ap,将在所选的区域发起回调",
"callbackSecretKey": "回调密钥,用于验签,自行定义"
}
}
请求签名:
当用户请求Speech Recognition API时,可以使用appId和secretKey对请求做签名,当API收到带签名信息的请求之后,将使用相同的算法验证签名,如果发现签名不一致,API将会返回401给用户。
如果API验证签名一致,且appId对应的用户有权限操作请求的资源,则请求成功,否则API返回401。
通过 HTTP 请求 Header 发送签名
方法: 在请求中加入名为 Authorization 的 Header,值为签名值。如下:
Authorization: Njl86M/jY6zZaZoGhZdGO+GI/8+yGFECusGH1yQHUFE=
签名计算方法
1.构造规范化的请求字符串(Canonicalized Query String)
将请求体JSON字符串以UTF-8字符编码做sha256编码后转换为16进制字符串(注意不是Base64)
CanonicalizedQueryString = hex(sha256(jsonBody))
2.构造被签名字符串 StringToSign ("\n” 代表ASCII里的换行符)
StringToSign = HTTPMethod + "\n" +
HostHeaderInLowercase + "\n" +
HTTPRequestURI + "\n" +
CanonicalizedQueryString <从上一步得到> + "\n" +
"X-AppId:" + SAME_APPID_IN_HEADER + "\n" +
"X-TimeStamp:" + SAME_TIMESTAMP_IN_HEADER
HTTPRequestURI是请求URI的绝对路径,不包含请求串。如果HTTPRequestURI为空,也要保留一个正斜杠 ( / )
使用 HMAC-SHA256 协议创建基于哈希的消息身份验证代码 (HMAC),然后计算签名。
3.StringToSign作为签名字符串,secretKey作为秘钥,SHA256作为哈希算法
有关 HMAC 的更多信息,请参阅 https://tools.ietf.org/html/rfc2104。
4.将上一步的结果转换为BASE64串
5.将BASE64串放入HTTP请求Header的Authorization
签名示例
下面是appId & secretKey的示例
appId=1000
secrectKey=d9e23d93053f49ade2f8fce185acedd4
下面是示例请求体
{"languageCode": "zh-CN", "config": {"codec": "PCM", "sampleRateHertz": 16000}, "diarizationConfig": {"enableSpeakerDiarization": true}, "uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav", "userId": "12345678"}
生成CanonicalizedQueryString
13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda
生成StringToSign
POST
asr-test.ilivedata.com
/api/v1/speech/recognize/submit
13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda
X-AppId:1000
X-TimeStamp:2021-02-26T07:58:13Z
HMAC计算得到的签名
eEFF0caZNwwaCe751GEzNM4WjufwO1dYEw8QYBHOXvg=
HTTP响应
Content-Type: application/json;charset=UTF-8
结果为JSON格式,请参考以下示例。
HTTP响应返回json字段说明:
字段名
子字段名
描述
errorCode
0表示成功
errorMessage
错误消息
taskId
任务ID
响应示例
{
"errorCode":0,
"taskId":"us_2b356260-c116-4bf2-8cca-a0f044bbab25_1614326293900"
}
错误码:
Http状态码
错误码
错误消息
200
0
此字段省略
429
1104
Out of Rate Limit
429
1105
Out of Quotas
405
1004
Method Not Allowed
411
1007
Not Content Length
400
1002
API Not Found
400
1003
Bad Request
400
2000
Missing Parameter
400
2001
Invalid Parameter
400
2002
Invalid Request
400
2102
Input Too Long
400
2109
Speech Recognition Failed
400
2110
File is invalid
400
2111
Failed to download file
400
2112
TaskId is invalid
401
1102
Unauthorized Client
401
1106
Missing Access Token
401
1107
Invalid Token
401
1108
Expired Token
401
1110
Invalid Client
参数规范
请求URL: https://asr.ilivedata.com/api/v1/speech/recognize/submit
HTTP请求Header:
Header | 值 | 描述 |
---|---|---|
Content-Type | application/json;charset=UTF-8 | 请求体类型 |
Accept | application/json;charset=UTF-8 | 接受的返回类型 |
X-AppId | 项目或应用的唯一标识符 | |
X-TimeStamp | 请求的UTC时间戳。需要把时间戳按W3C标准格式化,例如: 2010-01-31T23:59:59Z. (http://www.w3.org/TR/xmlschema-2/#dateTime)。 | |
Authorization | 签名值 |
请求方法:POST
请求体:
参数 | 子参数 | 必需 | 描述 |
---|---|---|---|
languageCode | 必需 | 音频对应的语种 支持语种 | |
uri | 必需 | 音频文件的URI地址(支持HTTP和HTTPS) | |
config | codec | 可选 | 编码格式,支持AMR、AMR_WB、OPUS、PCM。如未指定则默认使用AMR_WB |
sampleRateHertz | 可选 | AMR只支持8000,其余编码格式只支持16000 | |
userId | 可选 | 唯一的终端用户ID。 用户ID应当不超过32个字符。 | |
hotWordTableId | 可选 | 热词表ID,具体ID见后台热词表功能模块。 | |
diarizationConfig | enableSpeakerDiarization | 可选 | 是否开启说话人分离功能,适用于双人对话场景。 true:开启,未指定则默认关闭。 注意:电话场景双声道音频建议使用channel=2来区分说话人,即不用开启说话人分离。 |
speakers | 可选 | enableSpeakerDiarization=True时生效,默认为2,候选为2/3 | |
channel | 可选 | 识别声道数,值为2并且audio字段的音频文件本身也是双声道,则按双声道处理。未指定则默认按单声道处理。 注意:此功能适用于双声道发音人分离,无需再开启说话人分离功能。即channel = 2时,diarizationConfig = true参数失效。 |
|
alternativeLangCodes | 可选 | 候选语种数组,最多支持传入4个候选语种 支持语种 | |
digitalize | 可选 | 中文识别结果转数字,值为 0(关闭)/1(开启),默认开启此功能 | |
callbackConfig | callbackUrl | 可选 | 回调url:http协议 |
callbackSecretKey | 可选 | 回调密钥,可自行定义,需要在回调验签方式使用密钥一致,否则无法验证回调数据是否被篡改 | |
callbackRegion | 可选 | 回调区域:默认cn,可选cn,us,ap。不给或不在取值范围内默认使用cn区域发起回调 |
请求体示例
{
"languageCode": "zh-CN",
"config": {
"codec": "PCM",
"sampleRateHertz": 16000
},
"diarizationConfig": {
"enableSpeakerDiarization": true
},
"uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav",
"channel": 1,
"alternativeLangCodes": ["en-US", "th-TH","id-ID"],
"callbackConfig": {
"callbackUrl": "回调地址",
"callbackRegion": "回调区域,默认cn,可选 cn, us, ap,将在所选的区域发起回调",
"callbackSecretKey": "回调密钥,用于验签,自行定义"
}
}
请求签名:
当用户请求Speech Recognition API时,可以使用appId和secretKey对请求做签名,当API收到带签名信息的请求之后,将使用相同的算法验证签名,如果发现签名不一致,API将会返回401给用户。
如果API验证签名一致,且appId对应的用户有权限操作请求的资源,则请求成功,否则API返回401。
通过 HTTP 请求 Header 发送签名
方法: 在请求中加入名为 Authorization 的 Header,值为签名值。如下:
Authorization: Njl86M/jY6zZaZoGhZdGO+GI/8+yGFECusGH1yQHUFE=
签名计算方法
1.构造规范化的请求字符串(Canonicalized Query String)
将请求体JSON字符串以UTF-8字符编码做sha256编码后转换为16进制字符串(注意不是Base64)
CanonicalizedQueryString = hex(sha256(jsonBody))
2.构造被签名字符串 StringToSign ("\n” 代表ASCII里的换行符)
StringToSign = HTTPMethod + "\n" +
HostHeaderInLowercase + "\n" +
HTTPRequestURI + "\n" +
CanonicalizedQueryString <从上一步得到> + "\n" +
"X-AppId:" + SAME_APPID_IN_HEADER + "\n" +
"X-TimeStamp:" + SAME_TIMESTAMP_IN_HEADER
HTTPRequestURI是请求URI的绝对路径,不包含请求串。如果HTTPRequestURI为空,也要保留一个正斜杠 ( / ) 使用 HMAC-SHA256 协议创建基于哈希的消息身份验证代码 (HMAC),然后计算签名。
3.StringToSign作为签名字符串,secretKey作为秘钥,SHA256作为哈希算法
有关 HMAC 的更多信息,请参阅 https://tools.ietf.org/html/rfc2104。
4.将上一步的结果转换为BASE64串
5.将BASE64串放入HTTP请求Header的Authorization
签名示例
下面是appId & secretKey的示例
appId=1000
secrectKey=d9e23d93053f49ade2f8fce185acedd4
下面是示例请求体
{"languageCode": "zh-CN", "config": {"codec": "PCM", "sampleRateHertz": 16000}, "diarizationConfig": {"enableSpeakerDiarization": true}, "uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav", "userId": "12345678"}
生成CanonicalizedQueryString
13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda
生成StringToSign
POST
asr-test.ilivedata.com
/api/v1/speech/recognize/submit
13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda
X-AppId:1000
X-TimeStamp:2021-02-26T07:58:13Z
HMAC计算得到的签名
eEFF0caZNwwaCe751GEzNM4WjufwO1dYEw8QYBHOXvg=
HTTP响应
Content-Type: application/json;charset=UTF-8 结果为JSON格式,请参考以下示例。
HTTP响应返回json字段说明:
字段名 | 子字段名 | 描述 |
---|---|---|
errorCode | 0表示成功 | |
errorMessage | 错误消息 | |
taskId | 任务ID |
响应示例
{
"errorCode":0,
"taskId":"us_2b356260-c116-4bf2-8cca-a0f044bbab25_1614326293900"
}
错误码:
Http状态码 | 错误码 | 错误消息 |
---|---|---|
200 | 0 | 此字段省略 |
429 | 1104 | Out of Rate Limit |
429 | 1105 | Out of Quotas |
405 | 1004 | Method Not Allowed |
411 | 1007 | Not Content Length |
400 | 1002 | API Not Found |
400 | 1003 | Bad Request |
400 | 2000 | Missing Parameter |
400 | 2001 | Invalid Parameter |
400 | 2002 | Invalid Request |
400 | 2102 | Input Too Long |
400 | 2109 | Speech Recognition Failed |
400 | 2110 | File is invalid |
400 | 2111 | Failed to download file |
400 | 2112 | TaskId is invalid |
401 | 1102 | Unauthorized Client |
401 | 1106 | Missing Access Token |
401 | 1107 | Invalid Token |
401 | 1108 | Expired Token |
401 | 1110 | Invalid Client |