转录任务提交接口

参数规范

请求URL: https://asr.ilivedata.com/api/v1/speech/recognize/submit

HTTP请求Header:

Header 描述
Content-Type application/json;charset=UTF-8 请求体类型
Accept application/json;charset=UTF-8 接受的返回类型
X-AppId 项目或应用的唯一标识符
X-TimeStamp 请求的UTC时间戳。需要把时间戳按W3C标准格式化,例如: 2010-01-31T23:59:59Z. (http://www.w3.org/TR/xmlschema-2/#dateTime)。
Authorization 签名值

请求方法:POST

请求体:

参数 子参数 必需 描述
languageCode 必需 音频对应的语种 支持语种
uri 必需 音频文件的URI地址(支持HTTP和HTTPS)
config codec 可选 编码格式,支持AMR、AMR_WB、OPUS、PCM。如未指定则默认使用AMR_WB
sampleRateHertz 可选 AMR只支持8000,其余编码格式只支持16000
userId 可选 唯一的终端用户ID。 用户ID应当不超过32个字符。
hotWordTableId 可选 热词表ID,具体ID见后台热词表功能模块。
diarizationConfig enableSpeakerDiarization 可选 是否开启说话人分离功能,适用于双人对话场景。
true:开启,未指定则默认关闭。
注意:电话场景双声道音频建议使用channel=2来区分说话人,即不用开启说话人分离。
speakers 可选 enableSpeakerDiarization=True时生效,默认为2,候选为2/3
channel 可选 识别声道数,值为2并且audio字段的音频文件本身也是双声道,则按双声道处理。未指定则默认按单声道处理。
注意:此功能适用于双声道发音人分离,无需再开启说话人分离功能。即channel = 2时,diarizationConfig = true参数失效。
alternativeLangCodes   可选 候选语种数组,最多支持传入4个候选语种 支持语种
digitalize   可选 中文识别结果转数字,值为 0(关闭)/1(开启),默认开启此功能
callbackConfig callbackUrl 可选 回调url:http协议
callbackSecretKey 可选 回调密钥,可自行定义,需要在回调验签方式使用密钥一致,否则无法验证回调数据是否被篡改
callbackRegion 可选 回调区域:默认cn,可选cn,us,ap。不给或不在取值范围内默认使用cn区域发起回调

请求体示例

{
  "languageCode": "zh-CN",
  "config": {
    "codec": "PCM",
    "sampleRateHertz": 16000
  },
  "diarizationConfig": {
    "enableSpeakerDiarization": true
  },
  "uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav",
  "channel": 1,
  "alternativeLangCodes": ["en-US", "th-TH","id-ID"],
  "callbackConfig": {
    "callbackUrl": "回调地址",
    "callbackRegion": "回调区域,默认cn,可选 cn, us, ap,将在所选的区域发起回调",
    "callbackSecretKey": "回调密钥,用于验签,自行定义"
  }
}

请求签名:

当用户请求Speech Recognition API时,可以使用appId和secretKey对请求做签名,当API收到带签名信息的请求之后,将使用相同的算法验证签名,如果发现签名不一致,API将会返回401给用户。

如果API验证签名一致,且appId对应的用户有权限操作请求的资源,则请求成功,否则API返回401。

通过 HTTP 请求 Header 发送签名

方法: 在请求中加入名为 Authorization 的 Header,值为签名值。如下:

Authorization: Njl86M/jY6zZaZoGhZdGO+GI/8+yGFECusGH1yQHUFE=

签名计算方法

1.构造规范化的请求字符串(Canonicalized Query String)

将请求体JSON字符串以UTF-8字符编码做sha256编码后转换为16进制字符串(注意不是Base64)

CanonicalizedQueryString = hex(sha256(jsonBody))

2.构造被签名字符串 StringToSign ("\n” 代表ASCII里的换行符)

StringToSign = HTTPMethod + "\n" + 
               HostHeaderInLowercase + "\n" + 
               HTTPRequestURI + "\n" + 
               CanonicalizedQueryString <从上一步得到> + "\n" +
               "X-AppId:" + SAME_APPID_IN_HEADER + "\n" + 
               "X-TimeStamp:" + SAME_TIMESTAMP_IN_HEADER

HTTPRequestURI是请求URI的绝对路径,不包含请求串。如果HTTPRequestURI为空,也要保留一个正斜杠 ( / ) 使用 HMAC-SHA256 协议创建基于哈希的消息身份验证代码 (HMAC),然后计算签名。

3.StringToSign作为签名字符串,secretKey作为秘钥,SHA256作为哈希算法

有关 HMAC 的更多信息,请参阅 https://tools.ietf.org/html/rfc2104

4.将上一步的结果转换为BASE64串

5.将BASE64串放入HTTP请求Header的Authorization

签名示例

下面是appId & secretKey的示例

appId=1000
secrectKey=d9e23d93053f49ade2f8fce185acedd4

下面是示例请求体

{"languageCode": "zh-CN", "config": {"codec": "PCM", "sampleRateHertz": 16000}, "diarizationConfig": {"enableSpeakerDiarization": true}, "uri": "https://rcs-us-west-2.s3.us-west-2.amazonaws.com/test.wav", "userId": "12345678"}

生成CanonicalizedQueryString

13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda

生成StringToSign

POST
asr-test.ilivedata.com
/api/v1/speech/recognize/submit
13341a485d978774fa69514d5c268c5ae9a62bd177b3bd4cf17237fa45209eda
X-AppId:1000
X-TimeStamp:2021-02-26T07:58:13Z

HMAC计算得到的签名

eEFF0caZNwwaCe751GEzNM4WjufwO1dYEw8QYBHOXvg=

HTTP响应

Content-Type: application/json;charset=UTF-8 结果为JSON格式,请参考以下示例。

HTTP响应返回json字段说明:

字段名 子字段名 描述
errorCode 0表示成功
errorMessage 错误消息
taskId 任务ID

响应示例

{
  "errorCode":0,
  "taskId":"us_2b356260-c116-4bf2-8cca-a0f044bbab25_1614326293900"
}

错误码:

Http状态码 错误码 错误消息
200 0 此字段省略
429 1104 Out of Rate Limit
429 1105 Out of Quotas
405 1004 Method Not Allowed
411 1007 Not Content Length
400 1002 API Not Found
400 1003 Bad Request
400 2000 Missing Parameter
400 2001 Invalid Parameter
400 2002 Invalid Request
400 2102 Input Too Long
400 2109 Speech Recognition Failed
400 2110 File is invalid
400 2111 Failed to download file
400 2112 TaskId is invalid
401 1102 Unauthorized Client
401 1106 Missing Access Token
401 1107 Invalid Token
401 1108 Expired Token
401 1110 Invalid Client