针对语音服务提供厂商的记录(2022-08-16)

1、前言

最近结合项目概要,需要用到录音文件解析服务,所以需要根据现行主流仓上的语音服务进行排比,主要调研的厂商为:①科大讯飞 ②阿里巴巴 ③腾讯 ④微软

2、容量试用方面

分析到底,还是需要一个试用才能知真解,这里提及的试用主要针对为API调用方式。 ①科大讯飞: https://www.xfyun.cn/services/lfasr ②微软: https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/#features ③腾讯: https://cloud.tencent.com/product/asr ④阿里: https://ai.aliyun.com/nls/trans
内容标注厂商 科大讯飞 微软 腾讯/仅新用户 阿里/仅新用户需1元 试用时长(时) 50 5/month 10 30 文件音頻长度 5小时 1GB 5MB/url流不大于512MB 512MB 格式限制 wav、flac、opus、m4a、mp3 wav、pcm及 wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac wav、mp3、m4a、wma、aac、ogg、amr、flac 音頻 采样率16k或8k、位长8bit或16bit、单声道&多声道 16 KHz 或 8 kHz,16 位,单声道 PCM 采样率16k或8k,单声道&多声道 采样率16k或8k,单声道&多声道 制约因素 免费用户,每天2小时

2.1、参考返回时间

2.1.1、科大讯飞:

基于官网的数据讯息,
音频时长X(分钟) 参考返回时间Y(分钟) X<10 Y<3 10<=X<30 3<=Y<6 30<=X<60 6<=Y<10 60<=X 10<=Y<20

2.1.2、微软:

基于参考文档, 并没有给出一个细节内的数据示例,故对应时间为自行测试的大概时间,测试次数大概为40个轮回数据。
音频时长X(分钟) 参考返回时间Y(分钟) X<1 Y<1 X<8 Y<3

2.1.3、阿里巴巴

普通版:

免费用户的识别任务在24小时内完成并返回识别文本; 付费用户的识别任务在3小时内完成并返回识别文本

极速版本:

支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。
媒体类型 普通版 极速版 AAC √ √ MP3 √ √ OPUS √ √ WAV √ √ m4a √ wma √ ogg √ amr √ flac √

2.1.4、腾讯

普通版:

3小时内完成识别(大多数情况下1小时音频约3分钟以内完成识别)

极速版本:

支持100 MB以内且时长不超过2小时的音频文件,通常10秒内执行完毕。
媒体类型 普通版 极速版 wav √ √ pcm √ √ ogg-opus √ √ speex √ √ silk √ √ mp3 √ √ m4a √ √ aac √ √ flv √ mp4 √ wma √ 3gp √ amr √ flac √

3、本地化部署支持

厂商 本地化支持 腾讯 支持 阿里 支持 微软 不支持 科大讯飞 支持
经验分享 程序员 微信小程序 职场和发展