3月6日消息,今日,实时互动云服务商声网正式发布对话式AI引擎,支持任意文本大模型升级为对话式多模态大模型。
据介绍,声网对话式AI引擎支持包含DeepSeek、ChatGPT等在内的全球几乎所有大模型厂商。同时也支持全球主流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。
声网方面表示,通过全链路深度优化,并在中、美、欧、东南亚主要城市实测,语音对话延迟中位数低至650ms。同时,自研“智能打断”技术,模拟真人对话节奏,随时打断与AI的对话,响应低至340ms。
从现场演示的demo来看,声网对话式AI引擎基本可以做到实时应答,“选择性注意力锁定”功能可屏蔽95%环境人声、噪声干扰,精准识别对话人声。
此外,对话式AI引擎具备优秀的抗弱网、抗丢包能力,80%丢包率下仍能稳定流畅对话,断网3-5s依旧流畅对话。
据声网相关负责人介绍,对话式AI引擎提供了极简的开发部署,只需2行代码,15分钟就能让AI开口说话,大幅降低了开发门槛。只需填入与复制LLM与TTS相关的URL与Key,就能实现快速部署,具体流程可查看声网官网的文档中心。
目前,该产品的应用场景包括智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等。
成本方面,AI语音对话需0.098元/分钟,单次赠送1000分钟。自研的“智能打断”功能作为增值服务需0.042元/分钟。
声网AI RTE产品线负责人姚光华表示,"经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。"(周小白)
0 条