字节发布全双工语音大模型 Seeduplex,豆包打电话能边听边讲、交流更自然

抖音秀 百科资讯 4

4 月 9 日消息,字节跳动今日宣布推出原生全双工语音大模型 Seeduplex。

据介绍,相比于上一代半双工豆包端到端语音模型,Seeduplex 基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升。

据官方介绍,Seeduplex 重点实现了以下两项突破:

  • 精准抗干扰:模型具备持续的“倾听”能力,从而能更好地理解用户所处的声学环境,准确忽略背景噪音和无关对话。在复杂场景下,相比半双工模型,其误回复率和误打断率减少了一半。

  • 动态判停:模型能联合语音和语义特征,综合判断用户意图,可实现更自然的对话节奏控制。面对用户的思考犹豫,模型能耐心倾听;在用户说完后,又能快速响应。相比半双工模型,其抢话比例相对下降了 40%。

多维度评测显示,Seeduplex 在对话的流畅度和节奏感上,均显著优于传统的半双工方案及行业主流 App 的语音通话功能;在判停表现上,模型相比半双工方案提升了 8%,展现出更接近自然对话的分寸感。

此外,大规模 A/B 实验数据显示,相比此前上线豆包的半双工模型,Seeduplex 在用户的通话时长、留存等核心指标上均实现正向提升,整体通话满意度绝对值提升了 8.34%,用户反馈中“抢话”、“响应慢”、“误打断”等问题的提及比例明显下降。

目前,Seeduplex 已在豆包 App 全量上线,豆包打电话能力升级,在对话自然度、响应速度和抗干扰表现上都进一步提升,边听边讲,交流体验也更自然。(注:需选择桃子音色)

用户可以将豆包 App 更新至最新版本,在对话框内选择“打电话”,进入语音通话界面体验即可。

附 Seeduplex 项目地址如下:

https://seed.bytedance.com/seeduplex