字节跳动正式发布端到端同声传译模型:准确率接近真人 3秒延迟

抖音秀 热点资讯 9

7月24日消息,今日,字节跳动宣布正式发布端到端同声传译模型Seed LiveInterpret 2.0。

据介绍,这是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低语音延迟水平。

字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。

可实时处理多人语音输入,像人类同传译员一样以极低的延迟“边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。

同时,Seed LiveInterpret 2.0还支持0样本声音复刻,沟通更流畅自然。

不过,目前模型主要支持中英互译。

相比传统机器同传系统,Seed LiveInterpret 2.0具有以下四大优势:

接近真人同传的翻译准确率

在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。

极低延迟的“边听边说”能力

翻译延迟可低至2-3秒,较传统机器同传系统降低超60%。

零样本声音复刻

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时“说出”外语。

智能平衡翻译质量、延迟和语音输出节奏

根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。

模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0中英互译平均翻译质量的人类评分达到74.8(评估译文准确率,满分100),较排名第二的基准系统(47.3分)超出58%。

在语音到语音任务中,业界仅3个翻译系统支持该能力,其中Seed LiveInterpret 2.0中英互译平均翻译质量达到66.3分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分100),远超其他基准系统,达到接近专业真人同传的水平。

同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0在语音到文本场景中,输出首字平均延迟仅2.21秒,在语音到语音场景中,输出延时仅2.53秒,做到了对翻译质量以及时延的均衡。