J9九游会体育团队诡计了交融单步反馈与全局反馈的双重奖励机制-九游会体育 ag九游会登录j9入口 j9九游会登录入口首页

九游会体育 ag九游会登录j9入口 j9九游会登录入口首页

九游会体育 ag九游会登录j9入口 j9九游会登录入口首页

资讯

J9九游会体育团队诡计了交融单步反馈与全局反馈的双重奖励机制-九游会体育 ag九游会登录j9入口 j9九游会登录入口首页

发布日期:2025-07-27 06:39    点击次数:155

J9九游会体育团队诡计了交融单步反馈与全局反馈的双重奖励机制-九游会体育 ag九游会登录j9入口 j9九游会登录入口首页

智东西

作家 | 江宇

裁剪 | 漠影

智东西7月24日报说念,当天,字节朝上Seed团队矜重推出端到端同声传译模子Seed LiveInterpret 2.0。

这是首个在翻译准确率、语音延伸与声息复刻三方面同期靠拢专科同传阐扬的产等级中英语音同传系统。

在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质料、反映速率与音色复原才气,在多项主客不雅评测中均阐扬隆起。

该系统治受全双工语音联接与生成框架,支撑“边听边说”的及时传译,语音延伸最低可至2到3秒。同期,它具备0样本声息复刻才气,无需预灌音,即可用话语者的音色“说出”外语。

刻下,Seed LiveInterpret 2.0已通及其山引擎绽开试用,用户可登录适度台体验语音模子“Doubao-同声传译2.0”。

此外,Ola Friend耳机也谋略于8月底接入该系统,成为首个支撑其语音同传才气的硬件开荒。

手艺阐扬与体验指路:

手艺阐扬:

http://arxiv.org/pdf/2507.17527

技俩主页:

https://seed.bytedance.com/seed_liveinterpret

体验承接:登录火山引擎后,采选语音模子“Doubao-同声传译2.0”

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

一、全双工语音生成框架,完毕信得过“边听边说”

字节Seed团队曾在2024年推出初代模子CLASI,措置了文本同传的时延与专科性问题,但仍不支撑语音输出。

时隔一年,团队在模子结构、语音生成与进修计谋上执续优化,最终推出Seed LiveInterpret 2.0,初度完毕“边听边说”的语音到语音同传。

Seed LiveInterpret 2.0引入了双通路(duplex)语音联接与生成架构,这一端到端决策减少了中间本领,在处理成果和翻译准确率上阐扬更优。系统能边接管源语言语音输入,边生成目口号言语音输出,且可及时处理多东说念主话语场景。

▲Seed LiveInterpret 2.0的双通路(duplex)语音联接与生成架构(图源:字节朝上Seed)

尤其值得明慧的是,比较传统同传系统需恭候语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目口号音,完毕平均约2.5秒内完成首个译句输出(FLAL),显赫接近东说念主类同传阐扬。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质料与延伸阐扬上的对比。(图源:手艺阐扬)

实测已矣表露,其语音翻译延伸可低至2到3秒,比较传统机器同传系统平均减少了杰出60%的恭候时候,完毕信得过的“边听边说”。

二、强化学习上场,翻译更智能、延伸再压缩

尽管早期版块Seed LiveInterpret 1.0在文本同传已有不俗阐扬,但奈何兼顾音频输出的节律感与准确度,恒久是AI同传系统的关节勤快。

为此,字节Seed团队引入强化学习机制,在延伸、译文准确率和节律适度上进行聚积建模优化。

据手艺阐扬姿色,团队诡计了交融单步反馈与全局反馈的双重奖励机制,诀别用于保险片断级语义一致性和合座译文的逻辑连贯性。

在进修范例上,团队接管了两阶段经由:先通过单步奖励预热模子,学习东说念主类舌人的翻译计谋,再愚弄全局奖励机制优化模子对合座语义与反映延伸的适度。

这一机制显赫裁减了模子生成输出的滞后时候。如在长文本中译英任务中,经过RL优化后的Seed LiveInterpret 2.0将语音输出延伸从3.90秒降至2.37秒,翻译质料得分也从75.1擢升至79.5。

▲图为RealSI长文本同传基准下的系统性能对比(图源:手艺阐扬)

模子还具备自适合节律适度才气,概况笔据语音输入的理会度与抒发节律,智能养息输出时机与语速。

在万古候演讲等场景中,系统会主动保执译文与源语的节律一致,幸免“跟不上讲话节律”或“提前收尾”等不同步问题。

三、0样本声息复刻,译音既准又像“你”

Seed LiveInterpret 2.0引入“0样本声息复刻”才气,只需及时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目口号种译文。这一才气在果真会议、演讲、跨语种一样中极具实用价值,不仅裁减联接门槛,也增强语义情谊的传达。

在多轮语音评测中,Seed LiveInterpret 2.0是独一支撑“中英双向语音到语音同传+声息克隆”的系统,其SVIP(语音译文灵验信息比例)在zh-en标的达到67.8,在en-zh标的达到64.7,音质、节律、语调高度拟东说念主。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在SVIP(语音译文灵验信息比例)上的对比。(图源:手艺阐扬)

收获于Seed LiveInterpret 2.0的声息复刻才气,用户在与不同语言配景的东说念主交流时,还是能用我方的音色输出外语译文,在擢升识别度的同期,也增强了交流的亲和力。

智东西第一时候进行了试用,在“同声传译”的过程中,系统对英文语音的翻译反映较快,音色复刻也具备一定相似度,能听出话语者的口吻。

但合座仍存在一定延时感,相称在语速变化或语句较万古更为昭彰。

四、专科评考研证:翻译准确率达74.8分

为评估系统性能,字节Seed团队基于中英双向RealSI圭臬数据集,邀请专科同传舌人团队进行东说念主工打分。

已矣表露,在语音到语音翻译任务中,其译音质料得分达66.3,显赫杰出同类系统。在语音到文本的中英互译任务中,Seed LiveInterpret 2.0的平均翻译质料得分为74.8(满分100),比较第二名系统高出58%。

▲图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,东说念主工评测的翻译质料与反映成果已矣。其中部分交易翻译系统以字母代称。(图源:字节朝上Seed)

同期,在延伸方面,语音到文本场景中平均输出首字延伸仅为2.21秒,语音到语音场景延伸为2.53秒,展现了质料与速率的致密均衡。

系统在BLEURT、COMET等客不雅翻译意见上同样阐扬伊始,且为独一支撑“声息复刻”的评测系统。

在圭臬化测试中,Seed LiveInterpret 2.0在中译英(zh-en)与英译中(en-zh)任务中均获得了最高的BLEURT和COMET得分,同期在延伸意见AL(Average Lagging)、LAAL和FLAL上展现出致密均衡。

尤其在语音到语音(S2S)任务中,Seed LiveInterpret 2.0在zh-en标的获得60.7/83.6的得分,在en-zh标的获得57.6/83.5的得分,并以2.17秒的FLAL达成最低延伸,合座阐扬伊始同类系统。

▲图示为客不雅测评集的测评成绩,由于业界合适同传场景的高质料公开测试数据较少,字节Seed团队整合了公开数据与里面数据集进行测试。(图源:字节朝上Seed)

结语:语言不再隔膜,AI信得过走上同传舞台

从延伸、译准率到音色复刻,Seed LiveInterpret 2.0已让AI在同传这条“最难登顶”的语言手艺旅途上迈出了关节一步。手艺侧依托多模态进修与强化学习计谋,居品层面则已具备跨语言及时演讲、跨境会议、造就直播等落地才气。

尽管现在仍仅支撑中英互译,但这套端到端同传框架的可彭胀性,为后续多语种拓展、情谊师法和更多交互面目的翻译任务奠定了基础。

当“听懂你说什么”与“像你说出来”同期成为可能J9九游会体育,语言AI正在告别援助器用的扮装,信得过走向东说念主与东说念主一样的前台舞台。