2025-04-01 13:00:56
作者:科技
分享:
3 月 31 日消息,在百度 AI DAY 上(shàng),百(bǎi)度(dù)发(fā)布(bù)首(shǒu)个(gè)基(jī)于(yú)全新(xīn)互(hù)相(xiāng)关注(zhù)意(yì)力(lì)(Cross-Attention)的(de)端(duān)到(dào)端(duān)语(yǔ)音(yīn)语(yǔ)言(yán)大(dà)模(mó)型(xíng),宣(xuān)布(bù)实(shí)现(xiàn)超(chāo)低(dī)时(shí)延(yán)与(yǔ)超(chāo)低(dī)成(chéng)本(běn),在(zài)电(diàn)话(huà)语(yǔ)音(yīn)频(pín)道(dào)的(de)语(yǔ)音(yīn)问(wèn)答(dá)场(chǎng)景(jǐng)中(zhōng),调(diào)用(yòng)成(chéng)本(běn)较(jiào)行(xíng)业(yè)均(jūn)值(zhí)下(xià)降(jiàng)约 50%-90%。

当(dāng)日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。接入该模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。
更新后的文小言还支持“多模型融合调度”,整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求选择单一模型完成特定任务,提升响应速度与任务处理能力。
从活动中获悉,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策。
此外,文小言新增“图个冷知识”功能,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。
百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力 (Cross-Attention) 的端到端语音语言大模型。“在语音场景满足一定交互指标下,大模型调用成本比行业平均降低 50%-90%,推理响应速度极快,将语音交互等待时间压缩至 1 秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的 LLM 驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。”