发布时间: 浏览: 次 来源:周口网
当AI技术以前所未有的深度渗透社交场景,传统人机对话中机械的“轮次应答”模式正遭遇年轻用户的集体审视。在此背景下,Soul创始人张璐带领团队交出了一份突破性答卷——升级端到端全双工语音通话大模型,以技术创新重新定义人机交互的底层逻辑,让AI在社交场景中真正具备“类真人”的对话表现。
传统语音交互中依赖的VAD(话音活性检测)机制与延迟控制逻辑,如同无形的“交通信号灯”,强制规范着“用户说完AI再说”的单线程规则,延迟与生硬打断显著影响沉浸感。而Soul创始人张璐团队推动模型创新,通过“响应-倾听-打断”的流式预测技术,赋予AI自主决策对话节奏的核心能力。这意味着AI能像真人般主动打破沉默、适时插话,甚至在用户表达过程中自然加入讨论,支持辩论、合唱等并行交流场景,让持续多轮的对话始终保持生活场景中的自然流畅。
“真人感”的塑造,更体现在对人类表达细节的精准复刻。为进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,2025年,Soul再次升级模型,新模型构建起完整的拟真表达体系:情绪表达上,声音的起伏会随对话推进同步变化,笑与嗔的转换自然如真人;发音特点上,语气词、结巴甚至偶尔的咳嗽等生活化元素被精准植入,打破AI“字正腔圆”的刻板印象;对话内容则彻底摆脱书面化痕迹,形成充满口语化的社交感。这种多维还原,让AI从机械应答工具蜕变为具备“表达个性”的互动伙伴。
场景感知能力的突破,进一步强化了交互的沉浸感。基于纯自回归模型架构,AI能深度整合人设特征、时间流转、环境变化及上下文对话信息,生成高度场景化的回应。这种“时间-事件-环境”的感知能力,使AI能塑造差异化“数字人格”,形成连贯的故事线,将人机互动从信息交换升级为“情感与信息的双向流动”。目前,Soul AI团队正探索将该能力扩展至多人场景,让AI凭借自主决策能力,判断说话时机,有效组织话题讨论与延伸,融入真实关系生态。
从2020年启动AIGC技术研发工作,到2023年推出自研语言大模型Soul X,再到如今全双工语音能力的突破,张璐带领团队的每一步都印证着一个核心逻辑:AI社交的终极价值,不在于技术参数的堆砌,而在于让AI以“平等参与者”的身份融入社交网络。当AI能像真人般感知对话氛围、把握发言节奏、传递情绪温度,人机交互便超越了工具属性,成为年轻人构建多元情感支撑的新路径。
在AI与社交深度融合的赛道上,Soul创始人张璐团队的探索为行业提供了重要启示:技术创新的终点始终是“人的需求”。全双工语音模型的升级,不仅是一次技术的突破,更是对“社交本质是情感共振”这一命题的深刻践行——毕竟,人类对连接的渴望,从来都离不开“真实在场”的温度。
(广告)
责任编辑:唐珩 审核:高海仙
特别声明:
1.本网/端所刊登内容,若无特别声明,均来自网络转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
2.部分注明“来源:中国报业网”的作品为党政部门、网络作者投稿后经审核发布,投稿方应对文章、图片的真实性负责。仅代表投稿方个人观点,并不代表本网赞同其观点和对其真实性负责。
3.凡本网/端转载的企业资讯,仅代表作者个人观点,与本网无关。所涉内容不构成投资、消费建议,仅供读者参考,并请自行核实相关内容。
4.凡注明“中国报业”的所有文字、图片、音视频、美术设计和程序等作品,版权均属《中国报业》杂志社所有。未经《中国报业》杂志社授权,不得进行一切形式的下载、转载或建立镜像。
5.您若对该稿件内容有任何疑问,请即与中国报业网联系,本网将会在24小时给您回应并做处理。
6.邮箱:zgbymedia@163.com 电话:010-65363038 处理时间:上午9点至下午5点30分。