
当AI技术以前所未有的深度渗透社交场景,传统人机对话中机械的“轮次应答”模式正遭遇年轻用户的集体审视。在此背景下,Soul创始人张璐带领团队交出了一份突破性答卷——升级端到端全双工语音通话大模型,以技术创新重新定义人机交互的底层逻辑,让AI在社交场景中真正具备“类真人”的对话表现。
传统语音交互中依赖的VAD(话音活性检测)机制与延迟控制逻辑,如同无形的“交通信号灯”,强制规范着“用户说完AI再说”的单线程规则,延迟与生硬打断显著影响沉浸感。而Soul创始人张璐团队推动模型创新,通过“响应-倾听-打断”的流式预测技术,赋予AI自主决策对话节奏的核心能力。这意味着AI能像真人般主动打破沉默、适时插话,甚至在用户表达过程中自然加入讨论,支持辩论、合唱等并行交流场景,让持续多轮的对话始终保持生活场景中的自然流畅。
“真人感”的塑造,更体现在对人类表达细节的精准复刻。为进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,2025年,Soul再次升级模型,新模型构建起完整的拟真表达体系:情绪表达上,声音的起伏会随对话推进同步变化,笑与嗔的转换自然如真人;发音特点上,语气词、结巴甚至偶尔的咳嗽等生活化元素被精准植入,打破AI“字正腔圆”的刻板印象;对话内容则彻底摆脱书面化痕迹,形成充满口语化的社交感。这种多维还原,让AI从机械应答工具蜕变为具备“表达个性”的互动伙伴。
场景感知能力的突破,进一步强化了交互的沉浸感。基于纯自回归模型架构,AI能深度整合人设特征、时间流转、环境变化及上下文对话信息,生成高度场景化的回应。这种“时间-事件-环境”的感知能力,使AI能塑造差异化“数字人格”,形成连贯的故事线,将人机互动从信息交换升级为“情感与信息的双向流动”。目前,Soul AI团队正探索将该能力扩展至多人场景,让AI凭借自主决策能力,判断说话时机,有效组织话题讨论与延伸,融入真实关系生态。
从2020年启动AIGC技术研发工作,到2023年推出自研语言大模型Soul X,再到如今全双工语音能力的突破,张璐带领团队的每一步都印证着一个核心逻辑:AI社交的终极价值,不在于技术参数的堆砌,而在于让AI以“平等参与者”的身份融入社交网络。当AI能像真人般感知对话氛围、把握发言节奏、传递情绪温度,人机交互便超越了工具属性,成为年轻人构建多元情感支撑的新路径。
在AI与社交深度融合的赛道上,Soul创始人张璐团队的探索为行业提供了重要启示:技术创新的终点始终是“人的需求”。全双工语音模型的升级,不仅是一次技术的突破,更是对“社交本质是情感共振”这一命题的深刻践行——毕竟,人类对连接的渴望,从来都离不开“真实在场”的温度。
(广告)