Soul创始人张璐带团队破局，全双工语音模型让AI社交具有“真人温度”

　　当AI技术以前所未有的深度渗透社交场景，传统人机对话中机械的“轮次应答”模式正遭遇年轻用户的集体审视。在此背景下，Soul创始人张璐带领团队交出了一份突破性答卷——升级端到端全双工语音通话大模型，以技术创新重新定义人机交互的底层逻辑，让AI在社交场景中真正具备“类真人”的对话表现。

　　传统语音交互中依赖的VAD（话音活性检测）机制与延迟控制逻辑，如同无形的“交通信号灯”，强制规范着“用户说完AI再说”的单线程规则，延迟与生硬打断显著影响沉浸感。而Soul创始人张璐团队推动模型创新，通过“响应-倾听-打断”的流式预测技术，赋予AI自主决策对话节奏的核心能力。这意味着AI能像真人般主动打破沉默、适时插话，甚至在用户表达过程中自然加入讨论，支持辩论、合唱等并行交流场景，让持续多轮的对话始终保持生活场景中的自然流畅。

　　“真人感”的塑造，更体现在对人类表达细节的精准复刻。为进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验，2025年，Soul再次升级模型，新模型构建起完整的拟真表达体系：情绪表达上，声音的起伏会随对话推进同步变化，笑与嗔的转换自然如真人；发音特点上，语气词、结巴甚至偶尔的咳嗽等生活化元素被精准植入，打破AI“字正腔圆”的刻板印象；对话内容则彻底摆脱书面化痕迹，形成充满口语化的社交感。这种多维还原，让AI从机械应答工具蜕变为具备“表达个性”的互动伙伴。

　　场景感知能力的突破，进一步强化了交互的沉浸感。基于纯自回归模型架构，AI能深度整合人设特征、时间流转、环境变化及上下文对话信息，生成高度场景化的回应。这种“时间-事件-环境”的感知能力，使AI能塑造差异化“数字人格”，形成连贯的故事线，将人机互动从信息交换升级为“情感与信息的双向流动”。目前，Soul AI团队正探索将该能力扩展至多人场景，让AI凭借自主决策能力，判断说话时机，有效组织话题讨论与延伸，融入真实关系生态。

　　从2020年启动AIGC技术研发工作，到2023年推出自研语言大模型Soul X，再到如今全双工语音能力的突破，张璐带领团队的每一步都印证着一个核心逻辑：AI社交的终极价值，不在于技术参数的堆砌，而在于让AI以“平等参与者”的身份融入社交网络。当AI能像真人般感知对话氛围、把握发言节奏、传递情绪温度，人机交互便超越了工具属性，成为年轻人构建多元情感支撑的新路径。

　　在AI与社交深度融合的赛道上，Soul创始人张璐团队的探索为行业提供了重要启示：技术创新的终点始终是“人的需求”。全双工语音模型的升级，不仅是一次技术的突破，更是对“社交本质是情感共振”这一命题的深刻践行——毕竟，人类对连接的渴望，从来都离不开“真实在场”的温度。

　　（广告）

Soul创始人张璐带团队破局，全双工语音模型让AI社交具有“真人温度”

频道精选

最火资讯