整理 | 华卫

AI 是否正在结束“回合制”聊天的时代？

所有在工作或日常生活中经常使用 AI 模型的人都知道，在文本、图像、音频和视频等各种模态下，现在基本的交互模式仍然是一样的：人类用户先提供输入，然后等待从几毫秒到几分钟不等（在某些特别复杂的问题中，甚至需要数小时或数天），随后 AI 模型再给出输出。用 Thinking Machines 的话说，目前大多数 AI 模型都是通过“外挂式”的方式来实现交互，将不同组件拼接在一起以模拟打断、多模态或并发等能力。然而，这类手工构建的系统终将被通用能力的进步所超越。

“如果 AI 真正要承担那些需要自然交互的工作，它就必须超越这种「回合制」的交互方式。最终，它需要能够更流畅、更自然地响应人类输入，甚至在处理下一次人类输入（无论是文本还是其他形式）的同时就做出回应。”这是 Thinking Machines 的观点。去年，前 OpenAI 首席技术官 Mira Murati、前 OpenAI 研究员兼联合创始人 John Schulman 等人创立了这家资金充足的 AI 初创公司，致力于让先进 AI 系统“更易理解、更可定制，并具备更通用的能力”。

今天，Thinking Machines 宣布推出“交互模型”TML-Interaction-Small，将其称为“首个同时具备强大智能/指令遵循能力与交互性的模型”。据介绍，这是一个拥有 2760 亿参数的混合专家（MoE）模型，其中活跃参数为 120 亿，可以持续接收音频、视频和文本输入，并在实时中进行思考、响应和行动，不依赖外部“脚手架”来实现交互能力。根据第三方基准测试结果，这种方法在性能上取得了显著提升，同时也降低了延迟。

不过，该模型目前尚未向公众或企业开放，该公司在公告博客中表示：“在接下来的几个月里，我们将开放一个有限的研究预览以收集反馈，并计划在今年晚些时候更广泛发布。”

137 页训练日志的交互模型，实力碾压其他前沿模型

在研究预览中，Thinking Machines 展示了 TML-Interaction-Small 模型在交互能力上的质变，以及在智能与响应速度之间达到的当前最先进的综合表现。

“整体体验更像是在协作，而不是在‘下提示词’。”演示视频中，OpenAI 前应用研究副总裁、Thinking Machines 联合创始人翁荔出镜展示了 TML-Interaction-Small 模型的无缝对话管理能力。该模型能够隐式判断说话者是在思考、让出话语权、自我修正，还是在邀请回应，无需单独的对话管理模块。

视频

在 X 上，翁荔表示，“过去几个月，我们玩得很开心，也有很多压力，最终产出了 12 个版本（外加大量子版本）和 137 页的训练日志。事实证明，人与人之间的协作对于提升人机协作非常重要。”

ChatGPT那一套要过时了？翁荔实测创业首个模型，回合制AI被“原生实时交互”秒了

不仅如此，TML-Interaction-Small 模型还解锁了一系列原本需要通过“外部脚手架”实现的能力，包括：

语言与视觉的即时插话：模型可以根据上下文在需要时主动插入，而不仅仅是在用户说完之后才回应。
同时语音（Simultaneous speech）：用户与模型可以同时说话（例如实时翻译）。
时间感知（Time-awareness）：模型对时间流逝具有直接的感知能力。
同时进行工具调用、搜索与生成式 UI：在与用户对话（说与听）的同时，模型可以并行执行搜索、浏览网页或生成界面，并将结果自然地融入对话之中。

为衡量交互质量，该实验室使用了 FD-bench，这是目前少数专门用于衡量交互性的基准之一。为量化智能水平，他们使用 Audio MultiChallenge，这是一个常用的基准，用于评估智能和指令遵循能力。结果显示，TML-Interaction-Small 显著优于现有的实时系统，包括 Gemini-3.1-flash-live 和 GPT-realtime-2.0 minimal。

响应速度：其轮次响应延迟为 0.40 秒，而 Gemini-3.1-flash-live 为 0.57 秒，GPT-realtime-2.0 minimal 为 1.18 秒。
交互质量：在 FD-bench V1.5 上，其得分为 77.8，几乎是主要竞争对手的两倍（GPT-realtime-2.0 minimal 为 46.8）。在 FD-bench v1.5 中，模型会接收预录音频，并需要在特定时刻作出响应。该基准从多个场景评估模型行为，包括用户打断、用户回应性反馈（backchannel）、与他人对话以及背景语音。

同时，该实验室改造了 RepCount-A、ProactiveVideoQA 和 Charades 三个基准来评估模型的视觉主动性。结果显示，在 RepCount-A（视频中物理动作计数）和 ProactiveVideoQA 等专项测试中，Thinking Machines 的模型能够主动参与视觉环境，而其他前沿模型则保持沉默或给出错误答案，包括高推理模型。

Thinking Machines 认为，通过将“交互性”内化为模型的一部分，模型规模的扩展将不仅让其更聪明，也会让它成为更高效的协作伙伴。此外，他们表示，虽然预计随着模型规模的扩大，交互能力也会进一步提升，但目前更大规模的预训练模型在这一实时交互场景下仍然过于缓慢，无法投入使用。“今年晚些时候，我们计划发布更大规模的模型。”

从零开始训练，200 毫秒为单位实时响应

这次发布的核心，是 AI 在“时间感知”和“存在感”上的一次根本性转变。当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理，并且在生成回应时，其“感知”是冻结的。在博客中，Thinking Machines 的研究人员将这种现状描述为一种限制，它迫使人类不得不去“迁就”AI 接口，比如把问题写得像邮件一样，并将思考打包成一整块再输入。

为解决这种“协作瓶颈”，Thinking Machines 从零开始训练了这一交互模型，并放弃了标准的交替式 token 序列。取而代之的是，他们采用了一种多流（multi-stream）、微回合（micro-turn）的设计，可以以 200 毫秒为单位同时处理输入和输出，确保实时响应能力。这种“全双工”（full-duplex）架构使模型能够实时地“听、说、看”，从而在用户说话时进行回应性反馈（backchannel），或在捕捉到视觉线索时主动插话。例如，当用户在代码片段中写出 bug，或者有朋友进入视频画面时。

技术上，该模型采用了无编码器的早期融合（encoder-free early fusion）。系统不再依赖像 Whisper 这样庞大的独立编码器来处理音频，而是通过一个轻量级嵌入层，直接接收原始音频信号（以 dMel 表示）和图像块（40×40），并在 Transformer 架构中从零开始联合训练所有组件。

由于实时交互需要近乎即时的响应速度，而这往往与深度推理能力存在冲突，该实验室因还此设计了一种由两部分组成的系统：

交互模型（Interaction Model）：始终与用户保持持续交互，负责对话管理、存在感维持以及即时响应。
后台模型（Background Model）：作为一个异步代理，负责处理持续性推理、网页浏览或复杂工具调用，并将结果流式传回交互模型，由后者自然地融入对话中。

在整个过程中，交互模型始终保持在线，回答后续问题、接收新的输入、维持对话上下文，并在后台结果返回时将其整合进对话中。当某个任务需要比即时响应更深层的推理时，交互模型会将其委托给异步运行的后台模型。这种分工让用户既能获得高响应速度，又能享受到完整的智能能力，包括推理模型的规划能力、工具使用能力以及代理式工作流，同时又具备非“思考型”模型的低延迟响应。

并且，这种架构使 AI 能够在执行任务（如实时翻译或生成 UI 图表）的同时，继续监听用户反馈。这一功能在发布视频中也得到了展示，模型在生成条形图的同时，给出了类似人类反应时间的多种提示反馈。需要注意的是，后台模型和交互模型本身都具备智能能力。即使单独使用，交互模型在交互性能和智能基准测试上也具有很强的竞争力。

一旦开放，将为企业带来巨大价值

如果 Thinking Machines 的交互模型向企业开放，很可能将从根本上改变企业将 AI 融入运营流程的方式。像 TML-Interaction-Small 这样的原生交互模型，可以实现当前标准多模态模型无法做到或极其脆弱的多种企业能力。

当前的企业 AI 必须完成一个“回合”后才能分析数据。而在制造业或实验室环境中，原生交互模型可以持续监控视频流，一旦检测到安全违规或流程偏差，就能主动插入提醒，无需等待工作人员提出问题。该模型在 RepCount-A（精确计数重复动作）和 ProactiveVideoQA（随着视觉证据出现即时回答问题）等视觉基准中的表现，表明它可以作为高风险物理任务的实时审计员。

在语音客服中，主要的摩擦来自于 2026 年标准 API 常见的 1–2 秒“处理延迟”。Thinking Machines 的模型将轮次延迟降低至 0.40 秒，大致相当于自然人类对话的速度。由于其原生支持同时语音处理，企业客服机器人可以在不打断用户的情况下，一边倾听客户情绪，一边提供“回应性反馈”（例如“我明白”“嗯嗯”），并提供实时翻译，使对话更像自然交流，而不是一段段割裂的录音。

标准大模型缺乏“内在时钟”，只有在文本提示中提供时间信息时才“知道时间”。而交互模型天生具备时间感知能力，可以管理时间敏感流程，例如“每 4 分钟提醒我检查一次温度”或“如果这个流程比上一次耗时更长就提醒我”。这对于工业维护和制药研究尤为关键，因为时间是核心变量。

此前，Thinking Machines 表示，将在其发布中坚持“重要的开源组件”，以赋能研究社区。但目前，尚不清楚这些新的交互模型是否会遵循同样的开源策略。

另值得一提的是，此次模型发布前，Meta 已从 Thinking Machines 挖走 7 名创始成员。据外媒报道，挖人前，Meta CEO 马克·扎克伯格曾接触 Mira Murati，试图收购 Thinking Machines Lab，但被拒绝了。

不过，Thinking Machines 并非单向流失人才，公司也聘请了 PyTorch 创始人 Soumith Chintala 担任 CTO，并引入 Neal Wu 等知名技术人才。有外媒报道称，曾在 Meta 工作 8 年、负责多模态感知系统的 Weiyao Wang 也已加入该公司。目前，该公司的规模增长至约 130 人。

参考链接：

https://thinkingmachines.ai/blog/interaction-models/

ChatGPT那一套要过时了？翁荔实测创业首个模型，回合制AI被“原生实时交互”秒了

137 页训练日志的交互模型，实力碾压其他前沿模型

从零开始训练，200 毫秒为单位实时响应

一旦开放，将为企业带来巨大价值