[分享创造] DAG-chat,让 AI 对话变成思维导图

最近有一个 idea ,将 AI 对话的问答以 DAG ( Directed Acyclic Graph )的形式重新组织,提高了前端交互的体验。经过数月 Vibe Coding 以后,DAG-chat终于达到了可以公开发布的版本。

为什么要有 DAG-chat

场景假设

假设这样一个场景,五一假期来了,我想在杭州,南京,长沙,武汉四个城市挑选一个度假。首先我和 AI 聊了一下杭州的若干知名景点。聊完了以后,我又和 AI 聊了一下南京的美食。聊完南京的美食以后,我又对杭州的交通便利度产生了好奇。

到目前为止,对杭州的讨论和南京的讨论都是独立无关的。但是如果我想回头查看杭州具体某个景点的介绍,就需要滚动屏幕好久才能找到。如果我又开启了长沙的行程攻略讨论,或者对比一下武汉和南京的美食,那么当前的对话就会变得更加混乱:

  1. 进行了多轮对话以后,如果我想查看单独关于杭州的讨论的汇总(美食,景点,交通等),那么需要不停的滚动屏幕进行查找,关于杭州的讨论并没有集中到一处,而是分散在线性的对话内容中;
  2. 在整个讨论中,有四个城市,每个城市又有美食、景点、交通、娱乐、避雷等多个维度;用户可以针对某几个城市、某些维度进行对比或者关联,如:对比武汉、南京、长沙三地的美食;计划去杭州看西湖,然后武汉游长江,最后去长沙吃湘菜,如何安排规划行程。整个对话其实呈现出高度结构化的逻辑,但是在交互上,都被拍扁放到了一个线性的问答记录中,用户的交互体验很碎裂。

痛点分析

造成这种痛点的根本原因在于:对话沟通的思维是结构化的,有发散和汇总,而绝非单独一问一答。不光是旅游规划,很多场景都如此:

  1. 高考填报志愿。在浙江大学,上海交大,中科大之间抉择。首先要了解这三所学校的专业实力,所在城市发展潜力,保研/出国政策等信息;然后进行交叉对比汇总;
  2. 技术选型。现在要构建一个高性能后端应用,是选择 Rust 还是 Golang ?这两种语言分别从性能,生态,开发难度上进行分析,然后结合团队人员的情况进行选择;

凡是满足:

一个主题 --> 发散思维 --> 对比交叉关联 --> 得出结论

这种沟通范式的,都会存在上述的痛点;

目前市面上几乎所有的 AI 问答 APP ( DeepSeek ,ChatGPT ,Claude ,Gemini ,Qwen ),问答都是以线性的形式进行组织的。如果我想从某个地方开始,往不同的方向探索,再在某一个点上把这些探索汇合起来,以思维导图的形式组织对话内容,这是无法做到的。

那么问题来了,能不能把组织对话的数据结构从链表换成图?

于是做了这个项目:DAG-chat。

DAG-chat 效果演示

zh.gif

分支——从同一个回答出发,走不同的路

这是我用得最多的功能。

比如我问 AI “解释一下 Docker 的核心概念”,它给了一段回答。看完之后我脑子里冒出了两个方向:一个是想看看具体的 Dockerfile 怎么写,另一个是想了解 Docker Compose 多容器编排。

在 DAG-chat 里,我可以从同一条 AI 回复出发,分别提两个不同的问题——它们会变成两条平行的分支。界面上会出现一个标签栏,点一下就能在两条分支之间跳转。

switch.gif

操作也很直觉:把鼠标悬停在任何一条用户消息上,左边会出现一个分支图标,点一下,输入框里会自动引用它上面的那条 AI 回复作为上下文。你写上新的问题发出去,一条新分支就出来了。

branch.gif

原来的那条路径不会被覆盖。你开了三条分支,三条都在。想回去看哪条随时切,不丢任何东西。

这在做探索性对话的时候特别有用。比如我在学一个新技术的时候,通常会从概念层面先问一轮,然后针对其中感兴趣的点分别开分支深入——一个分支聊实现细节,一个分支聊最佳实践,一个分支聊常见坑。每个分支都是独立的上下文,互不干扰。最后如果我想对比不同分支里得到的信息,就用下一个功能——合并。

合并——把不同分支的答案汇总到一起

这个功能是我一开始就想做的核心需求,也是最开始的那个痛点——两个分支里的回答想放到一起做对比。

还是技术选型的例子。我在分支 A 里让 AI 分析了 Rust 的优势,在分支 B 里分析了 Go 的优势。现在我想让它做一个综合对比。

在 DAG-chat 里,我把鼠标悬停在两条 AI 回复上,分别点右边的合并图标,它们就被引用到了输入框里。然后我写上”Rust 和 Go 哪个学起来更容易?”——两条分支的上下文会一起作为这条新问题的 parent 。

compare.gif

合并的妙处在于:AI 在回答的时候,能同时看到不同分支的内容。它不是只看了一个片面,而是看到了你探索的全貌。此时,AI 回答的上下文,是沿着所有的 parent 一直向上到最初的提问,所形成的 sub DAG.

多模型对比

对话中间可以随时切模型。比如同一个问题,我先让 DeepSeek 回答,再切到 Qwen 回一个,两条回答各占一条分支。然后再用合并功能让 GLM 做个对比总结。

这个用法在做方案评估的时候特别好使。不同模型的知识储备和推理风格不一样——DeepSeek 可能更擅长逻辑推理,Qwen 在中文理解上有优势,Kimi 的长上下文能力比较强。把多个模型放在同一张图里对比,能比只用一个模型看到更全面的分析。

我试过拿三个模型分别 review 同一段代码,然后合并到一个节点让第四个模型做总结。这种用法在线性对话里,要么开多个对话,手动复制上下文;要么在一个对话里面,但是信息需要来回滚动查看。

除了技术选型,还能怎么用

上面举的例子偏技术开发场景,但其实 DAG 对话结构适用的范围比我想象的要广。

学习新知识。 比如你在学机器学习,问了一个”什么是梯度下降”的基础问题。AI 给了回答之后,你可以在一个分支里追问数学推导,另一个分支里要看代码实现,第三个分支里聊实际应用场景。每个分支独立深入,不会互相污染上下文。学到后面想回顾某个分支的内容,点标签就跳回去了,不用在长长的对话历史里翻找。

写作和内容创作。 我试过用它来构思文章大纲。先让 AI 给一个初始结构,然后在大纲的每个章节上开分支,分别让它展开写。不同章节的构思互不干扰,最后再用合并把几个章节的要点汇聚到一起做统一审阅。

debug 和排障。 遇到一个报错,可以让 AI 从不同方向分析:一个分支走”看日志定位问题”的路线,另一个分支走”检查配置文件”的路线,第三个分支走”搜索已知 issue”的路线。哪条路走通了就沿着哪条继续,走不通的切回去换一条,不浪费之前已经聊过的内容。

本质上,只要你的思考过程是”探索→分支→收敛”这种模式,DAG-chat 都能派上用场。

技术实现

问答对——核心概念

大模型的回答不同于即时通讯,在没有异常中断的情况下,是严格的一问一答节奏,用户提问和大模型的回答,在逻辑上构成了一个原子的,不可分割的问答对。

将这样一个问答对,定义为 DagNode ,整个对话就是由很多个 DagNode 组成的 DAG 。

每次在对话中新增提问内容,实际上就是在向这个 DAG 中,新增一个 DagNode 节点。而整个 DAG ,有且仅有一个 root 节点,即对话开始,最早的那个问答对。从任何一个 dagNode 开始向上遍历,寻找 parnet_ids ,最后都会遍历到最初的 dagNode 。

从链表到图

传统聊天的每条消息只有一个 parent_id ,指向前一条消息。我把这个字段改成了 parent_ids——一个数组。一个节点可以有零个、一个或多个父节点。

传统聊天:
  Message { id, content, role, parent_id }

DAG-chat:
  DagNode { id, content, role, parent_ids[], children[] }

parent_ids 是数组,所以一个用户问题可以引用多条 AI 回复作为上下文——这就是合并。children 也是数组,所以一条 AI 回复可以派生出多个追问——这就是分支。

但是每一个 role=user 的 dagNode ,children 只有一个元素;每个 role=assistant 的 dagNode ,parent_ids 也只有一个元素,这是问答对的定义决定的。

前端怎么把图展示成线性

DAG 在数据库里很自然,但屏幕是一条线。用户一次只能看到从根到叶的一条路径——就像在思维导图里,你虽然能展开所有节点,但目光的焦点在同一时刻也只能沿着一条路径走。

所以前端做的事情是:扫描 DAG 找出所有的分支点和合并点,给每个点建一个标签页容器,tabsContainer 。然后从根节点出发,沿着每个分支点当前激活的标签往下走,生成一条线性路径——这就是屏幕上展示的内容。

根据分支以及合并的特性,有两种 tabsContainer ,一种是 ChildrenTabsContainer ,用于管理分支问里面不同的分支,点击切换的时候,会改变整个渲染 path 中,到 leaf 方向的节点路径;

另一种是 ParentTabsContainer ,用于管理合并提问里面,不同的来源。点击切换的时候,会改变整个渲染 path 中,到 root 方向的途径节点;

用户点击 tab ,实际上就是在 DAG 中所有分支节点和合并节点中,选择一条 path ,从而让前端构建一条从 root 到某个 leaf 的 path 。

后端怎么把图喂给大模型

大模型的 API 只接受线性的对话历史,比如 :

[{role: "user", content: "..."}, {role: "assistant", content: "..."}, ...]

但 DAG 是图结构,不能直接丢过去。

所以后端做了一件事:当用户发新消息时,从这条消息的 parent_ids 出发,BFS 往上追溯所有祖先节点,构建出一个子图( SubDAG )。然后对这个子图做拓扑排序,把它拉平成一条链。

这里有个坑:经典的 Kahn 拓扑排序只保证拓扑序合法(每个节点都在父节点后面),但不保证连贯性——一条干净的链可能被别的分支的节点从中间插断。

前面提过,问答对是原子单元。后端做拓扑排序时以问答对为单位,下面用字母代表:a=(Q₁,A₁), b=(Q₂,A₂),以此类推。先说清楚什么叫”干净的链”。如果一段连续的问答对序列中,每一对都恰好只有一个父、一个子(入度=1 、出度=1 ),中间没有任何分支点(出度>1 )和合并点(入度>1 ),这就是一条干净链。

下图中 b → c → d → e → f 和 h → i → j → k → l ,就是两条“干净的链“。

    ┌── b → c → d → e → f ──┐
    │                       │
a ──┤                       ├── g
    │                       │
    └── h → i → j → k → l ──┘

节点类型:
a              分支点  (出度=2 ,子节点是 b 和 h)
b → c → d → e → f    干净链  (每个节点入度=1, 出度=1)
h → i → j → k → l    干净链  (每个节点入度=1, 出度=1)
g              合并点  (入度=2 ,父节点是 f 和 l)

干净链里的问答在语义上连贯——同一分支上的连续对话。排序时如果别的分支插进来,大模型看到的上下文就会出现话题跳跃。

普通 Kahn 算法处理完 a 之后,b 和 h 同时可用。算法不区分先后,可能先选 h ,走完旁支再回来:

普通 Kahn 排序结果:

a → b → h → i → j → k → l → c → d → e → f → g
       ╰── b→c→d→e→f 这段干净链被旁支切断了 ──╯

拓扑序合法——每个节点都在父节点后面,没有任何违规。但 b→c→d→e→f 这段干净链被 h→i→j→k→l 从中间切断了:b 后面接的不是 c ,而是 h 。大模型看到的对话,聊完 b 突然跳到 h 的分支,绕一圈再回来接 c——连贯线索被切碎了。

我的做法是改进 Kahn 算法,核心保证:干净链不被切断。有三条策略,按优先级依次尝试:

  1. 延续链:刚处理完一个节点,优先选它的子节点继续(前提是子节点原始入度=1 ,确认是链上节点而非合并点)
  2. 开新链:没有可延续的链时,选一个入度=1 、出度=1 的候选节点开新链
  3. 兜底:以上都不满足,选任意可用节点(按 ID 排序保证确定性)

用上面的例子走一遍:

保链排序过程:

  a                                         ← 初始可用
→ b → c → d → e → f                        ← 延续链:a 的子节点 b ,
                                              一路顺着链走到 f
                    ↓
                  h → i → j → k → l          ← 开新链:f 的子节点 g 不可用
                                              (入度=2 ,l 还没处理)
                                              退而选 h (入度=1, 出度=1 )开新链,
                                              一路走到 l
                              ↓
                             g                ← 兜底:l 处理完,g 入度归零

最终结果:

a → b → c → d → e → f → h → i → j → k → l → g
    ╰──── 干净链 ────╯   ╰──── 干净链 ────╯

两条干净链 b→c→d→e→f 和 h→i→j→k→l 都完整保留,没有被切断。不是像普通 Kahn 那样插在 b 和 c 中间。h→l 必须出现在 g 前面,因为 g 是合并点,得等 f 和 l 都处理完才能出场,这是拓扑约束决定的。

两种算法对比:

普通 Kahn:a → b → h → i → j → k → l → c → d → e → f → g
                  ╰── 干净链被旁支切断 ──╯

保链排序:a → b → c → d → e → f → h → i → j → k → l → g
               ╰──── 所有干净链完整 ────╯

技术栈

简单列一下:

  • 前端:React 19 + TypeScript + Vite
  • 后端:Python 3.14 + FastAPI ,模型服务用工厂模式,加新模型只需要继承基类加个注册
  • 数据库:MongoDB 存消息和 DAG 关系(文档结构天然适合图),MySQL 存对话元数据
  • 部署:Docker Compose 一键启动,或者 ./start.sh --all 本地跑
  • 本地模型:支持 Ollama ,没有 API Key 也能用

跟思维导图的关系

回过头来说说为什么我觉得这个项目跟思维导图很像。

思维导图的本质是一个从一个中心出发的树状结构。从一个核心概念开始,发散出几个子话题,每个子话题再继续展开。在这个过程中,你可以同时在好几个方向上思考,互不干扰,但又共享同一个中心。

DAG-chat 做的事情是一样的,只不过把”概念”换成了”对话”,把”发散”变成了”分支”,把”收敛”变成了”合并”。而且比思维导图更进一步的是——DAG 支持合并。在思维导图里,两个分支在某个节点上汇合回来是不太自然的操作,但 DAG 可以。这让整个对话结构更像一张网,而不只是一棵树。

还有一个区别:思维导图是静态的,你画完就定在那了。但 DAG-chat 的对话是活的——你随时可以从任何一个节点开新分支,随时合并,随时切换视角。它更像是一个可以实时生长的思维导图,每次交互都在扩展这张图的结构。

我觉得这种非线性的对话方式,可能更接近人真正思考问题的方式。你在脑子里探索一个问题的时候,不会是线性的——你会同时想好几个方向,然后发现其中两条路其实可以汇合。DAG-chat 就是把这个过程具象化了。

欢迎交流

哔哩哔哩:https://www.bilibili.com/video/BV16D5R6oEck?spm_id_from=333.788.videopod.episodes&vd_source=5a3410516080eb1b6d0a555d39a1ea5f

GitHub 地址:https://github.com/ZM-BAD/DAG-chat

欢迎来 GitHub 看看代码,提提 issue ,或者给个 star 支持一下。

如果你也觉得线性对话这个限制挺烦的,可以试试:

git clone https://github.com/ZM-BAD/DAG-chat.git
cd DAG-chat
cp .env.example .env    # 填入 API Key
./start.sh --all

没有 API Key 也行,装个 Ollama 就能跑本地模型,完全免费:

brew install ollama
ollama pull qwen3:8b
ollama serve
# 然后启动 DAG-chat ,会自动检测本地模型