[分享创造] 我做了一个 AI 辅助小说阅读系统,可以从 1000 万字里推理出跨越全书的身世谜题

《医道官途》,1296 章,1000 万字。我问 AI:乔梦媛的亲生父亲究竟是谁?说说前因后果。书里从来没有直接说过答案。AI 自己搜原文、追线索、识破了一个贯穿全书的误导,最后推理出来了。整个过程大概两分钟。

没有任何一段原文直接说出这个答案。AI 是从四个跨度超过 200 章的片段里拼出来的。

为什么两年前做不到

大概两年前我做过一个小说 RAG 系统,当时效果很差。旧文在这里:小说 RAG 问答系统实现

两个问题:

一是 RAG 的核心问题是召回不准。语义相似不等于信息相关。

二是当时的模型推理能力不够,拿到片段很容易被误导或者就此打住。

这次重新做,用的是全文检索,精准命中加上下文。搜到一个片段,AI 能顺着线索继续搜下一个,推理链自然就串起来了。

系统是什么

本质上是一组围绕 EPUB 的 CRUD API ,但核心是搜索。找书、读目录、按章节取内容、全文搜索(支持精确短语/智能模糊)、按段落取上下文、记 memory 。

这套东西和我别的代码耦合比较深,不太方便直接开源,所以干脆把提示词整理出来单独开源了。感兴趣的话,可以让自己的 agent 照着在自己的项目里生成一套:books-insight

想自己试试的

书库里有《三体》,可以直接跑:

你现在可以访问一个 EPUB 书库 API: https://nbme.top/api/books_api
先 GET 该地址查看可用方法,然后完成以下任务:

找到三体这本书,回答罗辑的咒语到底是什么?他是怎么想到的?
书里没有直接说,请通过搜索原文,自己推理出答案。
顺便告诉我这套系统能做什么。

请直接开始,不用问我。

需要支持联网和脚本执行的 Claude 或 ChatGPT agent 。

这次能做成,一半靠工程,另一半是因为这一代模型的理解能力确实比两年前强太多了。