V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jolly336
V2EX  ›  人工智能

关于 RAG/CKG 的问题咨询

  •  
  •   jolly336 · 4 小时 29 分钟前 · 85 次点击

    现在公司有超过百万文件的大仓,在现有的 AI Agent (Cursor/ClaudeCode/Antigravity)下可以 Agentic Search 走 grep 、find 、ls 等命令根据关键词全局找相关代码,然后修改,但这种有几个问题:

    1. 检索能力受限 在大仓上,检索的关键词容易遗漏关键路径,把不相干的内容加入时会占用上下文窗口,后续模型会遗漏一些文件;
    2. 缺少代码结构 检索是 AI 自己给的关键词进行,缺乏真实代码的语义和代码调用、依赖关系等

    因此,我们实现了一个 CKG 方案,解析了文件结构之后,分析出依赖、调用关系之后生成代码摘要,然后向量存储,最后提供 MCP 给 Agent 做大仓代码检索。

    但理想是好的,现实使用时遇到了问题:

    • 查询的错配 当使用自然语言提问时(如:我的头像双击逻辑),Agent 在调用 CKG MCP 时给到工具的 query 关键词可能是 "avatar double click"、"user icon interaction" 等,会丢了我的,这样检索出来的结果会不理想,再重排序意义也不大,因为召回的内容不匹配,本质还是关键词由 LLM 生成的,有一定的不可靠;

    关于这个大家有什么好的想法?

    111111111111
        1
    111111111111  
       4 小时 9 分钟前
    请求来自于 agent ,可以考虑使用一个 LLM 对请求进行加工和理解(比如翻译为中英双语、生成多个候选检索词),然后再进行检索
    另外谷歌提过 agent call agent 的思路,可以考虑做一个 agent 来进行细致可控的检索,然后通过 mcp 提供给原 agent
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3169 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 14:07 · PVG 22:07 · LAX 06:07 · JFK 09:07
    ♥ Do have faith in what you're doing.