[开源] RepoReaper：一个能读懂 GitHub 项目架构的 Agent，支持 AST 解析与 JIT 动态抓取

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

GitHub: https://github.com/tzzp1224/reporeaper

这是一个模仿高级工程师认知模式的 GitHub 代码审计工具，旨在解决传统 RAG 逻辑破碎的问题。

核心特性：

拟人化思维：模拟架构师“先看目录、再读核心、最后扣细节”的阅读顺序，分步构建项目认知，非盲目灌入上下文。
AST 语义切片：基于语法树按 Class/Method 边界切分并注入父类上下文，彻底拒绝文本暴力截断造成的逻辑丢失。
JIT 动态加载：ReAct 驱动的 Cache Miss 机制，在分析中发现上下文缺失时，会自动去 GitHub 抓取依赖文件补全。
混合检索：融合 Vector 语义搜索与 BM25 关键词匹配，确保模糊逻辑概念和具体函数名均能精准定位。
高性能与可视化：基于 FastAPI+AsyncIO 实现全链路异步并发与本地持久化，支持输出 Mermaid 架构图与表格。

在线 Demo 入口见 README ，支持 Docker 一键部署，欢迎 Star ！也欢迎大家提建议和帮忙指点！

AST

jit

agent

5 条回复

realdexter1224

1 月 7 日 via Android

为啥没人看😢我觉得很实用诶

panda188

1 月 7 日 via Android

@realdexter1224 你搜搜 deepwiki ？

realdexter1224

1 月 7 日 via Android

@panda188 做的时候没看到👀 但是具体 chunk 策略和 agent 的 jit 处理算是优化了可以看看

xhawk

1 月 8 日

很好的一个项目. 上次, 有个远程找到我, 说是录用代码测试, 就要我做这么一个项目, 我也是无语, 直接无视了.

项目写得还是很好的. 我去运行了. 我主要目的是分析我自己的代码库, 希望对当前的代码库做优化.

如下是几点反馈:
1. 关于调用的 ai, 我这边用的 groq.
2. repo 现在是一个, 并且对执行的结果没有保存. 最好是可以保存, 甚至能补充迭代的.
3. 有个想法: 如果能只针对文档(用户的帮助文档), 结合代码, 能告诉用户一些实际的操作行为, 比如我是一个 erp 项目, erp 项目有一堆的操作文档, 但是用户遇到问题, 还是不会处理. 比如我想问退款怎么操作: 有可能文档是没有提及的, 但是代码是有的, 这样子就能给予用户一个正反馈.

realdexter1224

1 月 8 日

@xhawk 感谢你的认可和详细反馈！

目前项目核心是基于 OpenAI 兼容接口构建的，未来的版本计划将 Model 层进一步解耦和配置化

关于持久化：目前确实是单次执行。结果保存以及基于历史记录的“多轮迭代/优化”功能，已经列入后续的开发计划中。

关于业务场景（文档+代码）：你的这个场景很有启发性，代码往往比文档更有效，利用代码逻辑去补充业务操作说明（如 ERP 里的隐晦流程），确实能解决很多实际痛点，这是一个非常有价值的 RAG 落地场景。

很有建设性的建议，感谢支持！