GitHub: https://github.com/tzzp1224/reporeaper
这是一个模仿高级工程师认知模式的 GitHub 代码审计工具,旨在解决传统 RAG 逻辑破碎的问题。
核心特性:
拟人化思维:模拟架构师“先看目录、再读核心、最后扣细节”的阅读顺序,分步构建项目认知,非盲目灌入上下文。
AST 语义切片:基于语法树按 Class/Method 边界切分并注入父类上下文,彻底拒绝文本暴力截断造成的逻辑丢失。
JIT 动态加载:ReAct 驱动的 Cache Miss 机制,在分析中发现上下文缺失时,会自动去 GitHub 抓取依赖文件补全。
混合检索:融合 Vector 语义搜索与 BM25 关键词匹配,确保模糊逻辑概念和具体函数名均能精准定位。
高性能与可视化:基于 FastAPI+AsyncIO 实现全链路异步并发与本地持久化,支持输出 Mermaid 架构图与表格。
在线 Demo 入口见 README ,支持 Docker 一键部署,欢迎 Star !也欢迎大家提建议和帮忙指点 !
1
realdexter1224 OP 为啥没人看😢我觉得很实用诶
|
2
panda188 3 天前 via Android
@realdexter1224 你搜搜 deepwiki ?
|
3
realdexter1224 OP @panda188 做的时候没看到👀 但是具体 chunk 策略和 agent 的 jit 处理算是优化了 可以看看
|
4
xhawk 3 天前 很好的一个项目. 上次, 有个远程找到我, 说是录用代码测试, 就要我做这么一个项目, 我也是无语, 直接无视了.
项目写得还是很好的. 我去运行了. 我主要目的是分析我自己的代码库, 希望对当前的代码库做优化. 如下是几点反馈: 1. 关于调用的 ai, 我这边用的 groq. 2. repo 现在是一个, 并且对执行的结果没有保存. 最好是可以保存, 甚至能补充迭代的. 3. 有个想法: 如果能只针对文档(用户的帮助文档), 结合代码, 能告诉用户一些实际的操作行为, 比如我是一个 erp 项目, erp 项目有一堆的操作文档, 但是用户遇到问题, 还是不会处理. 比如我想问退款怎么操作: 有可能文档是没有提及的, 但是代码是有的, 这样子就能给予用户一个正反馈. |
5
realdexter1224 OP @xhawk 感谢你的认可和详细反馈!
目前项目核心是基于 OpenAI 兼容接口构建的,未来的版本计划将 Model 层进一步解耦和配置化 关于持久化:目前确实是单次执行。结果保存以及基于历史记录的“多轮迭代/优化”功能,已经列入后续的开发计划中。 关于业务场景(文档+代码):你的这个场景很有启发性,代码往往比文档更有效,利用代码逻辑去补充业务操作说明(如 ERP 里的隐晦流程),确实能解决很多实际痛点,这是一个非常有价值的 RAG 落地场景。 很有建设性的建议,感谢支持! |