10T+pdf 需要做一套内容检索系统，我想这么做*** - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1028 天前的主题，其中的信息可能已经有所发展或是发生改变。

有 10T+ pdf 做一套内容检索系统，以后会继续新增 pdf
1.通过关键字可以快速检索 pdf 文件内容
2.可通过账号密码登录，并上传 pdf 和检索
3.在保证上边情况下，相对低的成本。
目前想到是：
pdf 解析到 es + Elasticsearch 集群 + web 进行开发（可是 es 的集群有点小贵）
求大佬们指点下。

13 条回复 • 2023-04-11 15:37:00 +08:00

1

pluvet

2023 年 4 月 11 日

1

10T 资源求分享（狗头

2

Sisyphe42

2023 年 4 月 11 日

别心疼钱，从头到尾全放 aws

3

Weixiao0725

2023 年 4 月 11 日

1

现在做基于关键字检索的系统已经没有吸引力了，都开始搞语音检索了。可以把 pdf 内的内容做成 embedding 存到向量数据库，然后基于向量相似性做检索。

4

ufo5260987423

2023 年 4 月 11 日

10T 资源求分享

5

optional

2023 年 4 月 11 日 via iPhone

简单的倒排索引可以直接用 pg

6

Akkuman

2023 年 4 月 11 日 via Android

10t 全是文字版的 pdf 或 epub 等格式？大部分应该是扫描版吧，文字全提出来我觉得可能也没多少

7

billzhuang

2023 年 4 月 11 日

@Weixiao0725 ES 早就可以所谓的向量相似度搜索了，https://www.elastic.co/cn/blog/text-similarity-search-with-vectors-in-elasticsearch

8

litengyu86

2023 年 4 月 11 日

pdf 内容是文本还是图片啊？如果是图片就不好检索吧。

9

shadoworld

2023 年 4 月 11 日

楼主做好后开源吧

10

ggvm

2023 年 4 月 11 日

使用 es 来做肯定比较方便。这个没有太大的难度了。

但从成本角度，建议你不要上云，可以考虑自己买洋垃圾组建本地的集群。

把搜索的前端逻辑放在公有云，实际的数据存储和查询引擎放在本地集群。本地集群通过内网穿透的方式对外提供服务。

11

flyingfz

2023 年 4 月 11 日

推荐一个 es 的替代品，MeiliSearch , 一个 Rust 写的搜索引擎。
大概测试了下，效果还是挺不错的。

尝试把 hellogithub.com 的 1-85 期周刊的所有 project 导入到里面，占用存储 82M 。供参考。

12

runningman

2023 年 4 月 11 日

@flyingfz 多谢，我去试试这个，之前用了 golang 的 zinc

13

dayudayupao

2023 年 4 月 11 日

为何不试试 chatpdf ？

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 3241 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 25ms · UTC 05:14 · PVG 13:14 · LAX 21:14 · JFK 00:14
♥ Do have faith in what you're doing.