V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 708 天前的主题，其中的信息可能已经有所发展或是发生改变。

要求

接近 1000 万张不同分辨率的图片，其中某个特定分辨率的大概有 300 万左右。
图片上固定位置有类似水印相机的附加文字。
对附加文字进行识别，用识别内容重命名图片，分文件夹归类整理。

一个查询工具，通过文字查询符合条件的图片，可预览可批量导出。
需要至少三个查询条件。

识别率要求至少 95%。越高越好。

现状

淘宝上找人用 PaddleOCR 跑了下，识别率只有 90%左右。已放弃。
希望能使用 PaddleOCR 或者其他类似开源项目继续优化将识别率提升上去。
如果开源项目实在不行，不排除使用阿里、百度之类付费 OCR 服务的可能。

做过 OCR 有兴趣的朋友请带 ID 加我： TW9ycm93bGVzcw==

谢谢大家。

OCR

识别率

paddleocr

查询

13 条回复 • 2024-01-01 23:12:56 +08:00

sltkzbw

2023-12-31 15:44:31 +08:00

不知道你具体遇到了什么问题，如果是文字处于图像固定位置的话可以先按大致区域截下图再走 OCR ，原图直接上可能检测会不准，识别模型按你的描述有 90%准确率那我估计就是正常打印体，应该问题不大

zjcKD

2023-12-31 17:21:02 +08:00

这个有现成的云服务吧？

youyang

2023-12-31 19:24:53 +08:00

@zjcKD 这预算感觉用云服务更合适

Morrowless

2024-01-01 00:38:01 +08:00 via Android

@sltkzbw 服务器崩溃，数据恢复后目录结构以及文件名丢失，只能通过 OCR 尽量获取可用信息。

Morrowless

2024-01-01 00:38:21 +08:00 via Android

@zjcKD 有，贵……

Morrowless

2024-01-01 00:38:53 +08:00 via Android

@youyang 这个预算用阿里百度等的 OCR 服务真不够诶

huangzebang787

2024-01-01 01:25:28 +08:00

1500 确实预算太低了

Felix96

2024-01-01 11:11:21 +08:00 via iPhone

我最近在做 paddleOCR 项目，我刚刚加你微信了。

shubiao

2024-01-01 12:13:04 +08:00 via Android

说下我知道的，正好我负责对接的百度 ocr ，我司是识别 ui 的设计稿
100w 次调用，8k+，你这个量得纯费用就 8w ，还不算人工费。

百度里面有一款指定格式识别，就是类似识别身份证上的身份证号，不过可以自定义位置，可以看下

——
楼上说的截图后识别可以试试
星火的 gpt 支持传图，企业有 500 万 token 可以试试
找个便宜的 gpt4 key 服务商，可以试试 gpt4
多张图截图后合并一次，4 合一，立马省 75%的费用

shubiao

2024-01-01 12:17:02 +08:00 via Android

另外，ocr 出来的东西不可控，比如横线，可能是中划线下划线汉字一等等
你这种想精确使用识别的文字的情况，很难实现

zuiyue123

2024-01-01 22:23:11 +08:00

手里完整模型有一套，可以尝试下

nyxsonsleep

2024-01-01 22:42:44 +08:00

@shubiao #9 ai 识图能力能有 95%？

shubiao

2024-01-01 23:12:56 +08:00 via Android

@nyxsonsleep 没估，我们识别出来文字也是喂给其他模块使用。
我们尝试直接用多模态去实现最终功能，效果也挺好。
一是贵，二是 ocr 文字可以用到很多地方，所以就放弃这个路线了。

一个 OCR 项目，初步预算 1500，搭配相应的查询工具。

要求

现状