目前最好的开源手写体 ocr 识别是什么

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 259 天前的主题，其中的信息可能已经有所发展或是发生改变。

1 、百度 ppocr
2 、阿里读光 ocr
3 、。。。

第 1 条附言 · 2025 年 5 月 8 日

多模态大模型有考虑过，但是成本太高了，而且速度慢
成本上单卡t4(16g) ，ocr小模型可以支持8个并发
大模型可能智能部署小参数量化版本，效果还不行，换大参数成本更高

OCR

手写体

识别

22 条回复 • 2025-05-12 11:14:43 +08:00

daodao

2025 年 5 月 8 日

PaddleOCR

Suonna

2025 年 5 月 8 日

汉王可以了解一下，目前遇到过最强的手写 OCR ，软件还良心

其次就是直接用 gemini 做 ocr

zzfer

2025 年 5 月 8 日

对过几家 SDK ，百度和微软的表现还不错

realJamespond

2025 年 5 月 8 日

最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强

ma46

2025 年 5 月 8 日

@Suonna 普通 ocr 用大模型非常不划算

Suonna

2025 年 5 月 8 日

@ma46 请教是哪方面不划算？

clf

2025 年 5 月 8 日

@Suonna #6 应该指 token 消耗吧，得最好把图片先降低分辨率，不然 token 烧的有点多。

luchenwei9266

2025 年 5 月 8 日

之前简单对比过：百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。

lee88688

2025 年 5 月 8 日

#4 说的 internvl3 14b 我也看过一些测评确实可以，但不知道具体场景情况，op 可以去试试。

kuonkuon

2025 年 5 月 8 日

做过测试，手写这东西，只有大模型识别率最高，但是也只有 70 几。测试数据是初中生的数学考试手写笔记

hmxxmh

2025 年 5 月 8 日

@Suonna 大模型太慢了，我们的业务场景要求响应速度，而且大模型成本高，1 张 t4 卡，小模型可支持 8 并发差不多，换大模型只能部署小参数的，大参数的至少 4 张卡，并发数还少

hmxxmh

2025 年 5 月 8 日

@kuonkuon 用的是哪家大模型

yoghurtguy

2025 年 5 月 8 日

@kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式

xiaomushen

2025 年 5 月 8 日

PaddleOCR 或 RapidOCR
其实是一个东东

hmxxmh

2025 年 5 月 8 日

@Suonna 这个我体验了一下，确实很准，不过是根据手写轨迹来识别的好像，如果输入是图片不行

hmxxmh

2025 年 5 月 8 日

@xiaomushen 这个我用来表格识别了，属于是开源最好的表格识别

Suonna

2025 年 5 月 9 日

@hmxxmh 您可以自己部署 gemini 号池

owen800q

2025 年 5 月 9 日 via iPhone

微信

Yux0

2025 年 5 月 9 日

@yoghurtguy HME100k

kuonkuon

2025 年 5 月 9 日

@hmxxmh #12
@yoghurtguy
那时候用的 gpt4o ，现在 4.1 出来了，最主要是学生不会给你规规矩矩写，大量存在歧义的符号，大模型好处是会联系上下文。不是开源数据集，是我这儿学校扫描的答题卡，我自己整理的测试图

yoghurtguy

2025 年 5 月 10 日 via iPhone

@Yux0 感谢，还是中国的
@kuonkuon 感谢，API 太贵了用不起，想用开源的自己部署

Yux0

2025 年 5 月 12 日

@yoghurtguy #21 可以一起交流，目前我也在弄识别数学公式的项目： https://github.com/yux-lab/TeXnically