多模态大模型有考虑过,但是成本太高了,而且速度慢
成本上单卡t4(16g) ,ocr小模型可以支持8个并发
大模型可能智能部署小参数量化版本,效果还不行,换大参数成本更高
![]() |
1
daodao 7 天前
PaddleOCR
|
![]() |
2
Suonna 7 天前
汉王可以了解一下,目前遇到过最强的手写 OCR ,软件还良心
其次就是直接用 gemini 做 ocr |
![]() |
3
zzfer 7 天前
对过几家 SDK ,百度和微软的表现还不错
|
4
realJamespond 7 天前
最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强
|
![]() |
8
luchenwei9266 7 天前
之前简单对比过:百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。
|
9
lee88688 7 天前
#4 说的 internvl3 14b 我也看过一些测评确实可以,但不知道具体场景情况,op 可以去试试。
|
![]() |
10
kuonkuon 7 天前
做过测试,手写这东西,只有大模型识别率最高,但是也只有 70 几。测试数据是初中生的数学考试手写笔记
|
11
hmxxmh OP @Suonna 大模型太慢了,我们的业务场景要求响应速度,而且大模型成本高,1 张 t4 卡,小模型可支持 8 并发差不多,换大模型只能部署小参数的,大参数的至少 4 张卡,并发数还少
|
![]() |
13
yoghurtguy 7 天前
@kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式
|
14
xiaomushen 7 天前
PaddleOCR 或 RapidOCR
其实是一个东东 |
16
hmxxmh OP @xiaomushen 这个我用来表格识别了,属于是开源最好的表格识别
|
18
owen800q 6 天前 via iPhone
微信
|
![]() |
19
Yux0 6 天前
@yoghurtguy HME100k
|
![]() |
20
kuonkuon 6 天前
@hmxxmh #12
@yoghurtguy 那时候用的 gpt4o ,现在 4.1 出来了,最主要是学生不会给你规规矩矩写,大量存在歧义的符号,大模型好处是会联系上下文。 不是开源数据集,是我这儿学校扫描的答题卡,我自己整理的测试图 |
![]() |
21
yoghurtguy 5 天前 via iPhone
|
![]() |
22
Yux0 3 天前
@yoghurtguy #21 可以一起交流,目前我也在弄识别数学公式的项目: https://github.com/yux-lab/TeXnically
|