现在有一个需求,希望在离线环境下,针对一些固定的表格进行识别。
我现在用过 PaddleOCR 的表格识别模型,请问还有其他的更好的解决方案吗?
例如充分了利用表格板式固定的特点,基于模板进行识别,感觉重点不是在识别上,而是如何对应好内容和其意义的关系
1
GopherDaily 17 天前
你自己先用 opencv 之类的处理下?
opencv 识别出最外面的框之后,切割了再给 ocr ? 可以走两个 OCR 进行一次校准 |
2
alexsz 17 天前
难点是对 OCR 识别结果进行结构化输出吧
|
3
8355 17 天前
我的理解就是 PP-Structure ,百度这边真的搞的蛮好的。
|
4
cobbage 17 天前 via Android
paddleocr 有坐标的,乱的话自己排序。用 oc 切割表格出来也是排序,然后还是需要 ocr 。还有一种就是就是你表格比较有特点(类似身份证)可以训练模型借助 yolo 类的,在借助 ocr 工具。
还有个好像叫无线/有线表格识别的。(阿里模搭里面的)。 paddle 感觉好点可以自己编译别的需要调用方便点。其他移植有困难。 |
6
WuChats OP @GopherDaily 嗯嗯,OpenCV 预处理有做过,效果会好一些。主要是想请教这种专门针对固定版式的表格照片的解决方案
|