V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  dassh  ›  全部回复第 3 页 / 共 16 页
回复总数  314
1  2  3  4  5  6  7  8  9  10 ... 16  
2023-06-14 10:49:29 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@LavaC 可以的,“异型到看不出是原字母”的话,就需要单独训练一个识别模型,只有 26 个字母的话大概 10k 的训练样本吧(经验之谈)。
然后针对你说的:“我这套开发流程”,可能并不适用,因为这个网站是针对通用 web 场景的,然后为了省服务器成本,把预测步骤放到了端侧,开发时间全耗在这里面( onnx ,web worker, opencvjs )。你可能更需要的是只是一个 restful 接口,有基础的可以看看 PaddleOCR 文档
2023-06-14 07:45:22 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@jzyzcz
关于收费: 短期不考虑,一是做 ocr 的网站太多,又没什么杀手级功能,二是接入支付挺麻烦(没做过),三是用户量没几个,收费都跑了。一开始想法是接入 adsense 看能收回服务器成本不,但 adsense 不给新站过,先等等
关于速度: 目前都是单线程预测的,计划增加配置使用多线程预测,配置越多,速度越快,当然你 cpu 和内存也占用越多

近期规划:
1. 网站是 23 年 5 月 21 日上线的,google search console 配置了,但 ocr 网站太多,搜索 online ocr 前 8 页都找不到(没有第 9 页,只有 8 页),我有在后台统计 ocr 的图片数量、pdf 页数(也仅限于此),在 v2 发这贴之前,这个数字基本每天都是 0 ,所以我得学学怎么宣传,seo ,做外链这些
2. 上面提到的速度优化
3. 注意到有人尝试了 ocr 一个几百页的 pdf ,一本书?我也试了下,直接快卡死一段时间,后面在预测第二页时崩了,分析了下当前是用同步的方法将所有图片加载到内存,所以一次性加载几百张图片撑不住,不知道这个是不是强需求,我会尝试解决
2023-06-13 23:16:36 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@RatioPattern 是的
2023-06-13 16:16:15 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@hteen 是有小概率漏检的,尤其是针对歪歪扭扭的。
ps: 本网站:“我做不到”
2023-06-13 11:27:32 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@yuanchao 这里面涉及的工作量比较大,短期内应该不会支持,后续支持了我 @你
2023-06-13 10:26:46 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@subframe75361 感谢支持,近期可能不会弄 pwa ,因为不太懂这块,目前的最优先的是使用多 worker 加速识别速度、尝试支持手机浏览器,后续弄完我学学看。
2023-06-13 10:21:18 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@yqf0215 这块没有研究,搜索了下也不知其然,不好意思
2023-06-13 09:18:41 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@vueli 啊?有链接、关键词吗
2023-06-12 18:36:04 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@kebamt 可以发出来我看看?
2023-06-12 17:56:03 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@itxh 非常非常感谢!
2023-06-12 17:54:27 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@EmpCold 默认是识别英文的模型哈,在 language 手动切换一下 chinese simplified
https://i.imgur.com/gzapRbM.png
2023-06-12 17:50:55 +08:00
回复了 dassh 创建的主题 分享创造 OLOCR:个人开发的一个在线 OCR 网站
@justincnn 如果说的是提取 PDF 中的表格并正确放入一个个单元格的话,是不支持的
midjourney 真牛皮!
2023-02-06 14:59:02 +08:00
回复了 Pangurban 创建的主题 问与答 [求助] 如何搜索一张以前看过的图片
bmFub2FvYUBnbWFpbC5jb20= 大佬求指导 @shendaowu
分子
2023-01-03 14:57:14 +08:00
回复了 Kamiimeteor 创建的主题 分享发现 [分享键盘] MelGeek 积木键盘 - Palette 调色板(多图)
图看不到,当初刚出时很种草,但实在不喜欢周围多的那一圈占地方,想想买套键帽就行
2022-12-30 18:00:59 +08:00
回复了 shuxhan 创建的主题 生活 自从阳过了之后,味觉变成甜味
https://i.postimg.cc/vZRNVd9s/Snipaste-2022-12-30-17-59-55.png
今天上午还没感觉,下午就突然变甜了
2022-12-30 14:59:37 +08:00
回复了 wseani 创建的主题 分享创造 做了一个(英文)本地相册检索 iOS App,送 10 个促销代码
6RHP4T6TMM4P 已用谢谢~
2022-12-19 15:09:15 +08:00
回复了 neptuno 创建的主题 OpenAI ChatGpt ai 眼中的爱心
__
_ _\ \_ _
\\ //
\ /
\ /
V

画给我的长这样
1  2  3  4  5  6  7  8  9  10 ... 16  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1066 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 76ms · UTC 19:21 · PVG 03:21 · LAX 11:21 · JFK 14:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.