1
ty10086 137 天前
这个是个专业的活儿。
不仅涉及提取、还涉及一个“对齐”,才能解决“格式容易丢或者乱”。 我这边有用小软件可以用。但是如果你要自己实现,可以参考 trados 相关原理,它处理得很好。 |
2
Pteromyini 137 天前
|
3
ns09005264 137 天前
我写过几个类似的输出功能,基本的原理的就是从原文中提取有效的片段,记录该片段的 seek 与 size ,组成中间数据格式来方便处理,比如翻译。
处理好之后开始输出,依次遍历中间数据格式,根据之前输入时记录的 seek 与 size ,将原文与修改好的片段进行结合。 https://github.com/MapoMagpie/rimedm/blob/3533a0836b9a27b79b52d4d72591e1f2e71d0944/dict/output.go#L79 |
4
koto 137 天前
CAT 干的活吧,有个开源的 CAT 软件叫啥来着。。。说不定可以参考一下
|
5
koto 137 天前
OmegaT ?
|
6
whats OP @Pteromyini 这种 AI-CV 的方式对复杂格式文档的解析似乎不错,我们尝试下
|