1
Lychee0 2023-09-26 16:24:59 +08:00 via iPad 1
|
2
NoOneNoBody OP @Lychee0 #1
哇哦,这是个大型模型,对我这个仅面向词语的需求来说,重了,建模恐怕都要很久 不过这东西有点意思,mark 一下慢慢看 暂时看第二个需求(英语),用 neofuzz 效果还算不错,只是 neofuzz 对短单词准确率低 日语汉字转简体暂时想到 opencc ,试了一些还可以,然后再想匹配的事 |
3
Lychee0 2023-09-26 17:17:52 +08:00 via iPad 1
1 感觉还是多语言 word embedding 做对齐好点
2 tokenization 下找个模糊匹配的库就好吧(猜 |
4
hsfzxjy 2023-09-26 17:32:36 +08:00 via Android 1
第一个能不能正则化后直接搜索呢?比如都转成简体
|
5
NoOneNoBody OP @hsfzxjy #4
我想不到字典有几万个词时的正则方案 |
6
hsfzxjy 2023-09-27 18:08:54 +08:00 via Android
@NoOneNoBody 这里正则不是说用正则表达式,而是说把两边都转换成一个统一的形式,比如都用简体
|