有没有这样的文本匹配、分类模型、包？

预设一个字典
例如其中有 “半泽直树” （简体）

输入“『半沢直樹』（はんざわなおき）は、TBS 系列「日曜劇場」枠で放送された、池井戸潤の小説「半沢直樹シリーズ」を原作としたテレビドラマである。主演は堺雅人。 ”

能找到最接近的词是 “半泽直树”
这里涉及繁体字、异体字问题，原文“直”也是异体字，复制到这里就变了

又如，“Yuuka Hanazawa” 能匹配出 "Hanazawa Yuka"，这里涉及姓名前后写法、日语罗马字拼写的差异

没有搜到，中日韩的项目本来就稀少，跨民族语言的更少
看看有没有动漫爱好者知道一些特别的项目可以做这个

异体字

半沢直樹

hanazawa

半泽直

6 条回复 • 2023-09-27 18:08:54 +08:00

Lychee0

2023 年 9 月 26 日 via iPad

https://www.tensorflow.org/hub/tutorials/cross_lingual_similarity_with_tf_hub_multilingual_universal_encoder?hl=zh-cn
类似这种吗

NoOneNoBody

2023 年 9 月 26 日

@Lychee0 #1
哇哦，这是个大型模型，对我这个仅面向词语的需求来说，重了，建模恐怕都要很久
不过这东西有点意思，mark 一下慢慢看

暂时看第二个需求（英语），用 neofuzz 效果还算不错，只是 neofuzz 对短单词准确率低
日语汉字转简体暂时想到 opencc ，试了一些还可以，然后再想匹配的事

Lychee0

2023 年 9 月 26 日 via iPad

1 感觉还是多语言 word embedding 做对齐好点
2 tokenization 下找个模糊匹配的库就好吧（猜

hsfzxjy

2023 年 9 月 26 日 via Android

第一个能不能正则化后直接搜索呢？比如都转成简体

NoOneNoBody

2023 年 9 月 26 日

@hsfzxjy #4
我想不到字典有几万个词时的正则方案

hsfzxjy

2023 年 9 月 27 日 via Android

@NoOneNoBody 这里正则不是说用正则表达式，而是说把两边都转换成一个统一的形式，比如都用简体