有没有比较成熟的语义分类库（汉语、英语）？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1843 天前的主题，其中的信息可能已经有所发展或是发生改变。

例如：
input: 1937
output: 年份，20 世纪，30 年代，1930s，民国……

input: 北平
output: 北京，首都，民国……

input: 旗袍
output: 服装，民族服装，古装，满族，清朝……

大致就是图书馆管理学、分类学的反向搜索，从具体实例搜索类别
英语类似，就不写例子了，汉语库优先
注：input 只是词，不考虑分词，并不是求算法框架

求离线开源库
非盈利场景，不考虑收费
也不考虑 online api，因为测试的东西（想法）还不成熟，不断请求 api 不实际

应该只能公益团队做这个，个人的话恐怕要全职 Fulltime，那种十年磨一剑的人才有这个恒心
这个肯定就是拿来主义，个人做是个浩大的工程，看看有没有前人贡献者，就没必要拿伸手党说事了

3 条回复 • 2020-11-26 19:07:55 +08:00

TimePPT

PRO

2020-11-26 18:37:06 +08:00

举例的这些 case 全搞定语义分类库是没用的
分类任务只能分类，不能做推断。
预训练好的词向量可以解决一部分，实体抽取+normalize 能解决一部分，1937 能到年份这个单独看根本没法确定，在具体语境下足够多的互信息可以确定是年份还是纯数字，再去做推断。

TimePPT

PRO

2020-11-26 18:40:11 +08:00

腾讯有离线的资源可以用
https://ai.tencent.com/ailab/nlp/zh/index.html
多种任务的语义处理可以用他们的 TexSmart
预训练词向量可以用他们开源的 800w 量级的 200 维词向量文件。

知识图谱的，OpenKG 可以关注下 http://www.openkg.cn/

imn1

2020-11-26 19:07:55 +08:00

@TimePPT #1
也不是要准确判断，例如你所说的 1937 也可以包含“数字”这个输出

当然你说的我明白，这种一对多的输出，尤其输入可以任意，要做到库，可能极其庞大，普通机器也难受，通过算法做成有限的分类可行性更高

我再想想更换场景需求