V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CRUD
V2EX  ›  Java

有什么好上手的中文词语分类的自然语言处理类库吗?

  •  
  •   CRUD · 2020-07-14 15:49:30 +08:00 · 1362 次点击
    这是一个创建于 1604 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求是这样的:有 N 多的且之后会随时新增的商品名称,有固定的分组列表,要将这 N 多的商品名称对应到固定的分组列表中,提供一个商品名称可以知道它应该划分到哪个分组。

    尝试过 OpenNLP,不过不知道哪里姿势不对,训练完之后使用 NameFinderME 查找结果始终为空...

    之前没接触过这块的东西,有什么简单的办法可以满足这个需求吗?预先提供一批商品对应分组的训练素材,输入商品名称获得分组名称,手动修改商品对应的分组的时候会将该次手动修改当做训练素材,手动修改次数多了影响匹配结果。

    6 条回复    2020-07-14 16:17:15 +08:00
    murmur
        1
    murmur  
       2020-07-14 15:54:00 +08:00
    思路就错了,词语得信息量少得跟没有一样,怎么分类,想靠谱至少是一段话,一句话信息量就不够

    比如给你个词 百度 怎么分类
    哦 分类是食品哈 因为我们这有个百度烤肉
    murmur
        2
    murmur  
       2020-07-14 15:54:41 +08:00
    这可不是训练,这就是完整匹配然后写死,你录入多少商品他就支持多少商品
    teddy2725
        3
    teddy2725  
       2020-07-14 15:57:09 +08:00
    这就是短文本多分类问题,传统机器学习和深度学习都有一些模型可以解决。
    CRUD
        4
    CRUD  
    OP
       2020-07-14 16:04:12 +08:00
    @murmur #2 是的,我也想直接写死然后直接字符串匹配,关键是商品来源不一样,没办法保证能罗列出所有的完整的商品列表,同一商品名称上有可能也有一点点出入,所以才想能不能整个词语分类,根据近似值或者相似度匹配一下。
    CRUD
        5
    CRUD  
    OP
       2020-07-14 16:12:14 +08:00
    @teddy2725 #3 有哪些线索吗?
    teddy2725
        6
    teddy2725  
       2020-07-14 16:17:15 +08:00
    google 搜索 短文本多标签 nlp
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1022 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:45 · PVG 03:45 · LAX 11:45 · JFK 14:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.