V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
qsmoon
V2EX  ›  问与答

怎么根据标题进行自动化分类

  •  
  •   qsmoon · 2014-05-12 22:32:43 +08:00 · 5529 次点击
    这是一个创建于 3852 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有没有现成可用的库? 任何语言都可以,不知道搜索啥关键词比较好
    比如:
    "Esprit 埃斯普利特 ED0D30M 男式 舒适纯棉直筒休闲牛仔裤 199元包邮"
    分类到
    "服装"类别

    "Mentholatum 曼秀雷敦肌 研极润保湿化妆水170ml+极润眼霜3g+弹力肌眼膜2片*1袋/4ml 114元(满199-100 低至64元)"
    分类到
    "美妆"类别
    16 条回复    2014-10-13 12:34:23 +08:00
    zoowii
        1
    zoowii  
       2014-05-12 22:37:29 +08:00   ❤️ 1
    出个注意,没试过.

    分词后分别去淘宝搜索,然后看推荐类别什么的. 然后自然就分好类了

    当然,如果你自己训练也是可以的,但是那训练数据的获取一般人应该弄不到
    chlx
        2
    chlx  
       2014-05-12 22:38:12 +08:00
    太多了。例如Python有Scikit-learn,Gensim 等等
    chlx
        3
    chlx  
       2014-05-12 22:39:10 +08:00   ❤️ 1
    @zoowii 可以手工标注;看楼主的描述,不需要标注很多效果应该很好
    qsmoon
        4
    qsmoon  
    OP
       2014-05-12 22:43:34 +08:00
    @chlx
    @zoowii
    感谢已发送,睡觉先,明天白天研究下~~
    shoumu
        5
    shoumu  
       2014-05-12 22:44:34 +08:00
    @chlx 如果楼主的类别非常多的话还是需要很多数据吧。楼主这个好像还没有确定类别。。
    akfish
        6
    akfish  
       2014-05-12 22:44:53 +08:00
    仅仅是分类的话,比较容易,机器学习而已。
    分词,人肉标记足够样本喂分类器。

    淘宝的做法复杂得多,记得还在学校时听过淘宝的一场校招宣讲,他们光是分词算法就非常细,不是通用的中文分词。当然淘宝的需求要高得多。
    akfish
        7
    akfish  
       2014-05-12 22:47:29 +08:00
    关于样本标记,可以半人肉。
    有的关键字对于分类的作用是决定性的,比如品牌、产品名。
    这样你就可以通过rule based的方法生成大量正确的训练样本。
    chlx
        8
    chlx  
       2014-05-12 23:10:31 +08:00
    @shoumu 忘了说分词。分词效果较好的有中科院的,复旦的包,好像都有Python的封装。
    aszxqw
        9
    aszxqw  
       2014-05-12 23:12:44 +08:00
    楼主想的太美了。
    没那么好的事情。
    ultimate010
        10
    ultimate010  
       2014-05-13 01:28:45 +08:00 via Android
    nlp里面的东西,文本分类。先训练分类器,在使用。简单点有大量已经分好类的数据,给机器学习,机器学会了,再去分类未知类别数据。libsvm,liblinear。还有一个商品标题分类的库叫libshorttext什么的,名字我记不太清了。前段时间用过,效果还好,但前提你得有大量分号类的数据。手机打字太累了
    ultimate010
        11
    ultimate010  
       2014-05-13 01:33:41 +08:00 via Android   ❤️ 1
    @chlx 亲测中科院那个号称全球第一的分词不眨地,不如我导师写的分词(也收费),开源的结巴分词(@aszxqw 的c++版本)可以试试,我猜想中科院主要是公开版本的词库太搓,可能付费就好了。
    YouXia
        12
    YouXia  
       2014-05-13 01:40:39 +08:00 via Android
    @aszxqw 来教我分词,分类,聚类吧。
    qsmoon
        13
    qsmoon  
    OP
       2014-05-14 21:03:08 +08:00
    @chlx 貌似工程量比较大啊 分词+分类 ? 我这个类别其实不多的7,8个吧,但是每天有1000条左右的新数据产生,怎么整?
    chlx
        14
    chlx  
       2014-05-14 21:58:31 +08:00
    @qsmoon ju.venlab gmail
    aszxqw
        15
    aszxqw  
       2014-05-17 14:54:41 +08:00
    @ultimate010 今天才看到回复,谢谢支持。

    @YouXia 少年不要黑我。分词我觉得看jieba分词的源码是最简单直接的学习方式了(python的代码好看好懂)。
    聚类的话我最近听说simhash用来聚类蛮有意思的,你可以试试。
    gavinzgz
        16
    gavinzgz  
       2014-10-13 12:34:23 +08:00   ❤️ 1
    @ultimate010 亲测libshorttext对标题效果不错,具体的使用我写了一篇: http://guoze.me/2014/09/25/libshorttext-introduction/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3184 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:35 · PVG 08:35 · LAX 16:35 · JFK 19:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.