有做过nlp中文分词的么，从生语料建立一个领域词典，有哪些可以参考的资料？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4725 天前的主题，其中的信息可能已经有所发展或是发生改变。

关于中文分词，绝大多数资料、模型都是已经有词典了，如何更准的切分。那么从生语料建立词典，如果写程序做，有人分享下经验么？我感觉应该需要一定的人工工作，还好我要做的是小型词典，可以接受了。

词典

语料

从生

2 条回复 • 1970-01-01 08:00:00 +08:00

joyjy

2013 年 2 月 4 日

直接用中科院分词就挺好的。

自己搞的话，常见的就是TF-IDF、互信息，隐马尔可夫模型。
互信息：I=log(p(xy)/p(x)*p(y))，用于判断字串是否总是组合出现 -> 组合概率高的可能是词。从单字开始到分隔符（标点符号）依次计算，可以得出候选词概率矩阵。
TF-IDF：TF-词在整体语料中出现的频率，IDF-出现词的语料块在整体语料中的频率，可以用于从候选词中筛选。
隐马尔可夫模型：推断分词的最优路径。

nigelvon

2013 年 2 月 4 日

以前做过用大量语料来统计的，不过效果和效率没有用词典的好。