1
joyjy 2013-02-04 12:11:51 +08:00
直接用中科院分词就挺好的。
自己搞的话,常见的就是TF-IDF、互信息,隐马尔可夫模型。 互信息:I=log(p(xy)/p(x)*p(y)),用于判断字串是否总是组合出现 -> 组合概率高的可能是词。从单字开始到分隔符(标点符号)依次计算,可以得出候选词概率矩阵。 TF-IDF:TF-词在整体语料中出现的频率,IDF-出现词的语料块在整体语料中的频率,可以用于从候选词中筛选。 隐马尔可夫模型:推断分词的最优路径。 |
2
nigelvon 2013-02-04 12:15:19 +08:00
以前做过用大量语料来统计的,不过效果和效率没有用词典的好。
|