使用的SAE的中文分词服务,关键字提取算法用的TF-IDF,语料库来自教育部的语料库在线。
SAE的中文分词服务只能从SAE访问,服务端需要部署在SAE上。
参数未细调,大概测试了下基本上靠谱,后面项目里用上了再调。
链接:
* Blog
* Demo
* GitHub - Seger Demo
* GitHub - Seger
1
andybest 2014-08-31 07:32:26 +08:00
词库不太全,比如:中秋发福利:开发者专属定制 Coding 月饼!
中秋,专属 没有正确的分词 |
2
akfish OP @andybest 显示的只是关键词,不是完整的分词。
SAE分词的词性分得太细了,权重还没细调,“中秋”词性为“时间专指”,显然我漏掉了。 |
3
ChanneW 2014-08-31 12:48:41 +08:00
部署在 SAE 上的程序把接口留出来不就哪里都能用了么
|