(顺便安利一下:本人从帝都回来,打算找个兼职 。如果你们正好缺个前端 或者 php 后端 不妨联系我。微信:dongxi828 )
star 地址 https://github.com/lizhichao/VicWord
getWord 长度优先切分 。最快getShortWord 细粒度切分。比最快慢一点点getAutoWord 自动切分 (在相邻词做了递归) 。效果最好json和二级制格式igb
二进制格式词典小,加载快dict.igb含有 175662 个词$fc = new VicWord('igb');
$arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语
$arr = $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒
$arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//准确度对比
//q 的分词和百度的分 http://nlp.qq.com/semantic.cgi#page2 http://ai.baidu.com/tech/nlp/lexical
机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒 140w 字
getShortWord 每秒 138w 字
getAutoWord 每秒 40w 字
测试文本在百度百科拷贝的一段 5000 字的文本
VicDict->add(词语,词性 = null) 1
dishuibaby 2017 年 12 月 27 日
mark 一下
|
2
server 2017 年 12 月 27 日
1024,😀
|
3
qianmeng 2017 年 12 月 27 日 via Android
这个很厉害啊
|
4
eseeker 2017 年 12 月 27 日 via Android
好东西要赞一个。谢谢分享!
|
5
gdtv 2017 年 12 月 27 日
感谢,正好需要
|
6
gdtv 2017 年 12 月 27 日
试了一下
广东省广州市解放路 24 号越秀公园 结果: 广东省,广州市,解放,路 24 号越秀,公园 感谢楼主,正好可以用到我现在的项目里。 |
7
assad 2017 年 12 月 27 日 via Android
赞一个
|
8
gdtv 2017 年 12 月 27 日
能否区分词性,例如“的、地、得”是助词,“红酒”是名词
|
10
babytomas 2017 年 12 月 27 日
可以配合你这个做本地翻译引擎耶。
|
11
predator 2017 年 12 月 27 日
棒棒哒非常好
|
12
ORZRRR 2017 年 12 月 27 日
支持下,这玩意核心在词典,希望大家可以开源一起维护完善词典?已经人工给一个星星
|
13
LeungJZ 2017 年 12 月 27 日
支持支持。已 star。
|
14
kn007 2017 年 12 月 27 日
nice,支持
|
15
x86 2017 年 12 月 27 日
好东西
|
16
Sornets 2017 年 12 月 27 日
厉害了,star+1
|
17
lyz745704689 2017 年 12 月 27 日
有一个个人项目,目前安卓已经上架,ios 在开发中,不知道楼主有兴趣没有,已经加您微信了
|
18
rebill 2017 年 12 月 27 日
看来切词的准确性在于词典
|
19
pkm 2017 年 12 月 27 日
结婚|的|和尚|未结婚的
|
20
pkm 2017 年 12 月 27 日
楼主棒棒哒,细粒度挺准确的
|
21
aksoft 2017 年 12 月 27 日
php 是最好的语言
|
22
imNull 2017 年 12 月 27 日
fork 了楼主的,简单改了改支持 composer: https://github.com/xu42/VicWord
|
24
qianmeng 2017 年 12 月 27 日 via Android
刚才试了一下,感觉词库的大小限制了分词效果,看来智能程序的阅读量也很重要啊
|
25
singer 2017 年 12 月 27 日 via iPhone
哇塞,好厉害啊
|
26
heybuddy 2017 年 12 月 27 日 via Android
老兄 666
|
27
mingyun 2017 年 12 月 27 日
@imNull 安装提示
[InvalidArgumentException] Could not find a matching version of package xu42/vic-word. Check the packa ge spelling, your version constraint and that the package is available in a stability which matches your minimum-stability (stable). |
28
arsom 2017 年 12 月 28 日 via iPhone
mark
|
29
polymerdg 2017 年 12 月 28 日
mark
|
32
TangMonk 2017 年 12 月 28 日 via Android
每个单独的 http 请求都要重新加载词库吗?
|
35
mumu 2017 年 12 月 28 日
mark
|
36
Outshine 2017 年 12 月 29 日
好东西,已 star
|
37
leon1900 2017 年 12 月 29 日
棒
|
38
wbz93815 2017 年 12 月 30 日
好东西,收藏下。
|
39
artandlol 2018 年 6 月 14 日
安装完一直提示故障,composer 和 git 的方式都有问题。
PHP Fatal error: Uncaught Error: Call to undefined function Lizhichao\Word\igbinary_unserialize() in /data/web/vendor/lizhichao/word/Lib/VicWord.php:31 |