首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
›
问与答
求推荐好的文学资料,用来搞词库,要求可以下载纯文本的
ratazzi
·
2012-09-01 23:03:19 +08:00
· 3042 次点击
这是一个创建于 4401 天前的主题,其中的信息可能已经有所发展或是发生改变。
昨天转了搜狗的部分细胞词库,发现输入依然不是很流畅,主要不是特别常用的,今天想到找些好点的文字资料然后利用中文分词取词计算词频,最后加上拼音就成了比较好的词库了,现在主要没有好的资料。
目前分词库用的 pymmseg,如果又更好地话也推荐个吧,限 python 用的。
词库
资料
词频
9 条回复
•
1970-01-01 08:00:00 +08:00
1
Brutal
2012-09-01 23:52:23 +08:00
http://www.sogou.com/labs/resources.html
2
ratazzi
OP
2012-09-02 09:04:46 +08:00
@
Brutal
这个好,多谢了
3
hbc
2012-09-02 09:20:09 +08:00
能不能去 weibo 这样的地方去爬一些下来然后做词库?
4
ratazzi
OP
2012-09-02 09:51:54 +08:00
@
hbc
爬的话太慢,没有足够的带宽,机器性能也不行
5
hbc
2012-09-02 09:58:19 +08:00
@
ratazzi
可以扔在 SAE 之类的地方,但是怎么拿回来是个问题(定期取回就好了吧?
6
ratazzi
OP
2012-09-02 11:27:43 +08:00
@
hbc
目前不考虑抓取
7
hbc
2012-09-02 11:35:28 +08:00
@
ratazzi
ok :)
8
eric_q
2012-09-02 13:24:15 +08:00
词库大了也卡吧
9
ratazzi
OP
2012-09-02 13:41:36 +08:00
@
eric_q
打算处理大量文本后取前面频率高的部分
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2622 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms ·
UTC 14:38
·
PVG 22:38
·
LAX 07:38
·
JFK 10:38
Developed with
CodeLauncher
♥ Do have faith in what you're doing.