首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
问与答
有人用過結巴分詞嗎?或者我們聊聊 word2vec?
llhh
·
2014 年 10 月 15 日
· 2204 次点击
这是一个创建于 4129 天前的主题,其中的信息可能已经有所发展或是发生改变。
有這樣幾個問題:
1.哪裏能獲得一些大的語料呢?
目前拿sogou實驗室的新聞語料練手,2g大小,差太遠了。
在語料的豐富度上差太多,感覺質量和數量都不夠。
2.分詞的字典,我自己有1.3億詞庫,想直接加進結巴分詞
這樣做會不會結果太亂,用結巴分詞的分詞的“全模式”分詞後放到word2vec跑會不會結果不好?
3.我想把1.3億詞庫自動分類,大家有什麼好的建議嗎?
謝謝大家!
(剛用linux,不知道爲何不能切換簡體了)
word2vec
太多
sogou
2 条回复
•
2014-10-16 09:20:24 +08:00
1
flyaway
2014 年 10 月 15 日
1
一般的语料都是研究机构标注的,通常都是需要花钱买的
2
userlogin
2014 年 10 月 16 日
1
v2ex也用了结巴分词:t/101091
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
1013 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms ·
UTC 22:21
·
PVG 06:21
·
LAX 14:21
·
JFK 17:21
♥ Do have faith in what you're doing.
❯