部分网络抓取的微信公众号的文章,已经去除 HTML ,只包含了纯文本。每行一篇,是 JSON 格式, name 是微信公众号名字, account 是微信公众号 ID , title 是题目, content 是正文。
Clone 完 Git 之后,要用 git lfs fetch 来拿主要的文件。
目前数据大约 1G ,数据会定期更新增加。
请只用于研究用途。
1
sharp 2016 年 5 月 7 日
你是怎么抓的
|
2
xlxlxlxl 2016 年 5 月 8 日
我该说 1024 还是好人一生平安(●'◡'●)
楼主好人 |
3
songkaiape 2016 年 5 月 9 日
同问怎么抓取的。。好奇
|
4
linsun84 OP |