部分网络抓取的微信公众号的文章,已经去除 HTML ,只包含了纯文本。每行一篇,是 JSON 格式, name 是微信公众号名字, account 是微信公众号 ID , title 是题目, content 是正文。
Clone 完 Git 之后,要用 git lfs fetch 来拿主要的文件。
目前数据大约 1G ,数据会定期更新增加。
请只用于研究用途。
1
sharp 2016-05-07 15:14:52 +08:00
你是怎么抓的
|
2
xlxlxlxl 2016-05-08 14:53:57 +08:00
我该说 1024 还是好人一生平安(●'◡'●)
楼主好人 |
3
songkaiape 2016-05-09 11:00:05 +08:00
同问怎么抓取的。。好奇
|
4
linsun84 OP |