http://weirss.me
刚开始做,可以直接在首页搜索添加,也可以通过openid添加
数据来自搜狗微信搜索
1
lilydjwg 2015-06-20 15:30:09 +08:00
试了几个,都是「未收录」啊……
|
2
berry10086 OP 你点下添加就收录了
|
3
berry10086 OP @lilydjwg 点下添加就收录了
|
4
wittyfox 2015-06-20 16:27:01 +08:00
很有意思的样子。
|
5
lilydjwg 2015-06-20 16:58:58 +08:00
@berry10086 啊,白色的背景上的白色的字我怎么看得到~
|
6
lilydjwg 2015-06-20 17:00:25 +08:00
另外「点击查看」不要复用之前的窗口呀,再开个新的多好。
|
7
berry10086 OP @lilydjwg 添加是蓝色背景白色字呀 点击查看那里我记下来了,回头改掉
|
8
lilydjwg 2015-06-20 17:05:40 +08:00
@berry10086 鼠标移过去的时候确实是浅蓝,太浅了没注意到……
|
9
berry10086 OP @lilydjwg 谢谢你的反馈,你用的什么浏览器?
|
10
lilydjwg 2015-06-20 18:25:24 +08:00
@berry10086 火狐 38.0.5。
|
11
imink 2015-06-20 20:32:25 +08:00
能简单透露一下实现的技术手段么?
|
12
ulic95 2015-06-20 20:39:57 +08:00
好东西!
|
13
berry10086 OP @imink 核心就是抓搜狗的数据,但是搜狗有些页面是js生成的,对于js生成的页面,用selenium+phantomjs 抓取,其他内容直接用requests抓,但经常会触发反爬虫,所以要经常换cookies
|
14
berry10086 OP @lilydjwg 修复了
|
15
ggswolf 2015-06-20 23:18:54 +08:00
蛮不错的感觉~~
|
16
Kai MOD moved to /go/create
|
17
lilydjwg 2015-06-21 00:24:32 +08:00
@berry10086 这回不会看漏了,赞!
|
18
catface 2015-06-21 00:50:00 +08:00
安卓上用什么rss阅读器好呢
|
19
berry10086 OP @catface 我以前用feedly 现在用inoreader
|
20
bornichildren 2015-06-21 01:52:16 +08:00
感谢。以前有人也做过,不过后来貌似被搜狗给干了。希望这个能长久
|
21
berry10086 OP @bornichildren 目前跑了一个月,还没事,希望能坚持很久
|
22
ulic95 2015-06-21 12:14:06 +08:00
@berry10086 很多抓不了,是搜狗的问题?
|
23
berry10086 OP @ulic95 是的,有的公众号搜狗搜不到,搜狗有的,我基本都能抓到
|
24
zangbob 2015-06-21 15:58:41 +08:00
已感谢+收藏。。。希望能用的久一些。。。不要像其他几位同学的作品,或者不能用了,或者打不开了。。
|
25
djyde 2015-06-21 18:12:20 +08:00
关于能坚持多久的问题 我觉得楼主可以尝试做成 open source,让每个人都可以搭建自己的爬虫
|
26
berry10086 OP @djyde 目前还在改进中,过段时间会开源
|
27
sinosure 2015-06-21 19:20:14 +08:00
@berry10086 不错啊,改版了。在线看的界面还有很多潜力,加上多用户支持,然后自动根据公账号汇聚timeline更新,这样rss都不需要用了,直接在线看,顺带再支持收藏到pocket、印象笔记,齐活
|
28
berry10086 OP @sinosure 在线看的那个界面还没有做,目前还只是导航,未来会先改进这个界面。然后优化抓取算法,现在是简单粗暴的4小时全部更新一次,想加入根据公众号更新频率动态调整抓取频率的功能,可以节省很多资源。抓取这块稳定后,就可以按你说的做在线阅读啦。前端不太懂,还有好多东西要学。
|
29
wogong 2015-06-21 21:31:15 +08:00
感谢。
另外对比了一下搜狗的微信搜索和微信公众帐号之间的差异,发现二者并不同步。搜狗上槽边往事的最新文章是0512,而公众帐号实际是0524,少了三篇文章。 继续对公众帐号内容的封闭性失望。 |
30
berry10086 OP @wogong 是的,搜狗的数据滞后,二十多很多公众号的内容在搜狗搜不到
|
31
sinosure 2015-06-21 23:49:28 +08:00
@berry10086 在线读每篇公众号内容的阅读界面基本没必要动,就目前公众号原汁原味即可,条目导航页面目前我在eink下看很舒服,比sougou的来说对eink很友好,导航界面有第三方收藏功能就ok了。
抓取策略的确是可以的,扫描公众号列表里面的更新时间,然后只增量更新就好了。但愿搜狗手下留情少制造障碍 |
32
berry10086 OP @sinosure 谢谢你的建议,我先试着改进抓取策略。担心收录帐号多了以后,频繁访问搜狗会被封,目前确实是增量更新,每个公众号最多缓存20篇文章在本地,旧文章只保留链接和标题归档
|
33
ulic95 2015-06-22 07:00:29 +08:00
@berry10086 这个网站倒是能抓取大部分: http://chuansong.me/ 不知道是不是纯手动录入的。
|
34
berry10086 OP @ulic95 在搜狗微信搜索上线前,传送门就有了,应该是自动采集的,但是不知道作者如何实现的
|
35
sinosure 2015-06-23 13:11:51 +08:00
@berry10086 会不会是模仿微信操作实现的呢,不通过搜狗,直接从微信内抓?
|
36
berry10086 OP |
37
sinosure 2015-06-25 14:37:37 +08:00
@berry10086 可否将parse_list输出结果里面再增加一项,每个条目的更新日期,这样有利于增量更新内容
|
38
berry10086 OP @sinosure js生成的页面没有时间戳,所以得不到精确到分钟的更新时间,只能得到日期。想要获取更新时间,需要通过分析js调用的接口才能实现,但是接口经常变化,维护成本高
|
39
sinosure 2015-06-25 15:46:25 +08:00
@berry10086 到日期足够了,我看到日期了,但不知道怎么取到那个p标签的值。。。
|
40
berry10086 OP @sinosure 日期我抓取了呀
|
41
berry10086 OP @berry10086 不对,list这里没有抓日期,我是在文章那个页面抓的,增量更新我是根据标题判断的,没有根据日期判断
|
42
berry10086 OP @sinosure
ls = soup.select('#wxbox .txt-box') link_list = [] for item in ls: item_dict = {} item_dict['date'] = ls.select('p .s-p') 这样应该可以,我没有测试 |
43
sinosure 2015-06-25 16:47:24 +08:00
@berry10086 可能误解了我的意思,parse_essay方法有获取日期,但parse_list方法好像只取了标题和链接,如果也有日期输出就好了,不用去抓内容就能获得列表每个篇目的更新日期。
然后生成一个没有正文的rss,看的时候直接跳去微信原始页面看,省的直接看rss时图片被干掉 |
44
sinosure 2015-06-25 16:50:13 +08:00
@berry10086 我现在看公众号的思路是这样的,在ttrss下订阅多个公众号,然后ttrss可以自动汇聚近期更新的篇目到最新更新文章下,这些最新更新文章形成一个新的feed,这样只要订阅这一个feed就行了,混搭各种更新。
|
45
berry10086 OP @sinosure 也就是说,你想要一个不是全文输出的rss?
|
46
berry10086 OP @sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里,但是这样在kindle上看文章列表时看不到文章出处,后来就改成都放在根目录了,可以看到出处。
|
47
sinosure 2015-06-25 16:59:27 +08:00
@berry10086 有全文当然好啊,全文的文字部分留在ttrss里面,可以作为存档,还支持全文检索。
这不是担心抓全文超时么,有些再利用公众号内容的时候只需要搭建类似你http://weirss.me/account/sagacity-mac/的效果就好了,在线直接看 我这想法跟你的区别是,你是基于一个公众号生成文章列表,我是利用ttrss抽取多个公众号内容合并最新更新,做了个多个公众号的最新文章列表 |
48
berry10086 OP @sinosure 抓全文不会超时,非常快,瓶颈在于搜狗,有反爬虫
|
49
welly 2015-06-25 19:02:39 +08:00
好像挺不错的啊,就是me网址咋打不开
|
50
berry10086 OP @welly 你用的什么网络?是dns解析不了吗?
|
51
welly 2015-06-25 20:27:27 +08:00
@berry10086
Service Unavailable The server is temporarily unable to service your request. Please try again later. Reference #60.27b3d208.6baad6e8.1435235216 江西·移动 |
52
kevin1452 2015-06-26 15:03:17 +08:00
请问 屏蔽的情况怎么样?我之前强行抓会屏蔽,后来生成cookie相对稳定了,但还是容易被屏蔽
|
53
berry10086 OP @kevin1452 因为解析文章列表是用phantomjs实现的,所以很少被屏蔽。另外,10分钟更换一次cookies
|
54
kevin1452 2015-06-27 19:55:36 +08:00
@berry10086 我开始只是访问了最后那个固定连接,之前的js并没有执行,所以屏蔽的比较快,后来执行了js之后相对好很多,,, 每次访问间距也拉大了很多.. 但是跑的时间长了 还是会屏蔽一些时间之后 再解封
|
55
berry10086 OP @kevin1452 经常换cookies就好了,我现在是10分钟更新一次cookies,效果不错
|
56
berry10086 OP @berry10086 我测试过,不间断抓取大概30次就会触发反爬虫。
|
57
14 2015-06-28 16:47:10 +08:00
感谢 这东西主要是维护麻烦
|
58
hao312 2015-07-16 15:17:00 +08:00
出问题了? RSS这2天没不更新
|
59
berry10086 OP @hao312 ip被搜狗封了
|
60
riccar 2015-07-19 18:17:43 +08:00
如果能看被屏蔽的就更好了,比如侠客岛的文章,经常有被举报屏蔽的,回头想看看不了
|
61
zhangyueru 2015-07-23 14:27:35 +08:00
有新版本发布了吗
|
62
zhangyueru 2015-07-24 12:20:02 +08:00
@berry10086 ? 求代码共享
|
63
berry10086 OP @zhangyueru 最近太忙,过一段时间就会共享出来
|
64
zhangyueru 2015-07-31 16:25:35 +08:00
期待中。。。。
|
65
SurDark 2015-08-09 07:19:03 +08:00
最近抓取的rss不更新了,还会修复吗?谢谢……
|
66
sinosure 2015-09-07 13:47:35 +08:00
搜狗又变招了,获取的 url 不再是固定的了,要多爬一步了
|
67
knightliao 2016-12-31 00:01:06 +08:00
http://100weidu.com 支持微信公众号 rss 订阅,欢迎使用,我会一直维护
|