V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  berry10086  ›  全部回复第 8 页 / 共 17 页
回复总数  329
1  2  3  4  5  6  7  8  9  10 ... 17  
2015-06-25 16:54:49 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里,但是这样在kindle上看文章列表时看不到文章出处,后来就改成都放在根目录了,可以看到出处。
2015-06-25 16:52:47 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 也就是说,你想要一个不是全文输出的rss?
2015-06-25 16:39:17 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以,我没有测试
2015-06-25 16:34:33 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@berry10086 不对,list这里没有抓日期,我是在文章那个页面抓的,增量更新我是根据标题判断的,没有根据日期判断
2015-06-25 16:33:18 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 日期我抓取了呀
2015-06-25 14:44:43 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure js生成的页面没有时间戳,所以得不到精确到分钟的更新时间,只能得到日期。想要获取更新时间,需要通过分析js调用的接口才能实现,但是接口经常变化,维护成本高
2015-06-23 13:30:03 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 有可能,搜狗没有的账号,传送门也有,而且还能获取点赞和阅读数,应该是在微信里抓的。
http://werank.cn/
2015-06-22 23:56:58 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@ulic95 在搜狗微信搜索上线前,传送门就有了,应该是自动采集的,但是不知道作者如何实现的
2015-06-22 17:34:47 +08:00
回复了 berry10086 创建的主题 NGINX 求一段 Nginx 配置
@yanyuechuixue 抓公众号,生成rss,目前是直接从数据库生成xml,我想直接生成xml,然后用nginx直接把url映射到xml,可以减轻数据库压力
2015-06-22 11:03:38 +08:00
回复了 berry10086 创建的主题 NGINX 求一段 Nginx 配置
@Livid 找到方法了,谢谢
2015-06-22 00:18:03 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 谢谢你的建议,我先试着改进抓取策略。担心收录帐号多了以后,频繁访问搜狗会被封,目前确实是增量更新,每个公众号最多缓存20篇文章在本地,旧文章只保留链接和标题归档
2015-06-21 21:38:01 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@wogong 是的,搜狗的数据滞后,二十多很多公众号的内容在搜狗搜不到
2015-06-21 19:57:21 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 在线看的那个界面还没有做,目前还只是导航,未来会先改进这个界面。然后优化抓取算法,现在是简单粗暴的4小时全部更新一次,想加入根据公众号更新频率动态调整抓取频率的功能,可以节省很多资源。抓取这块稳定后,就可以按你说的做在线阅读啦。前端不太懂,还有好多东西要学。
2015-06-21 18:35:30 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@djyde 目前还在改进中,过段时间会开源
2015-06-21 13:02:59 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@ulic95 是的,有的公众号搜狗搜不到,搜狗有的,我基本都能抓到
2015-06-21 07:38:59 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@bornichildren 目前跑了一个月,还没事,希望能坚持很久
2015-06-21 00:59:17 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@catface 我以前用feedly 现在用inoreader
2015-06-20 22:43:52 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@lilydjwg 修复了
2015-06-20 21:32:08 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@imink 核心就是抓搜狗的数据,但是搜狗有些页面是js生成的,对于js生成的页面,用selenium+phantomjs 抓取,其他内容直接用requests抓,但经常会触发反爬虫,所以要经常换cookies
2015-06-20 17:07:18 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@lilydjwg 谢谢你的反馈,你用的什么浏览器?
1  2  3  4  5  6  7  8  9  10 ... 17  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3936 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 01:00 · PVG 09:00 · LAX 17:00 · JFK 20:00
♥ Do have faith in what you're doing.