V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 243 页 / 共 338 页
回复总数  6758
1 ... 239  240  241  242  243  244  245  246  247  248 ... 338  
2014-11-24 15:52:28 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 现在对 wiki.moegirl.org 停止DNS解析了吗。。
2014-11-23 22:30:05 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 我觉得没有必要,pyspider是人工写模板的,而不是说页面上所有的链接都需要去检测一次是否在库中。实际上只有列表页有这样的检测。

再加上需要做按照时间判断是否重抓取的检测,bloomfilter 是不够的,还是得查库。
2014-11-23 10:35:32 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 其实是反过来,原来是被人工强制设置为了 wiki.moegirl.org 然后让人把规则下了。现在是真的抓到了 wiki.moegirl.org ...
2014-11-23 10:06:25 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 本来就是靠 taskid,taskid是定长的,来区别的啊
@fly51fly 你什么环境?
2014-11-23 00:10:49 +08:00
回复了 hpan 创建的主题 程序员 ppurl.com 打不开了
人家早说要关了,强行今天
2014-11-20 22:39:28 +08:00
回复了 binux 创建的主题 分享创造 也来一发,豆瓣害羞组读图版
@wh1100717 我就试试我的爬虫,一个晚上做的,我也懒得完善
2014-11-20 16:44:42 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 好过吗?
2014-11-20 14:32:15 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@crossmaya 我没有windows,前面有人报过issue,然后可以了啊
2014-11-19 17:32:09 +08:00
回复了 ccbikai 创建的主题 程序员 大家都是怎么处理爬虫代理问题的?
@ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
2014-11-19 11:15:07 +08:00
回复了 Livid 创建的主题 程序员 Code Review on Stack Exchange
这个完全没有为 review 做过优化啊,github 代码行内评论的什么,不一定最好,至少比论坛看起来舒服。
2014-11-19 09:59:20 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 原来好过一段时间吗?貌似这次不是人工规则,而是13号貌似有一次成功抓取。
2014-11-18 16:33:08 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
HN 上有人提出要测性能。。于是。。
多线程下 5700 pages/min,作为对比 scrapy bench 4800 pages/min
多进程都不想欺负它了。。

PS:我用了无限制消息队列,流量直接往下一个模块上压。。由于不清楚 scrapy 的实现其实结果不好说。。
https://gist.github.com/binux/67b276c51e988f8e2c31
2014-11-18 14:30:29 +08:00
回复了 lliioogg 创建的主题 问与答 请问这个椅子(床)学名怎么叫,我想淘宝搜搜看买个
床给你,妹纸和那只猫留给我
1 ... 239  240  241  242  243  244  245  246  247  248 ... 338  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1034 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 51ms · UTC 20:21 · PVG 04:21 · LAX 12:21 · JFK 15:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.