V2EX › binux 的所有回复 › 第 244 页 / 共 339 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 240 241 242 243 244 245 246 247 248 249 ... 339

❮

❯

2014-11-23 10:35:32 +08:00

回复了 baskice 创建的主题 › 问与答 › 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删？

@baskice 其实是反过来，原来是被人工强制设置为了 wiki.moegirl.org 然后让人把规则下了。现在是真的抓到了 wiki.moegirl.org ...

2014-11-23 10:06:25 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@benjiam 本来就是靠 taskid，taskid是定长的，来区别的啊
@fly51fly 你什么环境？

2014-11-23 00:10:49 +08:00

回复了 hpan 创建的主题 › 程序员 › ppurl.com 打不开了

人家早说要关了，强行今天

2014-11-20 22:39:28 +08:00

回复了 binux 创建的主题 › 分享创造 › 也来一发，豆瓣害羞组读图版

@wh1100717 我就试试我的爬虫，一个晚上做的，我也懒得完善

2014-11-20 16:44:42 +08:00

回复了 baskice 创建的主题 › 问与答 › 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删？

@baskice 好过吗？

2014-11-20 14:32:15 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@crossmaya 我没有windows，前面有人报过issue，然后可以了啊

2014-11-19 17:32:09 +08:00

回复了 ccbikai 创建的主题 › 程序员 › 大家都是怎么处理爬虫代理问题的？

@ThomasHuang 就是重启。。只用过http，不会动态调权，只会自动重试。

2014-11-19 11:15:07 +08:00

回复了 Livid 创建的主题 › 程序员 › Code Review on Stack Exchange

这个完全没有为 review 做过优化啊，github 代码行内评论的什么，不一定最好，至少比论坛看起来舒服。

2014-11-19 09:59:20 +08:00

回复了 baskice 创建的主题 › 问与答 › 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删？

@baskice 原来好过一段时间吗？貌似这次不是人工规则，而是13号貌似有一次成功抓取。

2014-11-18 16:33:08 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

HN 上有人提出要测性能。。于是。。
多线程下 5700 pages/min，作为对比 scrapy bench 4800 pages/min
多进程都不想欺负它了。。

PS：我用了无限制消息队列，流量直接往下一个模块上压。。由于不清楚 scrapy 的实现其实结果不好说。。
https://gist.github.com/binux/67b276c51e988f8e2c31

2014-11-18 14:30:29 +08:00

回复了 lliioogg 创建的主题 › 问与答 › 请问这个椅子（床）学名怎么叫，我想淘宝搜搜看买个

床给你，妹纸和那只猫留给我

2014-11-17 21:43:17 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@shoumu 能说的就是blog写的那些了。。

2014-11-17 15:14:06 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@withrock micro-data目前需要在html里面加标签，而且太理想了。。

2014-11-17 12:43:00 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@shoumu 你是指how，还是指demo的数据？