V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 244 页 / 共 338 页
回复总数  6758
1 ... 240  241  242  243  244  245  246  247  248  249 ... 338  
2014-11-17 21:43:17 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@shoumu 能说的就是blog写的那些了。。
2014-11-17 15:14:06 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@withrock micro-data目前需要在html里面加标签,而且太理想了。。
2014-11-17 12:43:00 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@shoumu 你是指how,还是指demo的数据?
2014-11-17 12:21:40 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@yakczh 后台修改的是pyspider的组件代码?
2014-11-17 11:39:37 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@yakczh 依赖包
2014-11-17 11:39:24 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@laike9m 我觉得介绍一个东西,10分钟提起听讲者兴趣就好了。。又不是经验分享,需要把问题说清楚。。
2014-11-17 10:36:29 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@zyx89513
没用过 Portia,看介绍,感觉不是一层的东西,Portia 更像一个规则配置器,下层还是跑的 scrapy。
规则上,还是 http://blog.binux.me/2014/07/how-to-extract-data-from-web/ 里面,“xpath / css选择器 / 正则表达式” 这一层的东西,只是用表单简化配置罢了。

pyspider 虽然也有 自动生成css选择器的辅助工具,但是为了灵活性,或者说,还没有做这一层。
2014-11-17 09:33:06 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam pyspider 不是通用爬虫啊,你要是想知道通用爬虫怎么解决,来百度我告诉你:)

@forever139 开个ISSUE啊。。ISSUE对项目帮助很大的。。
2014-11-17 00:03:39 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 链接过2亿,请重写 scheduler
带随机数在脚本中自己去掉再提交
js动态可以在 JavaScript 抓取时指定一段js代码,模拟点击动作
防止过载有令牌桶流量控制

反爬请参照上一个回复
2014-11-16 23:53:53 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 1亿以下链接不需要bloomfliter,任何数据库直接查就够。pyspider 是由脚本控制 follow 什么链接,如何区分带随机数的链接在写脚本的时候就能搞定。

@wibile pyspider 不只是pipeline和middleware这么简单,它是真正的队列,真正异构组件可替换。
框架解决的是共性问题,而反扒利用的恰恰是与别人不同。
比如 block IP,架构上是在fetcher前面加一个squid,给squid加大量的代理。所以你会看到我 API 里面有一个参数是是否使用代理。
比如 douban 反反爬,并不是所有的cookie都需要,这样反而让对方知道你是谁。

消息队列是可替换的啊。。只要实现成内置Queue的接口,用什么都一样。比如 libs/rabbitmq.py
2014-11-16 23:44:54 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
数了下
v0.20 比 v0.10 commit多了3.6倍
代码增加了60%
2014-11-16 22:42:49 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@pc10201 主要是很多功能我现在还没闹不明白 scrapy 要怎么实现,如果我出评测的话别人一定说“那是你不会用”。。

而且设计思路上,pyspider 已经是一个架构了,scrapy 是一个包。
就我对 scrapy 的理解

* pyspider 使用 JSON ,不需要预先定义 Item
* 使用真的消息队列,而不需要 Pipeline
* 有真正的链接库,而不是 set集合,能对链接进行重抓调度,抓取更新更灵活方便
* 面向数据包协议编程,而不是面向接口。当需求不满足的时候,甚至可以用其他语言替换某些模块
2014-11-16 21:37:04 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@phoenixlzx 给你单独讲一个?
2014-11-14 21:09:55 +08:00
回复了 virusdefender 创建的主题 Python 两个非常隐蔽的 bug 导致的 Python xss filter 绕过
@virusdefender 哦,我明白你的目的了。

创建模式要比删除模式好。创建一个新对象,提取需要的信息,把信息赋值给新对象。
2014-11-14 20:49:30 +08:00
回复了 virusdefender 创建的主题 Python 两个非常隐蔽的 bug 导致的 Python xss filter 绕过
这样防xss思路就是错的
2014-11-14 20:29:52 +08:00
回复了 yanwen 创建的主题 问与答 为什么有时候 git clone 下来的东西不全??
本来就没有啊
2014-11-14 19:09:26 +08:00
回复了 yakczh 创建的主题 问与答 采集一个电影网站的数据,该收多少钱?
采集数据不处理,页面上是什么就是什么。
数据处理,一个属性视复杂程度,300起
2014-11-14 19:07:41 +08:00
回复了 yakczh 创建的主题 问与答 采集一个电影网站的数据,该收多少钱?
一个页面模板100
+30一个属性
+0.01每个页面
2014-11-14 18:39:21 +08:00
回复了 tts 创建的主题 程序员 请教 Hash 选取问题
@tts http://zh.wikipedia.org/wiki/%E5%93%88%E5%B8%8C%E8%A1%A8#.E5.A4.84.E7.90.86.E7.A2.B0.E6.92.9E
最大长度决定了你能不能找到单射函数,而不是平均长度
2014-11-14 17:44:52 +08:00
回复了 RangerWolf 创建的主题 问与答 js 有办法获取跨域抛出的异常吗?
不能
1 ... 240  241  242  243  244  245  246  247  248  249 ... 338  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1009 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 21:29 · PVG 05:29 · LAX 13:29 · JFK 16:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.