V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  samray  ›  全部回复第 7 页 / 共 8 页
回复总数  146
1  2  3  4  5  6  7  8  
2017-06-22 10:24:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@jccg90 @xiaomeimei 淘宝天猫真的欺负不动.是被欺负 :(
2017-06-22 10:08:51 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fiht 就 scrapy-redis 而言,因为用 redis 取代了 scrapy 自带的 collection.deque,就可以把需要爬取的队列从保存到内存中变成了保存到内存数据库中,但是这个时候,原来配置 collection.deque 使用的调度器就没办法使用了,也没办法进行分布式调度,于是 scrapy-redis 重写了 scrapy 的调度器.
2017-06-22 09:58:51 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 我知道,所以我之前提到的文本的代理 IP 会用尽就是我在爬虫过程中实际遇到的问题.可能我表达不够清晰,让你误解了.抱歉.其实我觉得爬虫的反反爬虫策略是一个问题.还有需要重点关注的是去重.之前我写的单机爬虫我都是用布隆过滤器来实现去重.只是这个项目是分布式的,用到 redis.就直接在 redis 去重.但是感觉效率没有布隆过滤器高.尤其是我这种直接从<a>标签中爬取 URL 的策略.去重就尤其重要.
2017-06-22 09:53:34 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@ajan 只是爬取商品信息和商品评论,并未涉及到交易记录.
2017-06-22 09:52:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@cxh116 爬取难度 淘宝>天猫>京东.淘宝的反爬实在太强.即使用上我提到的所有反反爬虫策略.半个小时内就会爬不动,即使爬取频率不高.
2017-06-22 07:05:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@supman 不太懂你表达的意思?
2017-06-22 07:00:53 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 我是用这个中间件来管理代理 IP 的  https://github.com/aivarsk/scrapy-proxies,随机选择代理 IP,不可用就把代理 IP 丢了. 只是还是会出现运行到一段时间之后,代理 IP 全部被丢完的情况
2017-06-22 06:56:38 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@Thoxvi README 上面已经修改,但是 V2EX 就没办法修改 :(
2017-06-21 23:22:55 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
其实最大的问题是,知道这一刻的代理可用,但是却完全没办法保证下一刻依旧可用.:(
2017-06-21 23:01:33 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 其实主要的问题是免费的代理大部分都不能用,而且即使现在能用,下一分钟也可能不能用.并且以文本形式来存储代理 IP,在运行的时候将代理 IP 全部加载进内存,但是如果你的爬虫是长时间运行,代理应该很快用完.所以比较理想的是"动态"加载代理 IP. 即可以在运行时继续加载 IP. 个人小小的看法.也很感谢你的项目啦 :)
2017-06-21 22:56:00 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
一台 32Gb 内存的工作站,跑了三个实例.
2017-06-21 22:30:13 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
突破反爬虫策略嘛,所以就叫反反爬虫策略.见笑了.
2017-06-21 22:29:13 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
此外,graphite 的配置安装是很麻烦的事情,并且是不支持 windows  (虽说我是 Linuxer), 所以用 docker 就非常方便.我自己就在别人做好的  graphite 基础上做了些许配置的修改然后生成新的 image 适配 scrapy+graphite
2017-06-21 22:25:53 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
主要是将 scrapy.spider 的 stats 保存到 Redis (单机或者是集群),然后通过将这些数据发送给 graphite 来生成监控动态图.主要参考  https://github.com/gnemoug/distribute_crawler  的做法.只是这个项目已经没有维护了,并且是 python2,所以要自己看源码做一些适配.
2017-06-21 22:21:41 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
代理 IP 用的不是一家,是用这两位的项目  https://github.com/qiyeboy/IPProxyPool   https://github.com/qiyeboy/IPProxyPool .只是个人感觉还是不够方便,还需要自己安装和配置环境,所以我就把这两个项目做成 docker image. 然后映射  IP 出来,通过  api 获取代理 IP. 只是 image 还有点问题,所以还没有分享出来.
2017-06-21 22:18:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
欢迎大家不吝指教.
2017-06-07 18:55:30 +08:00
回复了 skywalkboy 创建的主题 问与答 Java 如何生成 18 位的唯一 id
2017-05-29 13:01:04 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@msg7086 因为这个习惯是几年前养成的,习惯给 Linux 引导分一个额外的分区了.
2017-05-28 19:59:22 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
使用了 lvm 来安装 arch linux, 正如 #8 提到的那样,应该让程序做决定的还是让程序做决定吧
2017-05-28 19:57:56 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@DaraW 三星 850 evo
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2659 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 14:58 · PVG 22:58 · LAX 06:58 · JFK 09:58
♥ Do have faith in what you're doing.