V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  chendajun  ›  全部回复第 11 页 / 共 12 页
回复总数  227
1 ... 3  4  5  6  7  8  9  10  11  12  
2016-10-21 09:17:11 +08:00
回复了 init 创建的主题 Python Windows 下 pip 安装 scrapy 出现问题
最经常出错的地方: lxml , cffi , pywin32 , vc++forpython2.7 ,这几个库安装好了基本就差不多成功了,其中 lxml 和 cffi 又是每次必须报错的地方。 lxml 可以安装 wheel 文件,可以爬过这个大坑。
2016-10-20 19:17:13 +08:00
回复了 coderjoy 创建的主题 Python 请问今日头条数据如何采集?
firebug
2016-10-20 19:16:43 +08:00
回复了 coderjoy 创建的主题 Python 请问今日头条数据如何采集?
要学会用 firebu 等工具
@orderc 我想去日本玩,冬天的北京没什么好玩的,春节那会的北京就是一座空城,连吃饭的地方都没有。
@halmstad 同感,回去就是谁家买了多少万的车,生了几个孩子,挣了多少钱。
@backto17 个人也感觉通过分析 js 拿到 URL 比较好,用模拟浏览器的方法效率不高,太粗暴,不够优雅。
@jzp113 r 值是 17 位,估计有一定的规则生成。
@wang9571 V 站里没有头条员工吧?
@jzp113 非常感谢!!!
2016-07-04 17:26:57 +08:00
回复了 strahe 创建的主题 Python 请教一个爬虫问题
@strahe requests 拿到源码,再通过 json 或正则提取需要的元素即可
@Crossin @lonelinsky 谢谢两位大牛的帮助,已经可以了。祝好!!!
@Crossin 对,我也试了 bytedes_key 转成 bytes 后长度是 29 ,谢谢大兄弟!
2016-06-24 14:31:15 +08:00
回复了 hippoboy 创建的主题 Python 有个爬虫的疑问
把抓过的 URL md5 一下,写到 redis , mongo 等。每来一个 URL 就与库里比较一下
2016-06-19 13:26:30 +08:00
回复了 chendajun 创建的主题 Python Python3.x urllib 或 requests 可以 post 中文吗?
@RTNelo json 是按照服务器端规定的格式拼接的,之前用 Python2.x 的时候直 post 中文。
定向爬虫的话还是用开源爬虫吧。在用 Scrapy ,目前大概 400 个爬虫任务,基本稳定。
1 ... 3  4  5  6  7  8  9  10  11  12  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2389 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 15:45 · PVG 23:45 · LAX 07:45 · JFK 10:45
♥ Do have faith in what you're doing.