1
ljcarsenal 2016 年 8 月 25 日
你在页面上 ctrl+u 看到的是什么样的内容 爬虫爬到的就是什么样的内容
|
2
eromoe 2016 年 8 月 25 日
纯 js 网站就是这样啊,我记得好像可以用 pyv8 运行 js ,但是文档很不完善,基本就是坑
|
3
liangmishi OP |
4
chairuosen 2016 年 8 月 25 日
用 vue2.0 的 server-side renderer
|
5
foomorrow 2016 年 8 月 25 日
phantomjs
|
6
eromoe 2016 年 8 月 25 日
@foomorrow
纯 python 就是 selenium +webdriver(phantomjs), 要不还要学 phantomjs (虽然也不难,不过也有些坑) |
7
isbase PRO 推荐 nightmare
|
8
iamsgg 2016 年 8 月 25 日
有的网站看来路,来路不对不返回内容。
|
9
liangmishi OP |
10
holajamc 2016 年 8 月 25 日
可以试试 httplib2 ,我觉得这玩意儿就是 Python 下的 HTTP 请求的王者, Selenium+PhantomJS 的话效率惨不忍睹,但是十分方便,多线程呗~
|
11
tumb8r 2016 年 8 月 25 日
ajax??不返回 json ?
|
12
ericls 2016 年 8 月 25 日 via iPhone
直接爬接口不是更方便 直接 parse json
|
13
pncltp 2016 年 8 月 26 日 via iPhone
爬虫请用 scrapy 今天都说第二遍了。
|
14
WildCat 2016 年 8 月 26 日
@liangmishi nightmare 完爆 phantomjs
|
16
pncltp 2016 年 8 月 26 日 via iPhone
@csy123 这个 js 没有关系啊, http 无非就 get 和 post 。如果你说的是 json ,解析他的库实在太多。
|
17
killerv 2016 年 8 月 26 日
这种调接口的更好爬吧,你要是解析页面当然是没有数据……
|
18
liangmishi OP |
19
holajamc 2016 年 8 月 26 日 via Android
不会太占内存,毕竟 Headless , 10 个线程绝对能够应付
|
20
ericls 2016 年 8 月 26 日
@liangmishi 如果没有接口那数据哪里来的
|
21
liangmishi OP |
22
ericls 2016 年 8 月 26 日
@liangmishi 你也可以翻译这段代码
|