http://s.taobao.com/search?q=9787802134379&sort=price-desc&fs=0&fcheckbox_clk=1&tab=all&style=list
点击右键看到的源代码基本上和页面上展现的没什么关系了。
这是用到了什么技术
1
fumer OP 是为了防爬虫吗?这种页面爬虫是不是也束手无策了
|
2
Daniel65536 2014-12-31 00:30:09 +08:00 via iPad 1
你看看源代码第四十六行,全在里头,太方便爬虫了。
这只是用js来生成页面罢了 |
3
lincanbin 2014-12-31 02:04:16 +08:00 1
http://www.taobao.com/robots.txt
淘宝本来就禁爬虫的,或者说禁百度,实际上对爬虫不友好。 说用什么技术的话,大概就是前端模板渲染了。 你可以看看第46行,所有数据都存在Dict里了,这样做的好处是可以在前端用模板渲染,大大节约流量。整个页面才60KiB。 如果在后端做模板渲染,单页面尺寸会大好几倍的。 这样做爬虫可以说再方便不过了,直接提取出那一行然后decode,就可以装数据库了。 |
4
typcn 2014-12-31 07:46:47 +08:00
方便爬虫+1 找出JSON来,解码一下,结构化数据更省事了
防的是“小学生”爬虫,比如那种用易语言花钱让别人写正则匹配页面内容的。 |
5
qdwang 2014-12-31 09:06:36 +08:00 via Android
weibo也是一样 还节约了服务器生成页面内容的开销
|
6
xoxo 2014-12-31 10:23:19 +08:00
JSON
+ JS模板 |