1
messense 2015-04-16 15:48:11 +08:00
Try scrapy http://scrapy.org
|
2
messense 2015-04-16 15:49:44 +08:00
|
3
Daniel65536 2015-04-16 15:50:45 +08:00 via iPad
思路偏了。
直接读取这个网页就行了: http://www.zhihu.com/topic/19776749/top-answers 1.知乎-话题-精华 会按照投票数量排序某话题/子话题下的最高票答案 2.知乎-根话题 是所有话题的母话题 所以直接检查根话题精华就能得到票数最高的答案了。 |
4
ioven 2015-04-16 15:50:57 +08:00
把知乎用户名入库,直到抓取抓取不到新的用户名为止。
|
5
binux 2015-04-16 15:51:13 +08:00
Try pyspider http://demo.pyspider.org/
|
6
Daniel65536 2015-04-16 15:59:04 +08:00 via iPad 1
经验:写爬虫前一定要多花时间分析目标网站,分析用多一分钟顶你爬多一天。
你这个具体问题上爬虫爬一个月还不如我直接读取网页花一秒。 经验2:多花时间分析流量有效性比。 为什么要去读取html?如果有RESTful api读json的效率是不是高更多? 充满层级/样式/脚本的html中有价值的数据的比例占总数据量的多少?有没有20%? json有效数据比例可以高达70%,同样网速爬取速度就能快3-5倍,还不用考虑html的解析问题。 #一点爬数据的人生经验 |
7
Registering OP @Daniel65536 好吧,,,感觉这个爬虫已经没有或者的意义了,,,,我这就把它生吞了,,,
|
9
messense 2015-04-16 16:22:40 +08:00
|
10
frankzeng 2015-04-16 16:33:50 +08:00
木有任何意义,因为知乎已经提供了。
可以换个项目,爬一下豆瓣的评分最高的前1000个电影,包括他们的详细信息,放到自己数据库,再做个页面优雅展示出来。 |
11
Registering OP @frankzeng
恩恩,好久没上知乎了,刚才才知道现在知乎的根话题下有列出票数排名,,, |
12
kingname 2015-04-16 17:00:49 +08:00 2
xpath大法好,Beautiful Soup是垃圾。
|
13
em70 2015-04-16 17:32:46 +08:00 via Android
你自己去做出来看看啊,还没做先问行不行,你这是学习吗
|
14
whatisnew 2015-04-16 17:38:41 +08:00
有没有什么办法让 python 每一次都不要动态编译。。。像 c/cpp 或者 java 那样编译好再运行。
动态编译真是硬伤 |
15
withrock 2015-04-16 18:03:31 +08:00
|
17
MeiganFang 2015-04-17 21:50:59 +08:00
@jarlyyn lz应该还是入门级的
|
18
twc731 2015-12-04 15:44:24 +08:00
@binux 您好, http://demo.pyspider.org/网站的在线 JSON 怎么打不开了,打开来是空白的
|