天涯有一个帖子,作者在上面更新自己的某部小说。持续更新了好几年。前两天通过作者的微博得知更完了,但是由于更贴时间太长,这个帖子的灌水回复太多,现在已经有2500多页(注意不是2500楼,是2500页)。
现在希望把作者的内容通过爬虫爬下来,保存为TXT。以前y用Python写过一个爬天涯的爬虫,为了防封IP用的是最笨的办法
time.sleep(1)
小贴很好办,但是这个2500楼的帖子,真心等不起。
求一个可以快点把帖子爬完的办法
1
WeeH9T 2015 年 5 月 29 日
http://www.tianyatool.com/ 只看楼主,再抓呗。。
|
2
tao1991123 OP @hambut 不行即使这样还是有1400多页
|
3
ob 2015 年 5 月 29 日
一页一页爬啊,还要怎么加速?一次性的?
|
4
jedyu 2015 年 5 月 29 日
代理、分页多线程/多进程
|
5
pimin 2015 年 5 月 29 日 via iPhone
1400页还要加速?
哪些资源采集的不得用超级计算机啦 |
6
ooh 2015 年 5 月 29 日
1400也闲多?
|
7
sacuba 2015 年 5 月 29 日
2500页 一天应该没问题吧
|
8
matrix67 2015 年 5 月 29 日 via Android
1400秒不到半小时啊
|
9
gxm123gxm 2015 年 5 月 29 日
lz要不直接贴代码?
|
10
fnd 2015 年 5 月 29 日
1400页真不多。
|
11
ericls 2015 年 5 月 29 日
呃 异步爬虫 两分钟啊
|
13
tao1991123 OP @ericls 求详细实现思路
|
14
lch21 2015 年 5 月 29 日
搞一堆代理ip爬
|
15
touch 2015 年 5 月 29 日 1400页还要加速,1400页也就分分钟的事吧
|
16
wesley 2015 年 5 月 29 日
去爬wap版要容易很多
|
17
shoumu 2015 年 5 月 29 日
楼主是哪个帖子,让大家都来爬爬,看谁能够用时最短爬完。
|
18
est 2015 年 5 月 29 日
2500楼,time.sleep(1) ,也就一个小时就抓完了啊。
|
19
Mutoo 2015 年 5 月 29 日
等这帖子回复的时间,早爬完了。
|
20
tao1991123 OP @Mutoo 追求更快更好,反正有个这需求,真好借这个机会学习提高一下 有何不好?
|
21
mV2GK 2015 年 5 月 29 日
用scrapy爬会好点吧。。。
|
22
anexplore 2015 年 5 月 29 日
到这上面挑几个速度较快的高匿名代理,多开几个进程,http://www.proxy.com.ru/
|
23
mahone3297 2015 年 5 月 29 日
爬的太快,不怕被ban?
单机,必须要慢慢爬啊。。。 |
24
abelyao 2015 年 5 月 29 日
@tao1991123
这帖子没几个人是站在楼主这种学习的角度去思考的,而是觉得 1400+ 秒能爬完就完了,万一下次遇到一篇 14000+ 秒的呢? 我对 python 不熟,但是爬虫的思路基本是一直的,无关语言。 首先用 sleep 来卡 1 秒是完全没必要的,这直接影响了爬虫效率。 要防止被 ban 无非就是不断换 IP 地址、user-agent 等等这些识别信息。 多线程并发是肯定要的,保证了你一秒钟可以多爬几个页面,那效率就翻倍提升了。 |
25
omph 2015 年 5 月 29 日
|