1
yrj 2018-06-19 11:36:07 +08:00 via iPad
pyspider 国人作品 文档友好。
|
2
congeec 2018-06-19 11:38:26 +08:00 1
单线程不是 scrapy 慢的原因
|
3
PythonAnswer 2018-06-19 11:38:58 +08:00 via iPhone 1
twisted 是异步 io 可以很快爬取
scrapy 做为 py 爬虫框架老大 并非浪得虚名 |
4
msg7086 2018-06-19 12:17:52 +08:00 1
单线程很好啊,运行效率比那些天天线程切换的方案好多了。
|
5
thread2 2018-06-19 12:28:04 +08:00 via Android 1
可考虑,先批量生产任务放到队列里,然后开很多节点消费任务,效率奇高
|
6
chengxiao 2018-06-19 13:55:27 +08:00 1
感觉瓶颈是网速吧
|
7
chroming 2018-06-19 14:00:17 +08:00 1
一般情况 scrapy 异步比多线程快,你爬的慢可能是你程序写的有问题
|
8
soho176 2018-06-19 14:01:29 +08:00 2
爬的再快 有啥用那,太快 网站直接封了你了,别光想着快,要持久。
|
9
tozp 2018-06-19 18:23:01 +08:00 1
java--webmagic
python--scrapy go--go_spider 也就那么回事 |
10
encro 2018-06-19 19:30:54 +08:00
scrapy 能够设置并发数的。你用的是假 google 吧
|
11
encro 2018-06-19 19:32:20 +08:00 1
在 google 前请先看文档
|
12
inflationaaron 2018-06-20 03:19:46 +08:00 2
Node.js 也是单线程,怎么能做到那么多并发?多线程只是实现高并发的一种手段。
|
13
biaodianfu 2018-06-20 09:08:16 +08:00 via iPhone 1
你可能还不知道 python ( cpython )只支持单线程
|
14
dishonest 2018-06-20 09:41:19 +08:00 1
@biaodianfu 不是这样的吧 多线程支持的 只是有 GIL
|
15
encro 2018-06-20 13:06:09 +08:00 1
给你一个传送门,以前我写的关于爬虫方面的资料。
爬虫框架比较: https://c4ys.com/archives/450 如何用 python 实现一个高自由度爬虫: https://c4ys.com/archives/718 |
16
Leigg 2018-06-20 16:56:06 +08:00 via iPhone
scrapy 不设置延时足够爬到网站不能自理,在你会不会用。
|