求推荐爬虫框架 Python /Nodejs/Golang 皆可写了个 Scrapy 的爬虫然后发现是单线程的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2772 天前的主题，其中的信息可能已经有所发展或是发生改变。

查了一会 Google 说 Scrapy 基于 Twisted 所以是单线程的，写的 Scrapy 爬虫运行了半天没爬多少网页。。

Scrapy

爬虫

单线

Nodejs

16 条回复 • 2018-06-20 16:56:06 +08:00

yrj

2018 年 6 月 19 日 via iPad

pyspider 国人作品文档友好。

congeec

2018 年 6 月 19 日

单线程不是 scrapy 慢的原因

PythonAnswer

2018 年 6 月 19 日 via iPhone

twisted 是异步 io 可以很快爬取
scrapy 做为 py 爬虫框架老大并非浪得虚名

msg7086

2018 年 6 月 19 日

单线程很好啊，运行效率比那些天天线程切换的方案好多了。

thread2

2018 年 6 月 19 日 via Android

可考虑，先批量生产任务放到队列里，然后开很多节点消费任务，效率奇高

chengxiao

2018 年 6 月 19 日

感觉瓶颈是网速吧

chroming

2018 年 6 月 19 日

一般情况 scrapy 异步比多线程快，你爬的慢可能是你程序写的有问题

soho176

2018 年 6 月 19 日

爬的再快有啥用那，太快网站直接封了你了，别光想着快，要持久。

tozp

2018 年 6 月 19 日

java--webmagic
python--scrapy
go--go_spider
也就那么回事

encro

2018 年 6 月 19 日

scrapy 能够设置并发数的。你用的是假 google 吧

encro

2018 年 6 月 19 日

在 google 前请先看文档

inflationaaron

2018 年 6 月 20 日

Node.js 也是单线程，怎么能做到那么多并发？多线程只是实现高并发的一种手段。

biaodianfu

2018 年 6 月 20 日 via iPhone

你可能还不知道 python （ cpython ）只支持单线程

dishonest

2018 年 6 月 20 日

@biaodianfu 不是这样的吧多线程支持的只是有 GIL

encro

2018 年 6 月 20 日

给你一个传送门，以前我写的关于爬虫方面的资料。
爬虫框架比较： https://c4ys.com/archives/450
如何用 python 实现一个高自由度爬虫： https://c4ys.com/archives/718

Leigg

2018 年 6 月 20 日 via iPhone

scrapy 不设置延时足够爬到网站不能自理，在你会不会用。

求推荐爬虫框架 Python /Nodejs/Golang 皆可 写了个 Scrapy 的爬虫然后发现是单线程的

求推荐爬虫框架 Python /Nodejs/Golang 皆可写了个 Scrapy 的爬虫然后发现是单线程的