浏览器正常浏览,爬虫出错,都有哪些可能性? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3944 天前的主题，其中的信息可能已经有所发展或是发生改变。

错误信息:
requests.exceptions.Connecti onError: ('Connection aborted.', error(104, 'Connection reset by peer'))

加了headers也不行

这个问题经常出现,浏览器正常,但爬虫不行.
1.想问问都有哪些可能性,遇到时有个线索可去google.
2.模拟浏览器是不是只加headers就行? 是不是模拟成功的话就不会出错(浏览器能正常访问)?

12 条回复 • 2015-04-08 22:33:48 +08:00

1

wdd2007

2015 年 4 月 3 日

你对比一下浏览器的请求和爬虫请求有哪些不一样的地方？

比如 useragent、比如 cookie？

2

willsplashing

2015 年 4 月 3 日

你确定python发出去的request和Chrome devtool里capture的request一模一样吗？

3

willsplashing

2015 年 4 月 3 日

还有如果你爬虫一下子发很多request有些网站可能会有rate limit

4

dedewei

OP

2015 年 4 月 3 日

@wdd2007
@willsplashing 没有cookie,其他复制粘贴上去了

5

dedewei

OP

2015 年 4 月 3 日

@willsplashing 爬了二十个页面就断了,然后时而行时而不行

6

ETiV

2015 年 4 月 3 日 via iPhone

firebug抓一次浏览器的请求，再用curl模拟提交（firebug有复制curl请求的功能），再一点点精简curl的参数

7

cxl008

2015 年 4 月 3 日

@dedewei 中间断掉的话考虑被对方服务器bang了增加爬取时间间隔或是用分布式部署

8

withrock

2015 年 4 月 3 日

可能和cookie有关，如果不需要登录就可以抓取的话，建议关闭cooke
ps:我也写了个爬虫玩玩，互相学习。
http://git.oschina.net/mktime/scrapy-douban-group

9

libo26

2015 年 4 月 3 日

header与浏览器一致的话多半是频率限制了吧，增加时间间隔/换IP

10

kkx

2015 年 4 月 4 日

用selenium 包治

11

ioven

2015 年 4 月 4 日

burpsuite抓包，对比和浏览器的区别

12

ming2281

2015 年 4 月 8 日

了解一下HTTP协议,然后这些大都知道怎么避免了

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 1203 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 17:41 · PVG 01:41 · LAX 09:41 · JFK 12:41
♥ Do have faith in what you're doing.