请问做这样一个爬虫需要哪些知识？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3059 天前的主题，其中的信息可能已经有所发展或是发生改变。

事情是这样的，最近学校里有很多知识竞赛，在网络上答题，想想是很简单麻(￣∀￣) 大家可能都发现了，搜出来的问题有很多一模一样的原题。。。但是排在百度头条的基本都是什么资料网，上学吧这样的需要付费才能看答案的网站Ծ‸Ծ(知识不是共享的麻)其余什么文库里找到的好多都没有答案。。。于是萌生了这样的想法，买个一个月的会员，把这样网站上的题和答案爬下来。

目前会的东西: python requests,xpath

就是说我希望能够提高爬虫的性能，各位 v 友能不能知道一下进阶方法，推荐一些合适额爬虫 demo 或者推荐框架。还有就是关于数据储存，有没有第三方网站适合来存储这样的数据呢？感谢各位(>ω<)

17 条回复 • 2017-09-20 07:54:21 +08:00

1

zgbgx1

2017 年 9 月 18 日

你要速度和高性能可以用 nosql 和 mq。
但是爬虫最重要的你要面对反爬虫，单个账号对于大多数网站来说，就算你使用代理，也会被封掉。

2

a87150

2017 年 9 月 18 日

性能简单，multithreading 就行了，难的是反反爬虫。

3

gogobody

OP

2017 年 9 月 18 日 via Android

@zgbgx1 斯国一，那假如先抛开这个问题。请问有没有能免费存取这样的键值对的数据的地方啊。感觉如果爬的话，我的阿里云学生机撑不住

4

gogobody

OP

2017 年 9 月 18 日 via Android

@a87150 反爬虫有好的 ip 代理推荐吗😊

5

ys0290

2017 年 9 月 18 日 via iPhone

最近在爬美亚的数据，时间间隔都快接近人工访问了，结果爬了 2000 多页被亚马逊反机器人了

6

gogobody

OP

2017 年 9 月 19 日 via Android

@ys0290 老哥稳啊，给点经验麻或者好的项目 demo 或者文章推荐

7

changwei

2017 年 9 月 19 日 via Android

@gogobody 不至于空间不足的，现在哪个云主机会没有 20g 的数据盘。云硬盘其实挺便宜的(ー_ー)!!还有增加性能你就去学一学 queue 和 threading 库，把爬虫写成多线程的。

8

xiaozizayang

2017 年 9 月 19 日 via Android

以写代码来看这几个库足够了 github 爬虫框架一大把分布式的异步的各种方便但这并不代表你可以完成了这个项目你需要了解目标网站的模拟登录以及爬虫限制

9

zgbgx1

2017 年 9 月 19 日

1

@gogobody https://github.com/luyishisi/Anti-Anti-Spider 这个项目里有专门的免费代理

10

zjlin1984

2017 年 9 月 19 日

有意思，支持。

11

qq270755744

2017 年 9 月 19 日 via Android

百度文库怎么免费下载付费资源

12

yuluofanchen

2017 年 9 月 19 日

@qq270755744 有个百度文库远程代下系统！

13

gogobody

OP

2017 年 9 月 19 日 via Android

@changwei 好的，我来尝试一哈

14

gogobody

OP

2017 年 9 月 19 日 via Android

@xiaozizayang 好的，感谢。我先尝试下。遇到问题再来

15

qq270755744

2017 年 9 月 19 日 via Android

@yuluofanchen 没授权码 T_T

16

Soar360

2017 年 9 月 20 日 via iPhone

搭车时间又到了代理 IP 站 https://proxy.coderbusy.com

17

gogobody

OP

2017 年 9 月 20 日 via Android

@Soar360 蟹蟹！

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 951 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 28ms · UTC 20:29 · PVG 04:29 · LAX 12:29 · JFK 15:29
♥ Do have faith in what you're doing.