最近正在学爬虫，主要用来抓取门户网站的评论，选用 Python 语言。有没有大神给点好的资料，或者一个好的指导方向。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 4131 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬虫

抓取

Python

16 条回复 • 2014-10-05 18:24:36 +08:00

mrytsr

2014 年 10 月 4 日 via Android

Scrapy

mhycy

2014 年 10 月 4 日

手写....
Requests + re + threading + logging
各种爽~

PS.其实是觉得框架太不灵活了

paulw54jrn

2014 年 10 月 4 日

不是很复杂就是楼上说的
requests + re + threading/greenlets

或者是楼上上说的
Scrapy..

ShiehShieh

2014 年 10 月 4 日

有没有什么好点的材料能学习嘛？ 0.0

binux

2014 年 10 月 4 日

https://github.com/binux/pyspider
你值得拥有

no13bus

2014 年 10 月 4 日

@binux 感觉torado经常用来监控，celery的监控flower就是用他来做的。

XadillaX

2014 年 10 月 4 日

-。 - 为什么没多少人学 node 做爬虫呢？

chemzqm

2014 年 10 月 4 日

node异步回调太恶心，占用内存太高，低配机器跑不了几个进程

R4rvZ6agNVWr56V0

2014 年 10 月 4 日

曾经用twisted自己写过一个，后来才知道有scrapy这个爬虫框架，推荐scrapy

Codist

2014 年 10 月 4 日

scrapy简单又方便，selector用起来也很舒服，不用写正则了

kenis

2014 年 10 月 5 日

推荐用Scrapy，比较成熟的爬虫框架，资源也不少。

cha1

2014 年 10 月 5 日

http://jecvay.com/category/smtech/python3-webbug/

https://github.com/Yixiaohan/codeparkshare#%E5%85%AB%E7%88%AC%E8%99%AB%E4%BB%A5%E5%8F%8A%E6%A8%A1%E6%8B%9F%E7%99%BB%E9%99%86%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A

框架什么的参考上面各位大大的.

briefcopy

2014 年 10 月 5 日

WebCollector:
http://www.brieftools.info/document/webcollector/

imn1

2014 年 10 月 5 日

我抓取的量很大，所以分离过程用wget抓取，py做parse，95%用正则，少量用 lxml+xpath
无论用什么，通读http协议+抓包工具是跑不掉的

ericls

2014 年 10 月 5 日 via Android

requests pyquery

helloworld00

2014 年 10 月 5 日

快速构建实时抓取集群

http://blog.nosqlfan.com/html/2604.html