爬虫养成记——先跨进这个精彩的世界（女生定制篇）

import requests
url = "https://www.nanrentu.cc/sgtp/"
response = requests.get(url)
if response.status_code == 200:
    with open("result.html",'a',encoding="utf-8") as f:
        f.write(response.text)

在浏览器打开写入的 HTML 文件是这样的

这怎么和在浏览器中看到的不一样呢？

这个时候我就要亮出一件绝世宝贝————Chrome 调试台（按 F12 ）来给您分析一波了。

其实我们在浏览器中看到的页面并不仅仅是 HTML 页面，而是 css 、js 、html 以及各种媒体资源综合在一起并有浏览器最终渲染而出页面，红框的部分，标出了在这个过程中所加载的各个资源。

当我们用程序去请求服务器时，得到仅仅是 HTML 页面，所以程序和我们所看到的页面就大相径庭了。不过没关系 HTML 是主干，抓住了主干其他的只需要顺藤摸瓜就可以了。

step2：找到目标资源

打开这个网址以后，各位小仙女就可以各取所需咯，想体验萧亚轩的快乐嘛？那目标就是小鲜肉；馋彭于晏的那样的身子了？那肌肉帅哥就是你的菜。此外韩国欧巴，欧美型男也是应有尽有。

人类是高级生物，眼睛会自动聚焦的目标身上，但是爬虫是“一根筋”啊，它可不会自动聚焦，我们还得帮它指引道路。

写过前端页面的朋友都知道 CSS 样式用过各种选择器来绑定到对应的节点上，那么我们也可以通过 CSS 的选择器来选中我们想要的元素，从而提取信息。Chrome 中已经准备了 CSS 选择器神器，可以生成我们想要元素的选择器。

具体过程如下：第三步为好好欣赏小哥哥们~

step3：解析页面

这个时候要介绍页面解析神器pyquery，这个工具库可以通过我们所复制的 CSS 选择器，在 HTML 页面中查找对应元素，并且能很便捷地提取各种属性。那么接下来我们就把这个小哥哥解析出来吧。

我们首先安装 PyQuery 这个包，具体可以使用 pip 包管理器安装，然后将代码修改成如下这样：

import requests
from pyquery import PyQuery as pq
url = "https://www.nanrentu.cc/sgtp/"
response = requests.get(url)
if response.status_code == 200:
    with open("result.html",'w',encoding="utf-8") as f:
        f.write(response.text)
    # 开始解析
    doc = pq(response.text)
    # 把复制的选择器粘贴进去
    # 选择对应的节点
    imgElement = doc('body > div:nth-child(5) > div > div > div:nth-child(2) > ul > li:nth-child(3) > a > img')
    # 提取属性，获取图片链接
    imgSrc = imgElement.attr('src')
    # 将图片链接输出在屏幕上
    print(imgSrc)

step4：存储目标

这么好看的小哥哥怎么能只让他在互联网上呆着呢？把他放进硬盘里的学习资料文件夹里才是最安全的。接下来，我们就把小哥哥放到碗里来。

下载图片的过程其实和抓取 HTML 页面的流程是一样的，也是利用 requests 发送请求从而获取到数据流再保存到本地。

import requests
from pyquery import PyQuery as pq
url = "https://www.nanrentu.cc/sgtp/"
response = requests.get(url)
if response.status_code == 200:
    with open("result.html",'w',encoding="utf-8") as f:
        f.write(response.text)
    doc = pq(response.text)
    imgElement = doc('body > div:nth-child(5) > div > div > div:nth-child(2) > ul > li:nth-child(3) > a > img')
    imgSrc = imgElement.attr('src')
    print(imgSrc)
    # 下载图片
    imgResponse = requests.get(imgSrc)
    if imgResponse.status_code == 200:
        # 填写文件路径 以二进制的形式写入文件
        with open('学习文件 /boy.jpg', 'wb') as f:
            f.write(imgResponse.content)
            f.close()

此时先来看看效果

四步虫

至此仅仅十多行代码就完成了一个小爬虫，是不是很简单。其实爬虫的基本思路就这四步，所谓复杂的爬虫就是在这个四步的基础上不断演化而来的。爬虫最终的目的是为了获取各种资源（文本或图片），所有的操作都是以资源为核心的。

打开资源
定位资源
解析资源
下载资源

更多的小哥哥

通过上述步骤我们只能获取到一个小哥哥，集美们就说了，我直接右击鼠标下载也可以啊，干嘛费劲写爬虫呢？那接下来，我们就升级一波选择器，把小哥哥们装进数组，统统搞到碗里来。

重构代码

为了以后写代码更方便，要先进行一个简单的重构，让代码调理清晰。

增加入口函数
封装对于图片的操作

重构后的代码如下：

import requests
from pyquery import PyQuery as pq

def saveImage(imgUrl,name):
    imgResponse = requests.get(imgUrl)
    fileName = "学习文件 /%s.jpg" % name
    if imgResponse.status_code == 200:
        with open(fileName, 'wb') as f:
            f.write(imgResponse.content)
            f.close()

def main():
    baseUrl = "https://www.nanrentu.cc/sgtp/"
    response = requests.get(baseUrl)
    if response.status_code == 200:
        with open("result.html",'w',encoding="utf-8") as f:
            f.write(response.text)
        doc = pq(response.text)
        imgElement = doc('body > div:nth-child(5) > div > div > div:nth-child(2) > ul > li:nth-child(3) > a > img')
        imgSrc = imgElement.attr('src')
        print(imgSrc)
        saveImage(imgSrc,'boy')
        
if __name__ == "__main__":
    main()

升级选择器

有过前端编程经验的同学们可以看出来，Chrome 自动生成的选择器指定了具体的某个子元素，所以就只选中了一个小哥哥，那么接下来我们要分析出通用的选择器，把臭弟弟们一锅端。

多拿着鼠标点点这个调试台，一层层地看这个 HTML 文件的元素层级，找到其中相同重复的地方，这就是我们的突破口所在。

我们可以看出图片都在一个类名为 h-piclist 的 <ul> 标签中，那么我们可写出以下的选择器 .h-piclist > li > a > img。这样就选中了这一页所有的图片元素。接着用一个 for 循环遍历就可以了。

import requests
from pyquery import PyQuery as pq

# 引入 UUID 为图片命名
import uuid

def saveImage(imgUrl,name):
    imgResponse = requests.get(imgUrl)
    fileName = "学习文件 /%s.jpg" % name
    if imgResponse.status_code == 200:
        with open(fileName, 'wb') as f:
            f.write(imgResponse.content)
            f.close()

def main():
    baseUrl = "https://www.nanrentu.cc/sgtp/"
    response = requests.get(baseUrl)
    if response.status_code == 200:
        with open("result.html",'w',encoding="utf-8") as f:
            f.write(response.text)
        doc = pq(response.text)
        # 选则这一页中所有的目标图片元素
        imgElements = doc('.h-piclist > li > a > img').items()
        # 遍历这些图片元素
        for i in imgElements:
            imgSrc = i.attr('src')
            print(imgSrc)
            saveImage(imgSrc,uuid.uuid1().hex)

if __name__ == "__main__":
    main()

无法下载的图片

可以看出图片的连接已经全部拿到了，但是当去下载图片时却发生了一些意外，请求图片竟然没有反应。这是哪里出了问题呢？图片连接全部拿到，证明代码没毛病，把图片链接放到浏览器里正常打开，证明连接没毛病，那现在可能就是网络有毛病了。

网速慢
网络波动
对方网站有防爬措施
……

这时候因素很多，我们首先用最简单的方法来解决问题，断线重连。把笔记本 WIFI 重启，重新加入网络，再运行程序。

惊喜来了，臭弟弟们成功入库。

当然啦，这种方式并不是银弹，我们需要有更多的技巧来提升爬虫程序的“演技”，我们的爬虫程序表现的越像个人，那我们获取资源的成功率就会越高。

看到这里，应该跨进爬虫世界的大门了，如果这个世界有主题曲的话那么一定是薛之谦的《演员》接下来的教程中会一遍磨砺“演技”，一遍获取更多的小哥哥。

想要学习更多精彩的实战技术教程？来图雀社区逛逛吧。

也欢迎关注我们的公众号：图雀社区，鼓励我们写出更好的教程！

23 条回复 • 2020-05-09 16:27:37 +08:00

815979670

2020 年 4 月 26 日

每天一个入狱小技巧（滑稽）

chwhsen

2020 年 4 月 26 日 via Android

怎么一提到爬虫就是爬图呢，给人的第一印象就很怪

rookielq

2020 年 4 月 26 日

这个教程写的就很 nice

fhsan

2020 年 4 月 26 日

搞得我找工作看到爬虫就害怕入狱

Mithril

2020 年 4 月 26 日

Python 和爬虫已经被各种教程和培训班玩烂了。。。

2020 年 4 月 26 日

先跨进这个精彩的世界，再跨进当地的看守所。

JB18CM

2020 年 4 月 26 日

学爬虫之前应该先学习中国法律, 和参考爬虫被抓案例 , 尽量避免入狱

Cmdhelp

2020 年 4 月 26 日

加上线程池分布式队列

stevenkang

2020 年 4 月 26 日

狱友养成记——先获得一份犯罪证明再进入编程行业

enaxm

2020 年 4 月 26 日

python 推荐当成 office 来用。。。爬虫还是算了吧。。。

siebenundvierzig

2020 年 4 月 26 日

太麻烦了，像我女朋友直接找了我就完事了

Huelse

2020 年 4 月 26 日

狱友信物

adekyou06

2020 年 4 月 26 日

太好了！又可以多加几个女狱友了！

renmu

2020 年 4 月 26 日 via Android

直接让男朋友学就好了（笑

stop9125

2020 年 4 月 26 日

好了，学会了，女朋友在哪领

zuosiruan

2020 年 4 月 26 日

图挂了？

izzy27

2020 年 4 月 26 日

只要是用心写的教程我都支持已经 star 了

labulaka521

2020 年 4 月 26 日 via Android

从定制到入狱

jasamboro

2020 年 4 月 26 日

大佬，图挂了，为啥不选个主流一些的图床呢

crella

2020 年 4 月 26 日 via Android

https://www.v2ex.com/t/603129

https://v2ex.com/t/665304#;

这两篇文章主要讲 chrome debugging port，带上 selenium 。

讲真的，任何一门排行榜前 10 的语言都有简易爬虫的方法，但是也就只有 python 的简易爬虫教程天天搬出来了。

Ruby 技术链：HTTParty 或 OpenURI 、Nokogiri 、JSON 或 YAML 、SQLite 或 MySQL2 （等数据库）、ERB(用于将爬虫数据转化为 html)

learningman

2020 年 4 月 26 日

@crella 因为 python 上手比较快，骗小白方便

Meltdown

2020 年 4 月 26 日 via Android

有没有女神定制篇

getu

2020 年 5 月 9 日

imgElement = doc('body > div:nth-child(5) > div > div > div:nth-child(2) > ul > li:nth-child(3) > a > img')

这个 css 选择器是怎么出来的？

爬虫养成记——先跨进这个精彩的世界（女生定制篇）

发刊词

预备知识

这是最简单的计算机程序

开发爬虫的基本套路

step 1： 打开目标网址

step2：找到目标资源

step3：解析页面

step4：存储目标

四步虫

更多的小哥哥

重构代码

升级选择器

无法下载的图片

step 1：打开目标网址