爬虫养成记--顺藤摸瓜回首掏（女生定制篇）

打开 Chrome 并打开调试台，切换到 NetWork 选项卡，此时访问 https://www.nanrentu.cc/sgtp/ ，这是时候会看到调试台里出现了很多链接信息，这么多链接到底哪个是我们所需要的呢？回想一下上一篇内容，首先是要获得 HTML 文档，再从此文档中提取出图片的链接，所以目标有了，就是找到浏览器获取到这个 HTML 文档的那个链接。

Chrome 知道这么多链接信息肯定会让开发者陷入茫然，所以给链接进行了归类，点击上方 Doc 分类，再点击那唯一的一条链接，就会看到获取此 HTML 文档链接的详细信息了。此时我们关注主要 Request Headers 这个里面的内容。浏览器通过 http 协议与服务器交互获取信息，爬虫是通过模仿浏览器发出 http 协议获取信息，其中最重要的一个模仿点就是 Request Headers 。

http 协议里面的“瓶瓶罐罐”

让男生看女孩子化妆用的那些瓶瓶罐罐估计会陷入沉思，这是 BB 霜，那是粉底液，还有散粉、眼影、遮瑕膏，更不用说各种色号的口红啦。那女孩子看到这 http 里面的各项内容时估计也会一脸懵逼，其这比化妆品简单多了，我们只需简单了解，就能给爬虫画出精致妆容。

:authority: www.nanrentu.cc
:method: GET   // 自定义请求头 请求方法
:path: /sgtp/  // 自定义请求头 请求路径
:scheme: https // 自定义请求头 请求方式
// 所接受的内容格式
accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
// 所接受的编码方式
accept-encoding: gzip, deflate, br
// 所接受的语言
accept-language: zh-CN,zh;q=0.9
// 缓存控制：告诉服务器客户端希望得到一个最新的资源
cache-control: max-age=0
cookie: UM_distinctid=170a5a00fa25bf-075185606c88b7-396d7407-100200-170a5a00fa3507; Hm_lvt_45e50d2aec057f43a3112beaf7f00179=1583326696,1583756661; CNZZDATA1274895726=1196969733-1583323670-%7C1583752625; Hm_lpvt_45e50d2aec057f43a3112beaf7f00179=1583756721
sec-fetch-dest: document
sec-fetch-mode: navigate
sec-fetch-site: none
sec-fetch-user: ?1
// 屏蔽 HTTPS 页面出现 HTTP 请求警报
upgrade-insecure-requests: 1
user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36

这么多的信息不用都给爬虫加上，因为这网站的防爬措施等级不高，暂时只要关键的两个就可以了。

cookie：这是存储在浏览器里面一段文本，有时包含了验证信息和一些特殊的请求信息
user-agent：用于标识此请求是由什么工具所发出的关于 User-Agent 的详细信息可以参考此篇博文谈谈 UserAgent 字符串的规律和伪造方法

但是当爬取其他网站时可能会有所需要，在这里赘述这么多原因就是希望大家能明白伪装爬虫的重要性，以及怎么获取这些伪装信息。

// 建立一个名叫 headers 的字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
    'cookie': 'UM_distinctid=170a5a00fa25bf-075185606c88b7-396d7407-100200-170a5a00fa3507; CNZZDATA1274895726=1196969733-1583323670-%7C1583925652; Hm_lvt_45e50d2aec057f43a3112beaf7f00179=1583326696,1583756661,1583926583; Hm_lpvt_45e50d2aec057f43a3112beaf7f00179=1583926583'
}
// 发送请求时带上请求头
response = requests.get(baseUrl,headers=headers)

顺藤摸瓜

一个网站是由若干个网页组合而成的，网页中充满着各种超链接，从这网页链接到那个网页，如果我们想要更多小哥哥，那就得首先分析出串联起他们那些超链接，然后就可以顺藤摸瓜咯。

超连接元素.png

当把鼠标发放到标题上时，标题的颜色发生了变化，证明这一元素为超连接，点击标题浏览器会自动打开一个 tab 标签页，来显示网页，注意到下方的页码标签，是这些元素串联起了整个图集。

点击“末页”观察 url 发生了什么变化

末页的 url： https://www.nanrentu.cc/sgtp/36805_7.html

首页的 url： https://www.nanrentu.cc/sgtp/36805.html

看起来有点意思了，末页的 url 比首页的 url 多了“_7”，接下来再点击分别进入第 2 页，第 3 页……观察 url 的变化，可得出下表。分别是页面、url 形式：

| 首页 | https://www.nanrentu.cc/sgtp/36805.html |
| 第 2 页 | https://www.nanrentu.cc/sgtp/36805_2.html |
| 第 3 页 | https://www.nanrentu.cc/sgtp/36805_3.html |
| 第 4 页 | https://www.nanrentu.cc/sgtp/36805_4.html |
| 第 5 页 | https://www.nanrentu.cc/sgtp/36805_5.html |
| 第 6 页 | https://www.nanrentu.cc/sgtp/36805_6.html |
| 第 7 页 | https://www.nanrentu.cc/sgtp/36805_7.html |

多点几个组图，也会发现同样规律。这样就明了很多了，我们已经分析清楚了这个跟“藤”的开头与结尾，接下来就可以敲出代码让爬虫开始“摸瓜”咯。

摸瓜第 1 步:提取标题链接

这个操作与上篇博文中所介绍的一样，打开调试台切换到 Elements 选项卡就能开始探索提取了。

摸瓜第 2 步：提取末页链接，得出组图页数

通过观察 HTML 元素结构，可发现包含末页的 <li> 标签为其父元素<ul>的倒数第二个子元素，所以可得出以下的 css 选择器

.page > ul > li:nth-last-child(2) > a

摸瓜第 3 步：根据首尾链接构造 url

为了构造 url 更加方便，我们可以把首页 https://www.nanrentu.cc/sgtp/36805.html 变为 https://www.nanrentu.cc/sgtp/36805_1.html, 在浏览器中打开带有后缀的这个网址，依然能够成功访问到首页，不要问我为什么？这可能就是程序员之间的一种默契吧~

摸瓜第 4 步：存储图片，摸瓜成功

完整的代码如下：

import requests
from pyquery import PyQuery as pq
import uuid

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
    'cookie': 'UM_distinctid=170a5a00fa25bf-075185606c88b7-396d7407-100200-170a5a00fa3507; CNZZDATA1274895726=1196969733-1583323670-%7C1583925652; Hm_lvt_45e50d2aec057f43a3112beaf7f00179=1583326696,1583756661,1583926583; Hm_lpvt_45e50d2aec057f43a3112beaf7f00179=1583926583'
}
def saveImage(imgUrl,name):
    imgResponse = requests.get(imgUrl)
    fileName = "学习文件 /%s.jpg" % name
    if imgResponse.status_code == 200:
        with open(fileName, 'wb') as f:
            f.write(imgResponse.content)
            f.close()

def getPic(urlArray):
    for url in urlArray:
        res = requests.get(url,headers=headers)
        if res.status_code == 200:
            doc = pq(res.text)
            imgSrc = doc('.info-pic-list > a > img').attr('src')
            print(imgSrc)
            saveImage(imgSrc,uuid.uuid1().hex)
    

def createUrl(indexUrl,allPage):
    baseUrl = indexUrl.split('.html')[0]
    urlArray = []
    for i in range(1,allPage):
        tempUrl = baseUrl+"_"+str(i)+".html"
        urlArray.append(tempUrl)
    return urlArray

def getBoys(link):
    # 摸瓜第 1 步：获取首页连接
    picIndex = link.attr('href')
    #  摸瓜第 2 步：打开首页，提取末页链接，得出组图页数
    res = requests.get(picIndex,headers=headers)
    print("当前正在抓取的 picIndex: " + picIndex)
    if res.status_code == 200:
        with open("picIndex.html",'w',encoding="utf-8") as f:
            f.write(res.text)
        doc = pq(res.text)
        lastLink = doc('.page > ul > li:nth-last-child(2) > a').attr('href')
        # 字符串分割，得出全部的页数
        if(lastLink is None):
            return
        # 以.html 为分割符进行分割，取结果数组中的第一项
        temp = lastLink.split('.html')[0]
        # 再以下划线 _ 分割，取结果数组中的第二项,再转为数值型
        allPage = int(temp.split('_')[1])
        # 摸瓜第 3 步：根据首尾链接构造 url
        urlArray = createUrl(picIndex,allPage)
        # 摸瓜第 4 步：存储图片，摸瓜成功
        getPic(urlArray)

def main():
    baseUrl = "https://www.nanrentu.cc/sgtp/"
    response = requests.get(baseUrl,headers=headers)
    if response.status_code == 200:
        with open("index.html",'w',encoding="utf-8") as f:
            f.write(response.text)
        doc = pq(response.text)
        # 得到所有图集的标题连接
        titleLinks = doc('.h-piclist > li > a').items()
        # 遍历这些连接
        for link in titleLinks:
            getBoys(link)

if __name__ == "__main__":
    main()

运行结果：

回首掏

回顾整个爬虫程序，它是连续式流水线作业，每一步之间都是环环相扣，所以在写程序前自己一定要把整个流水线的每个环节都考虑清楚，把它们之间的顺序依赖关系化成一个简易的流程图，对着流程图再写程序就会清晰很多。我们可以把每一个模块都写成一个函数，先对函数做好单元测试，再把这些函数按顺序组合起来就行啦。分而治之，有机组合这就是编程的奥义。再复杂的项目，都是由一个个模块组建起来的，这和搭积木是一样的道理。