def find_imgs(page_url):
pattern = r'<img .? src="( http://(\w+.)+\w+\/.?)"'
html = url_open(page_url).decode('UTF-8')
print(html) # 这里打印出来才知道原来还没登录
img_addrs = re.findall(pattern,html)
print(img_addrs) # 一直都没东西
return img_addrs

def save_imgs(addrs):
# 循环保存就不写了

def download():
os.mkdir('image') #新建文件夹
currentpath = os.getcwd() #获取当前工作目录
url = 'http://user.qzone.qq.com/'
img_addrs = find_imgs(url) #获取图片地址
save_imgs(img_addrs) #保存图片
if __name_ == 'main':

download();

结果发现爬虫得先登录 QQ ，网上都是爬知乎、豆瓣、 V2EX 、淘宝....居多，希望给个例子参考或者推荐一些学习资源

34 条回复 • 2015-11-06 06:37:12 +08:00

Victor215

2015-11-03 19:00:12 +08:00 via Android

qq 空间很难爬， over

bdbai

2015-11-03 19:00:45 +08:00 via iPhone

去问问 Linux 吧的 @guanrenfu

crab

2015-11-03 19:02:03 +08:00

昵称和头像： http://users.qzone.qq.com/fcg-bin/cgi_get_portrait.fcg?uins=QQ 号码

lyning

2015-11-03 19:02:12 +08:00

@Victor215 那更想去爬爬看，现在卡在登录这里，死死地

SCaffrey

2015-11-03 19:04:57 +08:00

@crab https://q1.qlogo.cn/g?b=qq&nk=号码&s=640

lyning

2015-11-03 19:09:50 +08:00

@crab 页面显示：该网站拒绝访问

ChoateYao

2015-11-03 19:11:27 +08:00

手机 QQ 空间，我只能帮你这么多了。

uuspider

2015-11-03 19:20:42 +08:00

这是个“模拟登陆”的问题，可能涉及 cookies ，代理， User Agent ，表单，甚至 RSA 。。。

一点一点分析吧。

SparkMan

2015-11-03 19:22:50 +08:00

qq 空间难度太大，建议你先爬淘宝，你几十个线程也不至于被封，也不至于把他爬挂了。小网站你多玩几次就把他玩死了

lyning

2015-11-03 19:26:38 +08:00

@SparkMan 难度大是大在哪里呢？

7z7

2015-11-03 19:28:41 +08:00

QQ 空间模拟登录算简单了， get 方式的,只有一个密码算法。返回的 cookie 就可以用于爬虫用了。

Victor215

2015-11-03 19:29:58 +08:00 via Android

难度大第一登录第二动态第三 html 不规范第四反爬虫第五 ……

lyning

2015-11-03 19:59:10 +08:00

@SparkMan 哈哈哈，原来爬虫那么厉害，小网站玩几下就死了

lyning

2015-11-03 20:01:08 +08:00

@Victor215 原来是这样，应该有办法伪装爬虫的性质吧，让浏览器认为那不是爬虫

magicfingers

2015-11-03 20:24:55 +08:00

你可以试试 import.io

w88975

2015-11-03 20:25:18 +08:00

之前有写过 QQ 的刷票器，利用的就是 QQ 空间的登录取到 cookie ，模拟登录这个过程有点繁琐，需要计算密码的加密，验证码，还有什么 skey 之类的。
搜索引擎搜一下能找到很多思路，稍微难一点的在于验证码部分。

kmahyyg

2015-11-03 23:14:38 +08:00

自动挂 wapqq 的有吗？

crytis

2015-11-04 00:03:52 +08:00 via Android

用 selenium 。哈哈

zzy8200

2015-11-04 04:52:01 +08:00 via iPhone

https://github.com/zeruniverse/QzoneLiker

zzy8200

2015-11-04 04:52:27 +08:00 via iPhone

@kmahyyg 挂 webqq ： https://github.com/zeruniverse/QQParking

Anteiku

2015-11-04 06:23:00 +08:00 via Android

几年前写过发说说的，你可以试试模拟早期诺基亚手机的 UA ，那种页面比较容易处理。

surefire

2015-11-04 08:17:52 +08:00

记得 Python 的里的模块要设置 UserAgent ，不然默认是一个 python 的什么模块名，人家网站也不是傻子，一看就知道你是爬虫，自己填个什么 Chrome 浏览器的冒充一下。另外登陆问题肯定是大头，解决了这个其他就好办了

lcy

2015-11-04 09:48:51 +08:00

http://m.qzone.com

CheungKe

2015-11-04 09:53:11 +08:00

@crytis selenium 很非 gui 解决方案吗

CheungKe

2015-11-04 09:55:13 +08:00

@Victor215 这又不是搜索引擎蜘蛛，你说的都是基础问题，必须要解决的。

CheungKe

2015-11-04 09:57:52 +08:00

@lyning 我们有在做微信，微博， qq 空间（日志，说说，相册）的数据获取。只有微博是我做的， qq 空间的话，我知道大概思路。

CheungKe

2015-11-04 10:00:17 +08:00

@lcy 手机版微博，虽然登录限制少了。解析 html 是个问题，很多时候 tag 没有 class ，或者 id 。 qq 空间估计也一样。

lyning

2015-11-04 10:47:10 +08:00

@CheungKe 哇，求加好友，深入质询

lyning

2015-11-04 10:48:44 +08:00

@CheungKe 求联系方式

M1ehh

2015-11-04 10:48:54 +08:00 via Android

爬早期手机 QQ 空间网页版。

jwangkun

2015-11-04 10:50:39 +08:00

去爬新浪微博吧， QQ 空间是个封闭的空间你大部分东西都是分权限才能看，就算你模拟登录还是一样拿不到关键的数据

CheungKe

2015-11-04 11:51:05 +08:00

@jwangkun 微博也是有权限的

lyning

2015-11-04 15:35:40 +08:00

@lcy 这个 QQ 网页版链接太少了，基本上就是一个纯静态页面

haofly

2015-11-06 06:37:12 +08:00

使用 curl ： http://haofly.net/python3-get-qqalbum/

想利用爬虫（ python 3）登录 Q Q 空间爬些东西，有没有好的方法模拟浏览器登录 QQ 空间

!/usr/bin/dev python3

-- coding:utf-8 --

download();