V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wisefree  ›  全部回复第 10 页 / 共 15 页
回复总数  299
1 ... 2  3  4  5  6  7  8  9  10  11 ... 15  
2017-04-03 10:31:58 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效
2017-04-03 07:53:40 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
代理池构建的思路是:
1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行

2. 检查是否为高匿代理,为了加快检查速度,采取多进程

3. 加上高匿代理,进行爬虫

所以,正则是基础,多进程也很重要(多线程也行)

大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:)

我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:)

(当然主要是因为,我要写毕业论文....还有....找工作...)
2017-04-03 07:46:45 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@UnisandK 这个很难做到,文章不能大跃进啊(摊手
2017-04-02 22:44:16 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@dsg001
@demonchang
嗯,这个等我慢慢跳坑
欢迎投稿
2017-04-02 17:39:13 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@jimmy66 好的,我会根据反馈情况不断修正文章的更新进度
2017-04-02 17:38:37 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@zjhui 等我写完正则。。。或者可以投稿把正则这个坎绕过去
2017-04-02 17:38:31 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@Merlini 嗯,等我写完正则。。。或者可以投稿把正则这个坎绕过去
2017-04-02 15:28:58 +08:00
回复了 wisefree 创建的主题 Python 第二篇爬虫文章来了,只不过是前传
@WildCat 正则写完就写代理池。当然还要看正则这篇文章的反馈情况,:)
2017-04-02 15:06:33 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@AkiseAru 差不多的,有 Python 基础就可以看,刚刚发布了第二篇, https://www.v2ex.com/t/352150
2017-04-02 15:06:01 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@onelove 哈哈,赶紧写了第二篇, https://www.v2ex.com/t/352150
2017-04-02 08:16:23 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@wellhome 好问题!
爬取网页多的情况下,并不知道会出现什么样的异常,除非对网站十分熟悉。那么换一种思路,按绝大多数的正常网页来编写爬虫程序,其余的用 try except 处理。

最后对极少数的异常网页,做特殊处理。

这是我的思路,欢迎交流

(如果楼主愿意写些爬虫文章,欢迎投稿哈)
2017-04-01 23:26:52 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@mingyun 果然也是老司机。确实是用 wordcloud 做的
2017-04-01 22:48:02 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@wellhome 不用客气的,欢迎交流

保证程序连续运行,是什么情况?能描述一个具体的实例么?

我使用的是多进程
2017-04-01 20:06:57 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@kingcos 谢谢,真的欢迎投稿,感觉自己挖了个大坑
2017-04-01 20:06:12 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@fffflyfish 有文章讲讲这方面的知识吗?
同时欢迎 V 友投稿
2017-04-01 19:40:35 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
刚看到一个 V 友也在写爬虫文章,选择的平台也是简书。(在 Python 这个节点靠前的位置)

他是从零入门的,而我这个不是从零入门的,基础知不会讲到。想想还,真是有缘,哈哈
2017-04-01 19:34:28 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@kancloud 好的,我会关注这个平台的,:)
2017-04-01 18:00:34 +08:00
回复了 wisefree 创建的主题 Android fiddler 如何抓取安卓手机的流量包
@Akkuman 谢谢推荐!
2017-04-01 16:17:22 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@cheese 好的,已经 ok 了。多交流哈,欢迎投稿,哈哈
2017-04-01 16:08:29 +08:00
回复了 wisefree 创建的主题 Python 开始在简书上写 Python 爬虫系列文章
@cheese 已经更正,文章第一行有更新信息,加了你的 V2EX 主页链接,如果可能对你造成影响,请告诉我,我立即清除
1 ... 2  3  4  5  6  7  8  9  10  11 ... 15  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2728 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 10:27 · PVG 18:27 · LAX 03:27 · JFK 06:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.