V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  crayonyi  ›  全部回复第 3 页 / 共 5 页
回复总数  94
1  2  3  4  5  
2016-11-10 23:11:02 +08:00
回复了 GrahamCloud 创建的主题 推广 这里是造数,正在写一个智能云爬虫给大家,快来玩耍
@GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来
2016-11-10 11:31:02 +08:00
回复了 GrahamCloud 创建的主题 推广 这里是造数,正在写一个智能云爬虫给大家,快来玩耍
@GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler
2016-11-09 18:21:44 +08:00
回复了 GrahamCloud 创建的主题 推广 这里是造数,正在写一个智能云爬虫给大家,快来玩耍
对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/)
2016-10-26 10:49:18 +08:00
回复了 zcr2623680 创建的主题 推广 送 10 张苹果开发者大会门票,给过节的 V 友们开心一下!
试试
2016-10-24 10:15:34 +08:00
回复了 erobot 创建的主题 程序员 一个国外网站,怎么加速国内用户的访问?
@erobot 数据库用 2 个,至于同步方案。 我只是看过别人的一些方案,没有实际操作过。
1 读的时候读本地,写的时候写到国外服务器。( 80%用户访问不会觉得有问题)
2 读写都在本地,用一些同步方案。如 hash 取模分,阿里的异地多活方案,感觉工作量比较大。
2016-10-21 11:46:04 +08:00
回复了 erobot 创建的主题 程序员 一个国外网站,怎么加速国内用户的访问?
国内做一个镜像,用智能 dns 解析,国内的访问国内镜像,国外的访问国外源站
2016-10-20 10:42:23 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@lixuda linux 下和 windows 下都需要准备 3 个软件:
1 定时自动重新拨号软件(如拨号精灵)
2 实时获取 ip 并提交到服务端(在项目目录下有, bin/getNewIp.py
3 代理软件(如 cproxy )
2016-10-20 10:37:43 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@lixuda 1 淘宝上搜动态 vps ,有很多卖的。(便宜、方便) 2 自己找机房,拨号上网的那种,(今日头条用的是这种方式,稳定,快,可控)

我用的是这家的: https://item.taobao.com/item.htm?spm=a230r.1.14.1.RT0O2l&id=525941770043&ns=1&abbucket=11#detail
2016-10-19 10:26:49 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@lixuda 爬取的时候,如果遇到验证码,则放弃本次爬取任务,并记录重试次数,然后将任务重新放到爬取队列。 下次爬取的时候,会随机选择一个代理 ip 爬取。 如此重复,直到不出现验证码,或者达到重试次数限制。
2016-10-08 20:53:43 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
2016-09-27 11:26:25 +08:00
回复了 xcatliu 创建的主题 程序员 「Mobi.css」终于写完中文文档了
简单实用,读了一些源码,感觉很不错。
web 端手机端通用的 bootstrap 和 foundation 采用 float 形式布局,而专注移动端的 weui 和 mobi.css 都采用的是 flex 布局。 请问下 @xcatliu ,这是行业通用的做法吗?
2016-09-22 11:13:12 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@chaichaichai 传送门和新榜的文章不全。
2016-09-21 15:11:21 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@defia 我实际上是没有解决。 通过足够多的代理 ip 和失败重试机制,绕过这个限制。
2016-09-21 13:33:09 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@bramblex 国内也有一些都是公开的,每年年报里面都有详细说明。 基金会中心网 http://www.foundationcenter.org.cn/ 有一个透明指数,可以看出行业内的透明水平。
2016-09-21 13:23:12 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@GitFree 🤗
2016-09-21 13:13:40 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@likai 目前的钱都是我们自己垫的,有在接触投资结构。
2016-09-21 11:36:56 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@xinali 在 github issue 下留言告诉我 https://github.com/bowenpay/wechat-spider/issues/1 ,这两天我把要做的事情,都列出来。 合作方式也写在上面。
2016-09-21 11:21:51 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@rebelboy2 也有一些人找过我,要爬这种类型的数据、以及做数据分析和广告投放的。 但是公司的主业是做“中国 5000 万贫困人口与社会公益组织的对接”,所以就没有去做你说的“据本身就能兑换价值”的事情。
我一个人也有些忙不经过来。
不过这个爬虫是可以爬任意数据的,如果你感兴趣,可以做一些尝试。 我可以帮你搭建下基础环境。
2016-09-21 10:33:10 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@em70 公益行业是个互联网化程度很低的行业,也是效率较低的行业。 但这也正是我们的机会。 公益和商业是可以共赢的。公司如果考虑长远发展,不只顾眼前的利益,是能获取更大利益的。
2016-09-21 10:20:50 +08:00
回复了 crayonyi 创建的主题 Python 开源公司内部的微信爬虫,寻求志同道合的人一起来改进
@lixuda 会的。所以用了代理池,而且代理服务器的 ip 是 3 分钟切换一次。
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2561 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 03:12 · PVG 11:12 · LAX 20:12 · JFK 23:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.