V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  jakeyfly  ›  全部回复第 7 页 / 共 14 页
回复总数  279
1  2  3  4  5  6  7  8  9  10 ... 14  
2018-03-30 23:15:57 +08:00
回复了 jakeyfly 创建的主题 问与答 大佬们 用过 celery APScheduler RQ 吗 网上资料都好少。
@Kilerd 英文看不懂
2018-03-30 22:36:23 +08:00
回复了 jakeyfly 创建的主题 问与答 大佬们 用过 celery APScheduler RQ 吗 网上资料都好少。
今天大佬们都不在啊
2018-03-30 11:38:11 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@locktionc 有了解过 但总感觉 有那么点不对
2018-03-30 09:32:04 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@fiht 可能我没说明白 不好意思哈 我换种说法,比如 我监控 1000 个页面,我 20 分钟扫描一次这一千个页面,任务发布需要从另一个地方提取数据构造这一千个 URL,压进队列里,我想控制的是这一千个 URL 之间的频率,比如扫 20 个休息 10 秒,这 20 个是并发多线程 ,我现在是用 futues 弄的 设置 20 个线程 他就是同时爬 20 个 但是是连续的。我怕我的代理池顶不住,就想控制其频率。而且这样完全自己写,发布任务的轮询实现的也不理想。就想有没有成熟的包或框架可以用。(其间还要根据每个 URL 的壮态,判定是不是剔除出来,不再发布这个任务)
2018-03-30 03:01:36 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@ericls 好高端 还没接触过
2018-03-30 03:01:10 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@Trim21 这好像不错,不过这执行的有点快啊 爬虫太快了会被 BAN 的 有没有办法控制间隔或者速度啊
2018-03-30 02:30:08 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@binux 我觉得 celery 更像 futuer
2018-03-30 02:28:36 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@wellsc RQ 是啥
2018-03-30 02:28:25 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@binux 我看了教程 好像 他定义的是任务 并不是队列啊
2018-03-30 02:04:11 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@laxenade 这不是进程 吗
2018-03-30 01:39:35 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@1iuh celery 是任务啊 我这个需求应该是发数据给任务让任务跑起来
2018-03-30 01:38:57 +08:00
回复了 jakeyfly 创建的主题 问与答 python3 有没有什么库 是发布任务--->管道<----执行者 这样的
@bazingaterry 是吧 最好是基于 redis 的 能保存状态的
2018-03-29 13:59:08 +08:00
回复了 jakeyfly 创建的主题 问与答 怎么把‘[x,x,x,x,]’这样的字符串变为列表啊
@ipwx 是这样的 塞进去就变成字符串了 然后 现在我进去都 JSON 一下 就可以了 不过不知道会不会慢
2018-03-29 12:16:46 +08:00
回复了 jakeyfly 创建的主题 问与答 怎么把‘[x,x,x,x,]’这样的字符串变为列表啊
@ipwx 我是当管道用 多加一层 JSON 处理 会不会不效率
2018-03-29 03:55:13 +08:00
回复了 jakeyfly 创建的主题 问与答 怎么把‘[x,x,x,x,]’这样的字符串变为列表啊
@WO31400 我了个草 居然把这个忘了 感谢大佬深夜鼎立相助
2018-03-28 00:05:12 +08:00
回复了 jakeyfly 创建的主题 问与答 Python 如何实现对单页面增量爬取呢?
@locoz 有个时间 但是 存在 redis 里 除了 list 别的不能选择最后一个入队列的来对比时间啊
2018-03-27 20:08:19 +08:00
回复了 jakeyfly 创建的主题 问与答 Python 如何实现对单页面增量爬取呢?
@kkzxak47 是下读取数据后对比,那是否只能一条条的跟数据库的对比 没有的才写入这样?
@rrfeng redis 有上限吗 我主要是为了保存壮态 所以才用 REDIS
@wujichao zet 还要给个下标 不麻烦吗 大佬
2018-03-18 09:47:33 +08:00
回复了 jakeyfly 创建的主题 问与答 Python 里面有没有什么办法或者库 可以存一个临时值。
@brickyang 大佬 那如果我用你的方法取的日期 hash 一下创建 redis 的 key 设时效性为 一天 那每天取的都不一样 而且还能自动回收 这个思路没问题吧 这等于一天一个密码啦
1  2  3  4  5  6  7  8  9  10 ... 14  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3298 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 11:30 · PVG 19:30 · LAX 04:30 · JFK 07:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.