首页   注册   登录
 bobobo80 最近的时间轴更新

bobobo80

V2EX 第 177525 号会员,加入于 2016-06-15 13:23:26 +08:00
今日活跃度排名 7759
bobobo80 最近回复了
13 天前
回复了 zhangslob669 创建的主题 求职 求职:两年爬虫经验
@zhangslob669 d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
19 天前
回复了 bobobo80 创建的主题 酷工作 [招聘][北京][字节跳动]抓取/后端工程师
@CEBBCAT 也招实习的,可以来试试
110 天前
回复了 okzpy9425 创建的主题 酷工作 求工作[北京 Python ]
d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
110 天前
回复了 testphase 创建的主题 职场话题 在德国的中年码农 迷茫
国内晚上 11 点半可能才下班回家
@kidlfy 多平台同步,不就是爬虫的并发请求嘛,开几个协程或线程同时调用各个打码平台的 api 就可以。打码出错处理看你怎么个策略了,多个平台的结果不一样时怎么取值等,这就是业务逻辑了。
看起来是要做一个接口服务,一方面提供自行识别验证码的服务,一方面作为中转,将请求代理到各个打码平台。对于自己识别,大原理上就是接收图片,然后调用模型识别。对于转发,就是统一一下接口输入的参数和格式,把各个打码平台需要的参数适配一下,转发请求。
这个服务算是响应比较慢的了,建议使用异步的框架,里面还要转发请求,那么自带 server 和 client 的 aiohttp 比较合适了。识别的话,接触不多,之前用 tesseract 效果并不好,图片规律且有一定样本的话 tenseflow 调包训练一下效果就不错。
selenium 应该是没有办法返回类似 requests 的 status_code 的,所以需要自己来判断一下返回页面中是否包含正常的元素,elem = driver.find_element_by_id("XXX")。需要试出一些验证码,429,404 等页面的状态,加入状态判断。
316 天前
回复了 bobobo80 创建的主题 程序员 不同源商品名匹配应该如何处理?
@coeo91 手工一个个指定吗?那工作量好大吧。
2018-05-04 13:28:26 +08:00
回复了 bobobo80 创建的主题 酷工作 [北京][招聘][人人车] 初/高级爬虫(抓取)工程师
@tuzigg 暂不支持
2018-04-12 21:17:48 +08:00
回复了 bobobo80 创建的主题 酷工作 [北京][招聘][人人车] 初/高级爬虫(抓取)工程师
@qwertty01 虽然我们应该还是会维持 python 技术栈,不过有兴趣欢迎来聊一下。
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4024 人在线   最高记录 5043   ·   Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 13ms · UTC 03:29 · PVG 11:29 · LAX 20:29 · JFK 23:29
♥ Do have faith in what you're doing.
沪ICP备16043287号-1