V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  frogex  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
2019-01-19 15:46:52 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@xiao38245
手机淘宝是二进制的协议吧,要破协议,这个我没经验。而且直接抓接口的方法淘宝随便封更容易,感觉还是模拟人的操作稍微靠谱点
2019-01-19 10:50:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@IWSR
那能怎么办?讨论爬虫的帖子超级多,可讨论反爬的实在太少了,工作这么久身边也基本没一个人做过这些的
2019-01-18 16:21:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@dengtongcai
请看全文,不仅是登陆,是要长期稳定的爬,且能过各种滑块,目前最终方案在 23F, 放 win 虚拟机跑了
2019-01-18 11:35:34 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@dengtongcai
爬简单,要能稳定长期、全自动化、有效的爬才难啊
2019-01-18 11:34:41 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yinaqu
淘宝检测了什么我不确定是不是只在 sufei_data 那个 js 里,从我分析看,至少有检测了 10 个函数,至少 headless 都 pass 了和非 headless 一样的结果。其他的实在看不下去了,都是混淆过的代码,命名 abcdefg,函数各种混着赋值,似乎要人肉维护一个函数调用关系
2019-01-18 11:32:06 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@soulmine
我也知道,公司安全的负责人也说,你一个人怎么能应付一个团队,不要硬肛,要想别的办法,但什么大淘客还是不行啊,搜不到我要的。 但这爬东西又是公司必须的任务,之前从来没搞过,忧虑了好久,总没彻底去解决。

淘宝也有付费 api,不过 leader 还是希望能神不知鬼不觉的用爬虫比较好
2019-01-18 10:08:23 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@lkwfive
没试过这个,有空试下吧,不过用什么工具 taobao 应该还是都会检测的
2019-01-18 10:02:59 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yinaqu
工作很多年了,90%时间写 C++
2019-01-18 09:35:43 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yumenlong
不会 pyqt,不过应该不只是 selenium 的问题,光看 taobao 的 js 就有 chromedriver 的指纹检测
2019-01-18 09:34:41 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yangsi
当然可以,主要是不能确定靠什么检测的,试过 PhantomJS 也是不行
2019-01-17 19:25:59 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200
阿西吧, 这样也就必须一台机器前台运行了吧,如果抓取量大了就很慢了。 另外,你是怎么获取数据?
2019-01-17 15:56:12 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@murmur
这些在问题里都提到了,都做过了啊
2019-01-17 15:50:24 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200
你这个用按键精灵?感觉更不好稳定吧,如果位置什么的有偏差就做不了啊
我目前是
1.selenium + chrome headless, 爬列表页面,价格等数据有小几率获取,获取不到的记录-1。
2.另外启 selenium + chrome noheadless,随机获取-1 的数据循环重新请求价格,销量。
3.cookie 每天更换一次,chrome noheadless,每天早上 9 点爬虫会更新 cookie,时间不对(不是当天的 cookie )就手动扫码获取 cookie

如果 1 爬完了,2 这里还有大量的-1 记录,我就有点慌了,会不停的手工获取 x5sec 的数据直接抓接口了
2019-01-17 15:15:24 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@ioven app 的逆向就要破协议了,这个我更加没经验,有什么方法吗
2019-01-17 15:11:46 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200 感觉不是频率这么简单吧,我要的数据不是特别多,所以爬的时候很克制了。 不过目前能爬完也是 kill + 等待拉起的方式,过搜索列表页还可以,过商品详情页就很难了,有时一直弹窗要验证
2019-01-17 14:59:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@ioven 不是工具问题,而是怎么突破反爬啊
2019-01-17 14:54:07 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200 怎么 low 的方法?只要不人工就不 low 啊
2 个月前有一个接口可以拿
https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId=x&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,originalPrice,tradeContract&callback=onSibRequestSuccess,
加 cookie 和 referer 就好了,现在封了,要在 cookie 里带一个 x5sec 才能过,不然返回 rgv587 这样的东西。而这个 x5sec 是通过滑块后才能获取,且只有半小时时间。
2019-01-17 14:50:48 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@zr8657
其实是要拿详情页的成交量而不是价格,实时的数据里面和外面有些不同的,包括价格。
手机验证码没遇到。翻页的验证码我是尝试 3 次滑动,没过 kill 掉记录时间,让父进程 x 分钟后拉起接着爬,虽然慢一点好歹也可以爬完。商品搜索列表页封的不严,但商品详情页就很严了,kill 很多次都还弹验证
2019-01-17 14:37:17 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@momocraft
我主要看了下 taobao 的那个 index.js 会有这么一句
function i() {
if (a())
return !1;
try {
return !!u.createElement("canvas").getContext("webgl")
} catch (n) {
return !1
}
}
function a() {
return "ontouchstart"in u
}
实际上对于 i()的返回值,有头无头都试过了是一样的,所以姑且认为没靠这些检查。
话说这也是个死坑,哪天淘宝又改了这个 js 用别的检测方法也就没用了
2019-01-17 14:21:21 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@autulin 登陆没啥,手工获取 cookie,我的任务每周爬个 3 天就差不多可以了。 问题主要是滑块不好过,非 headless 下大概率过,但这显然不够好
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2840 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 11:35 · PVG 19:35 · LAX 03:35 · JFK 06:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.