V2EX › frogex 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2019-01-19 15:46:52 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@xiao38245
手机淘宝是二进制的协议吧，要破协议，这个我没经验。而且直接抓接口的方法淘宝随便封更容易，感觉还是模拟人的操作稍微靠谱点

2019-01-19 10:50:03 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@IWSR
那能怎么办？讨论爬虫的帖子超级多，可讨论反爬的实在太少了，工作这么久身边也基本没一个人做过这些的

2019-01-18 16:21:03 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@dengtongcai
请看全文，不仅是登陆，是要长期稳定的爬，且能过各种滑块，目前最终方案在 23F，放 win 虚拟机跑了

2019-01-18 11:35:34 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@dengtongcai
爬简单，要能稳定长期、全自动化、有效的爬才难啊

2019-01-18 11:34:41 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@yinaqu
淘宝检测了什么我不确定是不是只在 sufei_data 那个 js 里，从我分析看，至少有检测了 10 个函数，至少 headless 都 pass 了和非 headless 一样的结果。其他的实在看不下去了，都是混淆过的代码，命名 abcdefg，函数各种混着赋值，似乎要人肉维护一个函数调用关系

2019-01-18 11:32:06 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@soulmine
我也知道，公司安全的负责人也说，你一个人怎么能应付一个团队，不要硬肛，要想别的办法，但什么大淘客还是不行啊，搜不到我要的。但这爬东西又是公司必须的任务，之前从来没搞过，忧虑了好久，总没彻底去解决。

淘宝也有付费 api，不过 leader 还是希望能神不知鬼不觉的用爬虫比较好

2019-01-18 10:08:23 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@lkwfive
没试过这个，有空试下吧，不过用什么工具 taobao 应该还是都会检测的

2019-01-18 10:02:59 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@yinaqu
工作很多年了，90%时间写 C++

2019-01-18 09:35:43 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@yumenlong
不会 pyqt，不过应该不只是 selenium 的问题，光看 taobao 的 js 就有 chromedriver 的指纹检测

2019-01-18 09:34:41 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@yangsi
当然可以，主要是不能确定靠什么检测的，试过 PhantomJS 也是不行

2019-01-17 19:25:59 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@5200
阿西吧，这样也就必须一台机器前台运行了吧，如果抓取量大了就很慢了。另外，你是怎么获取数据？

2019-01-17 15:56:12 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@murmur
这些在问题里都提到了，都做过了啊

2019-01-17 15:50:24 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@5200
你这个用按键精灵？感觉更不好稳定吧，如果位置什么的有偏差就做不了啊
我目前是
1.selenium + chrome headless，爬列表页面，价格等数据有小几率获取，获取不到的记录-1。
2.另外启 selenium + chrome noheadless，随机获取-1 的数据循环重新请求价格，销量。
3.cookie 每天更换一次，chrome noheadless，每天早上 9 点爬虫会更新 cookie，时间不对（不是当天的 cookie ）就手动扫码获取 cookie

如果 1 爬完了，2 这里还有大量的-1 记录，我就有点慌了，会不停的手工获取 x5sec 的数据直接抓接口了

2019-01-17 15:15:24 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@ioven app 的逆向就要破协议了，这个我更加没经验，有什么方法吗

2019-01-17 15:11:46 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@5200 感觉不是频率这么简单吧，我要的数据不是特别多，所以爬的时候很克制了。不过目前能爬完也是 kill + 等待拉起的方式，过搜索列表页还可以，过商品详情页就很难了，有时一直弹窗要验证

2019-01-17 14:59:03 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@ioven 不是工具问题，而是怎么突破反爬啊

2019-01-17 14:54:07 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@5200 怎么 low 的方法？只要不人工就不 low 啊
2 个月前有一个接口可以拿
https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId=x&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,originalPrice,tradeContract&callback=onSibRequestSuccess,
加 cookie 和 referer 就好了，现在封了，要在 cookie 里带一个 x5sec 才能过，不然返回 rgv587 这样的东西。而这个 x5sec 是通过滑块后才能获取，且只有半小时时间。

2019-01-17 14:50:48 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@zr8657
其实是要拿详情页的成交量而不是价格，实时的数据里面和外面有些不同的，包括价格。
手机验证码没遇到。翻页的验证码我是尝试 3 次滑动，没过 kill 掉记录时间，让父进程 x 分钟后拉起接着爬，虽然慢一点好歹也可以爬完。商品搜索列表页封的不严，但商品详情页就很严了，kill 很多次都还弹验证

2019-01-17 14:37:17 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@momocraft
我主要看了下 taobao 的那个 index.js 会有这么一句
function i() {
if (a())
return !1;
try {
return !!u.createElement("canvas").getContext("webgl")
} catch (n) {
return !1
}
}
function a() {
return "ontouchstart"in u
}
实际上对于 i()的返回值，有头无头都试过了是一样的，所以姑且认为没靠这些检查。
话说这也是个死坑，哪天淘宝又改了这个 js 用别的检测方法也就没用了

2019-01-17 14:21:21 +08:00

回复了 frogex 创建的主题 › Python › 淘宝反爬求解

@autulin 登陆没啥，手工获取 cookie，我的任务每周爬个 3 天就差不多可以了。问题主要是滑块不好过，非 headless 下大概率过，但这显然不够好

1 2

❮

❯