鄙人是个不起眼的安全职员,最近研究爬虫和反爬比较多,国内的常用爬虫和反爬技术基本都有了解,比如 UA 、IP 、登录、token/sign 等加密参数、特殊的 headers 头验证、aes 和 des 加密某字段、会员权限等级限制、web 端的 js 混淆、移动端的反调试和混淆,ssl pinning 检测、安卓源码编译在 so 层里等等的,微信授权登录等等的,这些我都有些研究。
我研究完以上举例的,最近每天都在搜索相关技术文章,发现基本都是那一套反爬策略,感觉到了一个瓶颈期,技术没法再提升了,相关的技术文章也基本都是那些套路,国外的反爬又是怎么做的啊,跟国内一样吗?
有什么途径可以做到技术的持续进步,国内外有没有什么反爬联盟之类的网站或者渠道可以相互分享新技术的。
抱歉问题有点多,就是感觉最近没有学到新技术,有点焦虑
1
heyhumor 2020-07-16 12:05:59 +08:00
你是想喝茶吗
|
2
sadfQED2 2020-07-16 12:09:25 +08:00 via Android
基本上就你这些,再往上参考 google 的鼠标轨迹,点击轨迹 ai 检查
|
3
ym1ng 2020-07-16 13:28:10 +08:00 1
同不起眼的安全职员,之前搞过一点反欺诈,献个丑
爬虫与反爬其实主要是两个问题 人机识别的 challenge 和触发 challenge 的条件 challenge 最常见的就是各种各样验证码,还有一些类似于字体混淆,关键路径节点校验之类的 触发 challenge 主要是利用的各种画像技术,如 ip 画像,浏览器指纹,设备指纹等等,对画像使用的一些统计手段,如同比、环比、基于时间窗口的统计等等,更高端一点的把各种统计指标以及采集的指纹向量化丢到机器学习的模型里去训练,至于一些核心业务,则无论条件如何一律上 challenge 个人觉得这个领域的东西还是更偏向于业务一些。基于自己的业务去进行反爬或者抓取数据。单纯的想学习国外的套路其实并不一定适用自己,毕竟 google 也干过自己的语言识别把自己的语言验证码破了这种自嗨行为(笑 |
4
renmu123 2020-07-16 14:18:50 +08:00 via Android
你可能已经要到爬虫的天花板了
|
5
wysnylc 2020-07-16 14:26:37 +08:00
只搞爬虫天花板并不高
|
8
kernelpanic 2020-07-16 14:33:08 +08:00
少了一个最常见的自定义字体。。
|
11
yangva OP @kernelpanic 嗯,字体反爬也研究过了
|
12
murmur 2020-07-16 14:42:24 +08:00
我看有那种 IDC 机房 IP,发现是机房的请求直接风控走起
|
13
dryadent 2020-07-16 16:56:48 +08:00
其实设备指纹能玩的很多,在手机端是可以被 hook 的,在 pc 端是没法固定的,都是挑战
|
16
krapnik 2020-07-16 21:00:16 +08:00 1
|
17
locoz 2020-07-16 21:01:23 +08:00 via Android 1
其实各种反爬,思路都是一样的…增加信息收集点、增大看代码的难度、加入一些不影响展示但能让原始数据变样的东西、加入一些恶心人的暗坑,无非就是这几种。实际上也没有什么更好的办法,因为这种东西极限就摆在那,PC 端的反逆向不也是搞了这么多年也没有明显变化嘛。
现在主流的反爬我个人感觉更倾向于强化风控和反逆向这两方面,都是尽量结合业务,定制化地搞。像数美、快手、拼多多的风控就可以做到即使加密算法全给抠烂了、验证码全给爆破了,也还是能让红方恶心得不行,成本还是高。 🤣不过其实再怎么搞都一样,无非就是成本问题。反爬做得再牛逼,也挡不住人家招一群实习生手动入库。 |