V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
guoguobaba
V2EX  ›  Python

郁闷,折腾了一周的爬虫

  •  
  •   guoguobaba · 118 天前 · 4760 次点击
    这是一个创建于 118 天前的主题,其中的信息可能已经有所发展或是发生改变。

    辛辛苦苦解码 js ,绕开反爬机制,结果他认证的时候加了个手机实名,我艸。

    28 条回复    2024-08-31 22:02:06 +08:00
    ccloving
        1
    ccloving  
       118 天前
    用影刀
    littleG
        2
    littleG  
       118 天前
    爬虫写的好,牢饭少不了。
    ospider
        3
    ospider  
       118 天前
    国内的网站还是别搞了,现在已经完全没有任何法治可言了,惹急了人家给上边塞点钱,你这就是破坏计算机信息系统安全罪。
    guoguobaba
        4
    guoguobaba  
    OP
       118 天前
    @ospider 我做的是 rpa ,客户自己存用户名密码啊
    ospider
        5
    ospider  
       118 天前
    @guoguobaba #4 so ?我的意思就是现在你讲道理已经讲不明白了……
    privateproxies
        6
    privateproxies  
       118 天前
    哈哈 1 千头 草泥马 汹涌而来
    julyclyde
        7
    julyclyde  
       118 天前   ❤️ 2
    @ospider 你觉得“不想被爬”是违法的吗?
    yanw
        8
    yanw  
       118 天前
    @guoguobaba 可以了解下相关判例
    macaodoll
        9
    macaodoll  
       118 天前 via iPhone
    手机号注册吗?好多家接码平台,随便搞的
    yb2313
        10
    yb2313  
       118 天前   ❤️ 1
    人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向
    happybabys
        11
    happybabys  
       118 天前
    高端的食材只需要简单的烹饪
    somebody1
        12
    somebody1  
       118 天前
    到解码 js 的时候就该用 playwright ,selenium 这种快速搞定,自己的时间比机器的资源值钱
    guoguobaba
        13
    guoguobaba  
    OP
       118 天前 via iPhone
    @somebody1 selenium 也需要解 js 啊,瑞数了解一下
    somebody1
        14
    somebody1  
       118 天前
    @guoguobaba #13
    不用你解,直接从页面抓取结果
    xinghusp
        15
    xinghusp  
       118 天前   ❤️ 2
    @guoguobaba 兄弟 别搞了。我正在经历这破事,甚至于对方公司都没有报案也不愿意配合作证,这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用,也无反爬机制。
    fbichijing
        16
    fbichijing  
       118 天前
    @yb2313 我倒觉得适度的爬虫是很有存在的必要性的,至少对个人来说是这样,可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它,客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。
    jianchang512
        17
    jianchang512  
       118 天前
    国内即便你遵守 robots.txt, 也一样可能吃牢饭
    NoOneNoBody
        18
    NoOneNoBody  
       118 天前
    最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
    不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

    爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
    zeusho871
        19
    zeusho871  
       118 天前   ❤️ 1
    不要实名的话 这个框架好一点 drissionpage
    playwright selenium 有特征 不用去特征版本的就会被检测
    WeaPoon
        20
    WeaPoon  
       118 天前
    @xinghusp #15 哎。
    llbqwhtxi
        21
    llbqwhtxi  
       118 天前
    之前用 selenium 玩页游来的,最近一打开就被 403,要弃坑了(主要是不会"反爬")
    incubus
        22
    incubus  
       118 天前
    @xinghusp 细说
    Daybyedream
        23
    Daybyedream  
       118 天前
    控制频率= = 不公开 是最后的温柔
    linxb
        24
    linxb  
       118 天前
    @ospider #3 啊,这言论是什么立场,合着放开让你随便爬才是法治是吧
    guoguobaba
        25
    guoguobaba  
    OP
       118 天前
    @somebody1 我指的破解 js ,是屏蔽他对 selenium 之类自动化工具的检测。你去看看瑞数是怎么干的吧。
    naythefirst01
        26
    naythefirst01  
       118 天前
    想起之前一些 app 的反爬 就是强制登录。。。 简单有效
    xinghusp
        27
    xinghusp  
       117 天前
    @incubus 改天我写个帖子详细的介绍,这事情一两句说不清。。反正就是爬虫的入罪门槛非常低,只要:1.你没明确得到对方同意(签协议的那种同意,公共网页也不可以); 2.你尝试绕过了任一反爬措施(包括但不限于验证码、代理、JS 混淆等等); 3 、获利大于 5000 元。达成上述三个条件,就可以追究刑事责任了,哪怕对方不报警。
    duansindo
        28
    duansindo  
       113 天前
    我这边需要抓取外国网站的数据,能做的联系我 https://t.me/githubaa
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3672 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 04:33 · PVG 12:33 · LAX 20:33 · JFK 23:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.