V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Soler
V2EX  ›  Python

实在是没思路了,麻烦大佬给看看,这个怎么搞出来 [爬虫]

  •  
  •   Soler · 2022-09-06 09:08:10 +08:00 · 3833 次点击
    这是一个创建于 840 天前的主题,其中的信息可能已经有所发展或是发生改变。
    <html>
    状    态:
    <script type="text/javascript"> if (2 == EQUIP_PAID || 2 == EQUIP_TRADE_FINISH || 2 == EQUIP_TAKE_AWAY) { document.write("已出售"); } else { document.write('上架中'); } </script>
    </html>

    怎么能够解析出来 dd 标签里面的值,是已出售 或者是 上架中。

    11 条回复    2022-09-06 13:50:48 +08:00
    masker
        1
    masker  
       2022-09-06 09:10:04 +08:00 via Android   ❤️ 1
    pyppteer
    Soler
        2
    Soler  
    OP
       2022-09-06 09:35:20 +08:00
    @masker 感谢提供思路, 我研究一下
    lanjz
        3
    lanjz  
       2022-09-06 09:59:44 +08:00   ❤️ 1
    其实要获取的就是那个 if 里面的 2 ,把那个数值提取出来再判断下就好了。
    q1angch0u
        4
    q1angch0u  
       2022-09-06 10:15:39 +08:00
    "dd 标签"是啥?
    musi
        5
    musi  
       2022-09-06 10:27:48 +08:00
    其实你只要能拿到 EQUIP_PAID EQUIP_TRADE_FINISH EQUIP_TAKE_AWAY 这几个变量就行了,建议给出具体的网页代码
    pcbl
        6
    pcbl  
       2022-09-06 10:38:32 +08:00 via Android
    selenium 拿 js 解析后的源码
    Soler
        7
    Soler  
    OP
       2022-09-06 10:55:55 +08:00
    @musi 这几个值没有找到的,使用模板类语音渲染的时候这些值没在页面定义
    musi
        8
    musi  
       2022-09-06 11:15:17 +08:00
    @Soler # 7 所以才建议你给出具体的网页代码,这些变量是肯定有定义的,不然这段 js 就报错了
    Juszoe
        9
    Juszoe  
       2022-09-06 12:36:33 +08:00
    盲猜 EQUIP_*其实是常量,前面的 2 才是动态渲染的,所以就简单了,你看一下可能的值有哪三种就行了,然后正则提取一下数字
    QKgf555H87Fp0cth
        10
    QKgf555H87Fp0cth  
       2022-09-06 13:47:42 +08:00
    断点下
    Soler
        11
    Soler  
    OP
       2022-09-06 13:50:48 +08:00
    @masker 感觉提供思路,根据该包找到了 gerapy-pyppeteer ,可以配合 scrapy 使用,解决了问题。谢谢各位,原网站不便发出来,感谢其他伙伴理解。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5844 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.