V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
nan0kai
V2EX  ›  Python

有没有熟悉爬虫的朋友,给个思路怎么找到淘宝店铺的总产品数

  •  
  •   nan0kai · 2017-12-14 17:31:44 +08:00 · 4093 次点击
    这是一个创建于 2330 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如这个店铺:

    https://muronggongzhu.taobao.com/search.htm?spm=2013.1.0.0.34501d1Ihv6oa&search=y&orderType=hotsell_desc

    如何爬取取这个店铺的总商品数“ 11 ”

    mark

    有思路的朋友,帮忙看下~ 谢谢

    6 条回复    2017-12-14 21:30:08 +08:00
    kslr
        1
    kslr  
       2017-12-14 17:38:25 +08:00   ❤️ 1
    可以爬移动端的搜索
    rabbbit
        2
    rabbbit  
       2017-12-14 17:42:12 +08:00   ❤️ 1
    在这里
    <input id="J_ShopAsynSearchURL" type="hidden" value="/i/asynSearch.htm?mid=w-7829526169-0&wid=7829526169&path=/search.htm&amp;search=y&amp;spm=2013.1.0.0.34501d1Ihv6oa&amp;orderType=hotsell_desc" />
    malaohu
        3
    malaohu  
       2017-12-14 17:43:36 +08:00   ❤️ 1
    爬虫这个东西还是需要慢慢琢磨的。给你点建议吧。
    1. 尽量不去抓取 PC 页面。因为 PC 渲染的页面很复杂,直接去抓手机页面,相对来说难度小一点。
    比如: https://shop71778107.m.taobao.com/?shop_id=71778107&user_id=851358131

    2. F12 查看页面请求的数据。这个是细致的活儿。
    我看了一下貌似这个全是 js 渲染的。我没细看。毕竟挺浪费时间的。
    nan0kai
        5
    nan0kai  
    OP
       2017-12-14 18:02:35 +08:00
    感谢各位回复,个人基本功还不扎实,找好长时间没有找着。应该是 2,4 楼描述的地址。

    再次感谢各位。
    juedi998
        6
    juedi998  
       2017-12-14 21:30:08 +08:00
    其实挺简单的,您找不到,是因为这些数据都是动态生成的,有两种方式获取,第一种比较傻瓜式的:用 selenium 调用浏览器渲染后的页面,这种比较简单,网上一搜一堆的方案,另一种较为复杂,需要先抓包,找到接口后获取它的数据,这个需要一定的经验哦!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2211 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:40 · PVG 10:40 · LAX 19:40 · JFK 22:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.