V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
stupidcat
V2EX  ›  问与答

如何提取淘宝物品详情页上的所有图片?

  •  
  •   stupidcat · 2016-02-29 14:03:34 +08:00 · 5116 次点击
    这是一个创建于 3191 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在是用下面两个正则来匹配:

    \"[^"]\.(jpg|png)\"
    '[^']
    \.(jpg|png)'

    但是只能抓到一小部分图片,如下图所示:
    乱码
    除了那两张大的是 700*700 以外,其余都是小图

    (那两张大图是因为我还做了一步处理,把形如“ http://...-item_pic.jpg_50x50.jpg ”的图片地址转化为“ http://...-item_pic.jpg ”,以得到全尺寸的图片)

    但是这个物品详情页上有非常多的图片,那么应该怎么把所有的图片都抓下来呢??

    4 条回复    2016-02-29 20:10:14 +08:00
    stupidcat
        1
    stupidcat  
    OP
       2016-02-29 14:07:27 +08:00
    比如物品页上的第一张详情图,三个帅哥合影的那张,在浏览器上查看网页源代码是可以看到的,就是“<img src="https://img.alicdn.com/imgextra/i3/482811141/TB2x2s2fVXXXXbjXpXXXXXXXXXX_!!482811141.jpg" align="absmiddle">”,但是在程序里跑的时候就找不到了。。。。。(我用的是 C#,因为要做一个图形界面)
    stupidcat
        2
    stupidcat  
    OP
       2016-02-29 14:14:51 +08:00
    那两个正则表达式是
    "[^"]*\.(jpg|png)"
    '[^']*\.(jpg|png)'
    yeyeye
        3
    yeyeye  
       2016-02-29 14:24:18 +08:00   ❤️ 1
    淘宝的图片是懒加载的吧 所以要做相关的数据分析吧
    vdo
        4
    vdo  
       2016-02-29 20:10:14 +08:00 via Android
    嘿嘿嘿
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   858 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:55 · PVG 05:55 · LAX 13:55 · JFK 16:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.