V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
jerfoxu
V2EX  ›  Python

有写过企查查抓取脚本的没!有个问题想要咨询一下!

  •  
  •   jerfoxu · 2020-11-27 10:19:56 +08:00 · 4338 次点击
    这是一个创建于 1460 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近企查查升级版本了!将更多的弹窗电话代码放在了最底部 ,这要怎么抓取呢!

    虽然之前写的脚本在链接上加上&old=true,还可以照常用老的脚本,但感觉不久企查查就会给取消掉吧!
    res=requests.get('https://www.qcc.com/search?key='+nameNew+'&old=true',headers=headers)
    res=requests.get('https://www.qcc.com/search?key='+nameNew,headers=headers)

    两个结果不一样,后面一个是企查查升级后的版本,更多里面的联系方式放在了代码的最后了!

    有什么解决办法吗?也不知道我有没有描述清楚。
    第 1 条附言  ·  2020-11-27 11:00:35 +08:00
    做几点说明,免得别人一看爬虫就高呼吃牢饭:
    1.是企查查的会员,没脚本也是可以查看联系方式,脚本是不用一个一个的去自己手动复制,提升效率。
    2.不是批量查询,只是筛选自己需要的,体量十分小。但是手动一个一个的去粘贴复制太影响效率。
    3.抓的信息,自用。不存在公布和售卖

    于我而已,这仅仅是一个提升自己工作效率的工具而已(主要解决手动粘贴,复制的重复动作)。
    17 条回复    2020-11-28 12:12:24 +08:00
    GM
        1
    GM  
       2020-11-27 10:37:18 +08:00
    善意提醒:注意安全。

    毕竟已经有不少案例了,爬虫写得好,牢饭吃得饱。
    efaun
        2
    efaun  
       2020-11-27 10:39:33 +08:00
    套娃?
    murmur
        3
    murmur  
       2020-11-27 10:39:34 +08:00
    v 站应该有企查查的员工吧,可以动手了
    whx20202
        4
    whx20202  
       2020-11-27 10:41:09 +08:00
    无言以对。。。
    jerfoxu
        5
    jerfoxu  
    OP
       2020-11-27 10:53:50 +08:00
    @murmur 大家误会了吧! 我本身就是企查查的会员,抓取只是为了自己方便而已!否则我得一个一个去复制。因为我们一部分信息是来自中标网站,中标信息中的企业信息是用企查查会员再查询获取号码的!
    wafm
        6
    wafm  
       2020-11-27 10:59:57 +08:00 via iPhone
    @jerfoxu 别用于盈利 没问题 放心玩
    NCry
        7
    NCry  
       2020-11-27 11:01:21 +08:00
    一句话一个感叹号这种打字方式,我怎么觉得那么眼熟呢
    hakono
        8
    hakono  
       2020-11-27 11:02:01 +08:00
    @jerfoxu 你是愿意出钱的用户的话,那就乖乖用官方的 API
    https://openapi.qcc.com/data
    jerfoxu
        9
    jerfoxu  
    OP
       2020-11-27 11:04:38 +08:00
    @hakono API 不会目前不会写哦,有这样的工具用也可以。总之我这边的需求就是,根据提供的企业名称获取:省份,电话,法人 就够了。
    hakono
        10
    hakono  
       2020-11-27 11:09:32 +08:00
    @jerfoxu https://openapi.qcc.com/dataApi/dataDetail?apiId=f738e318-62b5-11e7-bbdd-00155d0ab207
    那就请求这个 API 吧,官方已经把 API 的 URL 和详细调用方法写得一清二楚了,如果还不会页面里还有 Python 例子,复制粘贴就能直接无脑用了

    充钱就能变强
    murmur
        11
    murmur  
       2020-11-27 11:14:44 +08:00
    jerfoxu
        12
    jerfoxu  
    OP
       2020-11-27 11:18:06 +08:00
    @hakono OK 后面研究一下!他这个次数应该是成功计算的吧!如果判断没有手机号码,我们是不要的!

    如果是按请求就太贵了!如果是按获取成功一次计价完全可以接受
    hakono
        13
    hakono  
       2020-11-27 11:20:32 +08:00
    @jerfoxu
    https://openapi.qcc.com/FAQ
    这些问题你翻翻 FAQ 就能找到啊。。。。

    7 、目前开放平台是怎么扣次 /扣费的?如果我查询出来是 201,未查找到结果会扣费吗?
    当前开放平台只有返回状态是 200 的情况下才扣次 /扣费,其余 201,202,203 等状态皆不扣费 /扣次。
    jerfoxu
        14
    jerfoxu  
    OP
       2020-11-27 11:27:06 +08:00
    @hakono 非常感谢。
    kennyliu
        15
    kennyliu  
       2020-11-27 14:33:41 +08:00 via Android
    凯盛员工?
    gogomarine
        16
    gogomarine  
       2020-11-27 17:35:58 +08:00
    难道企查查本身不就是爬虫出身的么?
    llsquaer
        17
    llsquaer  
       2020-11-28 12:12:24 +08:00
    不知道你具体查哪些内容...我是 vip 用户.之前我也想过爬数据.. 后来发现企查查 vip 提供了批量导出就没用过了..导出的数据信息挺全的..除了没有企业关系图.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3021 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:42 · PVG 22:42 · LAX 06:42 · JFK 09:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.