首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
华为云
V2EX  ›  Python

爬虫如何 fan 墙?有没有老哥知道的?

  •  
  •   Mrrrrr10 · 66 天前 · 3659 次点击
    这是一个创建于 66 天前的主题,其中的信息可能已经有所发展或是发生改变。

    设置代理就可以了吗?万分感谢

    25 回复  |  直到 2018-09-18 11:16:53 +08:00
        1
    geekyoung   66 天前
    难道不是机子可以翻就可以翻了吗
        2
    xpresslink   66 天前
    是的。
        3
    cctv1005s927   66 天前
    挂一个 Proxy 呀
        4
    swirling   66 天前 via iPhone   ♥ 3
    你直接部署在墙外服务器上就行了
        5
    meik2333   66 天前
    看你使用技术的文档,比如 requests 的 http://docs.python-requests.org/zh_CN/latest/user/advanced.html#proxies

    当然首要的是你的机器可以翻墙(或者就在墙外)
        6
    maltoze   66 天前
    proxychains
        7
    qinjingfei   66 天前 via iPhone
    proxychain
        8
    lhx2008   66 天前 via Android   ♥ 1
    走本地 socks
        9
    sunnyadamm   66 天前
    Proxy
        10
    bao1991213   66 天前
    之前爬过球探网的盘口数据,感觉有几点可以考虑的。
    1.代理,这个是最基本的,有的网页和接口会有频率限制,这个之前是直接使用快代理和西刺代理
    2.模拟浏览器的一些 key,这个之前有配置了几个模版,动态的去请求,防止单独的浏览器表示标识被屏蔽
    主要貌似是这两点,其他有需要的 再去看看代码熟悉下。
        11
    actar   66 天前 via Android
    在爬虫内设置代理
    代理爬虫程序
    或者全局代理
        12
    waacoo   66 天前 via iPhone
    用梯子,爬得高
        13
    likuku   66 天前
    在国外 vps 上直接跑爬虫呗
        14
    whoami9894   66 天前 via Android
    1.爬虫设代理
    2.机子全局代理
    3.proxychains python spider.py
    4.挂载到墙外 vps
        15
    godwow   66 天前
    楼上正解
        16
    xuanwu   66 天前
    路过. 也许是下下策 - 用浏览器渲染页面后储存到本地: https://www.v2ex.com/t/489328, 只要本机 ok 就行吧.
        17
    XxxxD   66 天前
    14 楼正解
        18
    agentkw9   66 天前
    17 楼说的对
        19
    zhengjian   66 天前
    requests 的话,HTTP 和 HTTPS 要分别设置代理
        20
    anyele   66 天前 via Android
    现在做爬虫门槛有点低啊
        21
    Mrrrrr10   63 天前
    @geekyoung windows 已有 shadowsocks,怎么在 scrapy 中设置 fan 墙代理呀,网说的摸棱两可的,都不知道说的是什么
        22
    Mrrrrr10   63 天前
    @xpresslink windows 已有 shadowsocks,怎么在 scrapy 中设置 fan 墙代理呀,网说的摸棱两可的,都不知道说的是什么
        23
    Mrrrrr10   63 天前
    @cctv1005s927 这个 proxy 也的是国外的吧,问题是,windows 已有 shadowsocks,怎么在 scrapy 中设置 fan 墙代理呀,网说的摸棱两可的,都不知道说的是什么
        24
    Mrrrrr10   63 天前
    @meik2333 这个 proxy 也的是国外的吧,问题是,windows 已有 shadowsocks,怎么在 scrapy 中设置 fan 墙代理呀,网说的摸棱两可的,都不知道说的是什么
        25
    meik2333   62 天前
    @Mrrrrr10 scrapy 怎么设置代理这里有回答 https://stackoverflow.com/questions/4710483/scrapy-and-proxies
    然后你的代理地址可以在 ss 的代理设置里面找(版本不一样我也不知道你的选项叫啥),如果找不到可以试试 http://127.0.0.1:1080
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   836 人在线   最高记录 3821   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 20ms · UTC 22:54 · PVG 06:54 · LAX 14:54 · JFK 17:54
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1