V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
dcsuibian
V2EX  ›  JavaScript

JavaScript 爬虫方案有推荐的吗?

  •  
  •   dcsuibian · 2021-10-19 13:08:01 +08:00 · 3343 次点击
    这是一个创建于 1126 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在模仿一个别的网站练手,模拟数据比较困难,就想着爬点下来。(纯练手,非商业用途)

    之前用的 Scrapy,挺好用的,但是自己本身已经对 js 、ts 比较熟悉了,而且不太喜欢 python 。

    所以就想问问有么有什么 JavaScript 的替代方案之类的?比如相关的框架之类的?支持 ts 更好

    10 条回复    2021-10-19 16:00:01 +08:00
    veike
        1
    veike  
       2021-10-19 13:11:25 +08:00 via Android
    puppeteer ?
    gavingeng
        2
    gavingeng  
       2021-10-19 13:25:22 +08:00
    微软的 playwright,团队就是原先的 puppeteer,于 2019 跳到 ms
    unclemcz
        3
    unclemcz  
       2021-10-19 13:50:11 +08:00
    crawler
    rust
        4
    rust  
       2021-10-19 14:03:07 +08:00
    直接走 CDP 协议
    mxT52CRuqR6o5
        5
    mxT52CRuqR6o5  
       2021-10-19 14:07:29 +08:00
    (axios/got/其他 http 请求库)+cheerio
    puppeteer/playwright
    ypzhou
        6
    ypzhou  
       2021-10-19 14:09:34 +08:00
    puppeteer
    gam2046
        7
    gam2046  
       2021-10-19 14:31:59 +08:00   ❤️ 4
    不知当讲不当讲,cloudflare workers 去爬其他用了 cf 的网站,直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。
    zhuzongxing
        8
    zhuzongxing  
       2021-10-19 15:15:41 +08:00
    我是用的比较土的方法,axios 加 cheerio
    xiangyuecn
        9
    xiangyuecn  
       2021-10-19 15:28:10 +08:00
    直接用 XMLHttpRequest 快的一逼,手撸。。,,,主要是因为别的工具也不会,写其他代码没有 js 简单😂
    dcsuibian
        10
    dcsuibian  
    OP
       2021-10-19 16:00:01 +08:00   ❤️ 1
    感谢各位的回复
    自己也去调研了下,目前我的观点是靠 axios 、cheerio,以后可能会用 playwright
    axios 用过很多次了,cheerio 处理 dom 。
    puppeteer 、playwright 拓宽了我的知识面,非常有兴趣但暂时用不到(目前只抓静态页面)。以后要用的话倾向于 playwright,主要看中跨平台和微软出品( TypeScript )
    node-crawler 听人说似乎停止维护了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2602 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:45 · PVG 23:45 · LAX 07:45 · JFK 10:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.