V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zarte
V2EX  ›  问与答

有个新需求很头大来这求教。

  •  
  •   zarte · 2018-12-14 15:06:21 +08:00 · 1426 次点击
    这是一个创建于 2165 天前的主题,其中的信息可能已经有所发展或是发生改变。

    任意添加网站一般是论坛,爬虫每天根据关键词爬取帖子(整个页面应该也行)。
    问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath (实际用起来貌似也会有问题)。
    2.帖子的日期如何获取
    3.如何不重复爬取。

    这种需求的难度:低 中 高 ?

    11 条回复    2018-12-15 10:23:37 +08:00
    Bryan0Z
        1
    Bryan0Z  
       2018-12-14 16:27:47 +08:00 via Android
    一个爬虫爬遍任意网站?有点厉害
    wly19960911
        2
    wly19960911  
       2018-12-14 16:32:17 +08:00
    是超高
    jinksw
        3
    jinksw  
       2018-12-14 16:49:40 +08:00   ❤️ 1
    添加网站的时候 让他给你 然后 你挨个添加规则 分页规则 内容规则 日期规则 唯一性规则
    zarte
        4
    zarte  
    OP
       2018-12-14 16:59:15 +08:00
    @jinksw 嗯,先按这个弄
    a62527776a
        5
    a62527776a  
       2018-12-14 17:09:01 +08:00
    那以后每天的工作就是研究各个网站的规则了 →。→
    maplelin
        6
    maplelin  
       2018-12-14 17:40:04 +08:00
    这是让你去造高达吧
    Kinnice
        7
    Kinnice  
       2018-12-14 17:49:24 +08:00 via Android
    爬虫框架 5k,规则 1k 一条 可持续收入 /滑稽
    limuyan44
        8
    limuyan44  
       2018-12-14 17:50:45 +08:00 via Android
    ai 啊,添加一条数据后给你发短信,你把代码写好在放上去,最重要的是要按网址收费。。
    zarte
        9
    zarte  
    OP
       2018-12-14 19:07:35 +08:00
    @a62527776a 不愁没工时了(`・ω・´)
    zarte
        10
    zarte  
    OP
       2018-12-14 19:08:36 +08:00
    @maplelin 能做出来的话可以自己拿去卖哈哈 ̄ω ̄=
    adrianyoung
        11
    adrianyoung  
       2018-12-15 10:23:37 +08:00 via Android
    url 去重做缓存检查
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5893 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 03:35 · PVG 11:35 · LAX 19:35 · JFK 22:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.