V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cais
V2EX  ›  程序员

从多个平台拉取数据(如携程景点,美团景点),落到本地,用什么架构或者设计模式合理呢?

  •  
  •   cais · 2022-01-05 18:06:45 +08:00 · 1516 次点击
    这是一个创建于 1055 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有这样的需求:本地有自己的景点结构,通过调用各景点平台拉取数据存到本地,主要考虑兼容和可扩展,后续会接各种不同结构的景点结构,大家提提建议,暂不考虑性能,并发。
    第 1 条附言  ·  2022-01-06 08:16:25 +08:00
    我可能表达的不清楚,再明确一下,本次拉去只针对正规接口调用形式,而非爬虫
    我现在只能想到使用适配器设计模式。
    10 条回复    2022-01-07 02:59:57 +08:00
    julyclyde
        1
    julyclyde  
       2022-01-05 20:15:14 +08:00
    首先,这是违法的
    xwayway
        2
    xwayway  
       2022-01-05 20:20:05 +08:00
    针对不同平台写爬虫呗,搞个中间表,然后数据一条条洗成自己的数据结构
    mxT52CRuqR6o5
        3
    mxT52CRuqR6o5  
       2022-01-05 20:29:02 +08:00
    首先爬虫违法,而且美团携程应该都是有很麻烦的反爬的
    你不如直接去和美团携程沟通看看他们跟不跟你合作让你能直接调用数据
    ospider
        4
    ospider  
       2022-01-06 11:02:24 +08:00
    首先,不是爬虫违法,而是窃取商业数据并变现违法。

    适配器模式挺好,但是重点不是代码设计吧,是数据格式和数据库模式设计。
    julyclyde
        5
    julyclyde  
       2022-01-06 12:45:45 +08:00
    @ospider 不商业,不变现,也可以违法
    ospider
        6
    ospider  
       2022-01-06 13:50:17 +08:00
    @julyclyde 是的,爬虫罪大恶极,建议先把李彦宏抓起来凌迟处死
    markgor
        7
    markgor  
       2022-01-06 13:53:23 +08:00
    美团没开放这些接口,携程有开放,但申请条件比较高,我只是对接过驴妈妈的,
    驴妈妈是 PULL + PUSH 形式,一般每个月全量拉一次,后续产品信息变动会 PULL 对应的 ID 过来,然后再拉指定 ID 的信息即可。
    基本每个 OTA 的接口数据都不一样,自己做下 mapping 就行了。
    cais
        8
    cais  
    OP
       2022-01-06 15:23:44 +08:00
    @ospider 本地数据格式已经定了 所以想着看看能不能通过后续容易扩展。
    cais
        9
    cais  
    OP
       2022-01-06 16:03:59 +08:00
    @markgor 嗯 我们也是已经做完对接一个平台了,也是全量加增量的形式,只能做 mapping 对照了
    kjstart
        10
    kjstart  
       2022-01-07 02:59:57 +08:00
    我觉得不用太复杂, 统一一下数据结构, 主要是往你自用的属性上靠. 然后封装成数据接口.
    再为每个网站单独写 client 就可以了. client 也需要统一的接口和基类, 主要负责代理服服务器, 访问延迟, 更换 UA 和新建 http 连接, cookie 独立存储, 打码服务集成之类的...
    然后你这些 client 就可以用线程池统一管理了.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2609 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 15:39 · PVG 23:39 · LAX 07:39 · JFK 10:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.