V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alangz
V2EX  ›  程序员

行业信息提取汇总方案请教

  •  
  •   alangz ·
    xyalan · 9 小时 28 分钟前 · 576 次点击

    老婆因为工作需要,需要定期获取 IP 行业联名最新资讯。这些 IP 联名的最新资讯现在一般都在微博、小红书、公众号上最先发布。目前想到的方案就是通过模型进行信息资源搜集整理,但这里最重要的一环就是信息源获取。

    微博、小红书、公众号的内容好像也不提供公开搜索引擎检索,爬虫似乎也有一定风险,属于不合法渠道吧。所以有什么好的方式获取到这些信息源?

    7 条回复    2025-09-23 20:48:31 +08:00
    danbai
        1
    danbai  
    PRO
       8 小时 48 分钟前   ❤️ 2
    有这种社交软件的订阅
    https://docs.rsshub.app/zh/
    kenilalexandra
        2
    kenilalexandra  
       8 小时 46 分钟前
    最好的还是爬虫,已知的 Github 上有微博、小红书、抖音的爬虫工具,其他的可能需要找一找了
    NICEghost
        3
    NICEghost  
       8 小时 3 分钟前
    这些应该都是有自己工具采集的吧,能有实力联名的大品牌本就不多,要是错过补充进去就好了,已经看过几个这样的营销号了
    Solix
        4
    Solix  
       7 小时 45 分钟前
    只有爬虫,没别的,为啥不让你获取,就是因为这些信息有价值
    Hopetree
        5
    Hopetree  
       7 小时 45 分钟前
    当你的爬虫影响的对方的服务的时候才有风险,只要你别变成 DDoS 攻击就没事,再说现在的这些媒体 APP 都是一套反爬措施自我防御,没那么容易被个人爬虫搞出问题
    YJi
        6
    YJi  
       7 小时 30 分钟前
    只有爬虫。个人用频率不高就自己爬,我司有数据基本都是 toB 的用。
    longlonglanguage
        7
    longlonglanguage  
       3 小时 17 分钟前
    可以考虑上午获取一次,下午获取一次。每次抓取当天和上一天的信息,然后把信息存储数据库,重复的舍弃掉,然后再通过 ai 比对,相似的也舍弃掉。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2322 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:05 · PVG 00:05 · LAX 09:05 · JFK 12:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.