V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
txc106
V2EX  ›  Hadoop

爬虫每天传一次到 hdfs 能用 flume 吗?

  •  
  •   txc106 · 244 天前 · 1131 次点击
    这是一个创建于 244 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答

    3 条回复    2021-04-06 10:35:29 +08:00
    xcc880
        1
    xcc880  
       244 天前   ❤️ 1
    尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close.
    chennuo
        2
    chennuo  
       244 天前
    面向 JY coding 么
    wpf375516041
        3
    wpf375516041  
       243 天前
    所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1176 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 18:02 · PVG 02:02 · LAX 10:02 · JFK 13:02
    ♥ Do have faith in what you're doing.