V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lixia625
V2EX  ›  程序员

一百万条数据对多列作 join,单机 Mac(16G 内存) 解决方案

  •  
  •   lixia625 · 2018-04-28 15:10:49 +08:00 via Android · 2662 次点击
    这是一个创建于 2182 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,刚刚试了一下用 Pandas.merge 内存炸了。
    5 条回复    2018-04-28 17:20:44 +08:00
    lixia625
        1
    lixia625  
    OP
       2018-04-28 15:21:08 +08:00 via Android
    据说 pandas 的 merge 是专门优化过的算法,那是不是意味着就算我把数据导入数据库用 sql 来做内存也顶不住?
    rrfeng
        2
    rrfeng  
       2018-04-28 15:23:58 +08:00 via Android
    什么样的数据什么样的 join ?这种肯定要根据具体情况优化了。
    100w 也没有 16G 吧?一条多大?
    lixia625
        3
    lixia625  
    OP
       2018-04-28 15:34:40 +08:00 via Android
    @rrfeng 十多列 普通的数字字符类型 数据本身不大,几百 M 吧,两个同样规模的表作 join
    resuly
        4
    resuly  
       2018-04-28 15:41:05 +08:00
    使用 chunk 试一下?
    data2world
        5
    data2world  
       2018-04-28 17:20:44 +08:00
    上代码,谢谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5731 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 01:58 · PVG 09:58 · LAX 18:58 · JFK 21:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.