V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
littleJohn
V2EX  ›  数据库

[dataworks 技术求助贴] 如何通过 sql 语句调用 odps datafrme,提高运行速度

  •  
  •   littleJohn · 2023-10-10 16:54:09 +08:00 · 542 次点击
    这是一个创建于 447 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我看了阿里云的 dataworks 文档: pyodps 读取 sql 类型是 pandas dataframe 是数据下载到本地,如果后续操作的都是本地的 DataFrame ,速度很慢; 而直接读取表是 odps datafrme 可以利用 maxcompute 分布式,这些接口最终都会翻译成 SQL 到 MaxCompute 计算集群做分布式计算,并且本地几乎没有任何的内存消耗,相比于单机有很大的性能提升.

    我现在的问题是 我要处理数据量很大( 3000 万)需要关联多张表,并且 pyodps 中涉及参数传入 sql,这种情况下应该怎么处理?才能既可以写复杂 sql 又可以调用 odps datafrme 可以利用 maxcompute 分布式。(或者是否有其他更好的方式) ps:pandas dataframe 和 odps dataframe 接口 很多不一样,而且我看了阿里的 dataworks 和 pyodps 文档 接口写的很粗糙(可能是我的问题),所以想请问是否还有其他的文档。 在这里先谢谢各位大佬了。希望有人能指点。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1101 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:56 · PVG 02:56 · LAX 10:56 · JFK 13:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.