首页   注册   登录
 JacksonWoo 最近的时间轴更新
JacksonWoo

JacksonWoo

V2EX 第 437756 号会员,加入于 2019-08-24 13:48:26 +08:00
JacksonWoo 最近回复了
@sadscv 目前支持的是 MySQL 数据库,因为我没有 sql server 的服务器没法做调试,所以暂时还没有支持 sql server
@dezhou 在矩阵运算的性能上,Numpy 无疑是最快的,毕竟她底层调用的是 C 的科学运算库,DaPy 自然比不过的。但是,在数据预处理、特征工程等阶段的操作,并不能一直使用矩阵运算的。DaPy 的设计初衷,是让你轻松地通过调用简单的 API 完成一系列的数据预处理和特征工程操作。DaPy 不想推翻 Numpy 创造一个新的计算引擎,而是想减轻数据科学工作者的工作负担。
@lxy42 在 DaPy 数据处理的结构中,最重要的是 SeriesSet 数据结构(类似于 DataFrame )。它的实现是由一系列的一维数据结构 Series 存在字典中实现的,而 Series 则是 Python 内置结构 list 的派生类。

我没有选择基于 numpy.array 做封装的原因是:1. numpy.array 往往对数据格式有很强的要求,在处理文本数据的时候会比较低; 2. Numpy.array 在初始化新对象的时候的速度不一定比 list 快。Numpy.array 只在一种情况下是高效的,那就是矩阵运算。

因此,DaPy 在类似于 DataFrame 的通用数据框架中是使用 list 进行了封装;而在机器学习模块中为所有模型设置“engine”参数,可以选择 Numpy 矩阵作为运算引擎,以加速在模型训练时的速度。
@renmu123 目前没有完整的文档,但是可以通过 help 来查看非常丰富的帮助信息。我的微信号是这个:Wxsjswxs,有任何使用中的疑惑或者建议欢迎骚扰!
@dezhou Pandas 确实不错,但对于很多在高校的统计研究人员来说,他们相比较于 R 或者 Matlab 来说,易用性确实差一些。Pandas 是适合程序员使用数据分析框架。
谢谢你的建议,@XIVN1987 可以参考一下这篇博客: https://juejin.im/post/5d60d051e51d4561d106cc02
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   708 人在线   最高记录 5168   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 14ms · UTC 20:47 · PVG 04:47 · LAX 12:47 · JFK 15:47
♥ Do have faith in what you're doing.