V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ShiehShieh
V2EX  ›  Python

V 站上有多少人是用 Python 做 Data Science 的,想知道。 doge

  •  
  •   ShiehShieh ·
    ShiehShieh · 2015-06-27 19:59:01 +08:00 · 6253 次点击
    这是一个创建于 3436 天前的主题,其中的信息可能已经有所发展或是发生改变。
    觉得V站上的数据科学的帖子都是冷板凳呢,这里没有人做数据的么。 :doge:
    (其实我是想试试:doge:能不能发成功。嗯。
    第 1 条附言  ·  2015-06-28 09:53:00 +08:00
    诶,请大家也说明一下自己是为什么会做data science,就是说,是企业工作还是学校科研机构?
    41 条回复    2015-07-07 01:02:25 +08:00
    echo1937
        1
    echo1937  
       2015-06-27 20:07:27 +08:00
    数据科学的范畴太广了,定义一下吧。
    ShiehShieh
        2
    ShiehShieh  
    OP
       2015-06-27 20:13:40 +08:00
    额,我觉得不用限制的太细,只要是跟数据科学相关的工作都行。
    我知道领域很广,就是想知道这个领域内的人在这里为什么好像都不大活跃。。。
    oblivious
        3
    oblivious  
       2015-06-27 20:20:59 +08:00
    主要用R和Python做text mining……
    ShiehShieh
        4
    ShiehShieh  
    OP
       2015-06-27 20:22:15 +08:00
    @oblivious 对0.0我问的就是这个问题,那么你是在企业里工作?还是实验室学生?
    oblivious
        5
    oblivious  
       2015-06-27 20:41:03 +08:00
    @ShiehShieh 念博士……
    SSSSQD
        6
    SSSSQD  
       2015-06-27 20:43:49 +08:00   ❤️ 1
    在校本科非相关专业学生,自学Data Science,打Kaggle专用sklearn,昨天刚刚在Spark上用Python接口操作
    Chilly
        7
    Chilly  
       2015-06-27 21:03:58 +08:00
    目前自己在自学数据挖掘,最近在学R
    BooksE
        8
    BooksE  
       2015-06-27 21:06:11 +08:00
    R 是个好东西
    ShiehShieh
        9
    ShiehShieh  
    OP
       2015-06-27 21:08:28 +08:00
    @SSSSQD 本来想给你发邮件交流一下,结果,发现,不管是blog,还是github,没有一个地方有联系方式的。 :doge: 想发展事业,首先得有一个联系方式啊喂同学。
    ShiehShieh
        10
    ShiehShieh  
    OP
       2015-06-27 21:10:46 +08:00
    @SSSSQD Kaggle有什么心得吗?以前还真不知道这个。。。上面的竞赛难度如何?
    nooper
        11
    nooper  
       2015-06-27 21:17:14 +08:00
    有。
    SSSSQD
        12
    SSSSQD  
       2015-06-27 21:17:37 +08:00
    @ShiehShieh 哦,真的不好意思。Email: [email protected],Kaggle上的比赛 分层次很明显,可以一级级地打怪上去。然后比赛结束后多看那些高分选手的心得把,试着代码重复一遍他们对那个模型,那个业务的把握把。PS:我也在慢慢打怪中。。。
    ShiehShieh
        13
    ShiehShieh  
    OP
       2015-06-27 21:20:53 +08:00
    @SSSSQD 好,好像是一个很好的平台,谢谢分享。
    SSSSQD
        14
    SSSSQD  
       2015-06-27 21:23:04 +08:00
    @ShiehShieh 建议可以在 http://memect.com/ 订阅一下机器学习日报,Python日报,干货还不少
    ueno
        15
    ueno  
       2015-06-27 22:12:04 +08:00
    虽然每天接触数T的数据,但是还是只觉得处于统计处理阶段(python+java)。
    leemw
        16
    leemw  
       2015-06-27 22:32:11 +08:00
    用R的路过,python还在学习中,data mining的话python似乎比较灵活
    zonghua
        17
    zonghua  
       2015-06-28 01:42:03 +08:00 via iPhone
    @Chilly 我连数理统计最基本那些都不对
    ligyxy
        18
    ligyxy  
       2015-06-28 02:59:40 +08:00
    最近一年转用Python, 很少用R了

    但是估计搭配Spark, R在这方面会更有前途
    ShiehShieh
        19
    ShiehShieh  
    OP
       2015-06-28 09:52:00 +08:00
    @ligyxy 那么请问你是在企业工作?还是科研?具体做什么?
    ligyxy
        20
    ligyxy  
       2015-06-28 10:18:57 +08:00
    @ShiehShieh 我的个人页里有我各种联系方式, 就不在这里答复了, 欢迎交流
    ShiehShieh
        21
    ShiehShieh  
    OP
       2015-06-28 10:34:04 +08:00
    @ligyxy 嗯嗯,原来是国外的前辈。
    LeoQ
        22
    LeoQ  
       2015-06-28 10:55:25 +08:00 via Android
    我用过numpy和scipy的稀疏矩阵,算电力系统潮流。程序简单
    andyhenry
        23
    andyhenry  
       2015-06-28 12:39:13 +08:00
    v站似乎还是以比较传统的软件开发(含移动端)和网站构建为主。

    数据分析的结果的理解需要统计学(数学)的基础,不是所有有经验的相关从业者都能转入的。
    asan2006
        24
    asan2006  
       2015-06-28 12:42:47 +08:00 via Android
    一直用MATLAB
    ShiehShieh
        25
    ShiehShieh  
    OP
       2015-06-28 12:47:11 +08:00
    @andyhenry 嗯,我发贴前也猜大概是这个原因。不过我看过一篇datasciencecentral.com上的文章说big data对统计的要求相对没那么高的。
    andyhenry
        26
    andyhenry  
       2015-06-28 12:50:00 +08:00
    @ShiehShieh 我觉得也分具体方向,有的和统计学/数学基础关系不大,类似分布式处理那种的。
    staticor
        27
    staticor  
       2015-06-28 14:46:53 +08:00   ❤️ 1
    https://github.com/donnemartin/data-science-ipython-notebooks


    可以在这里找到自己的兴趣 然后一点点学。
    WildCat
        28
    WildCat  
       2015-06-28 14:49:48 +08:00 via iPhone
    金融专业的学生,买了一些书,感觉还是很难入门。
    其实主要是没找到兴趣点,觉得没有写 Web/App 有意思
    ShiehShieh
        29
    ShiehShieh  
    OP
       2015-06-28 14:51:45 +08:00
    @staticor 。。。谢谢分享。以前一直都是在看paper,还有各种工具的文档比如scikit-learn的。
    anzzi
        30
    anzzi  
       2015-06-28 15:09:25 +08:00
    路过一个用 MATLAB 学习算法,用 Python + Theano 做实验的。
    ShiehShieh
        31
    ShiehShieh  
    OP
       2015-06-28 15:25:48 +08:00
    @WildCat 我以前一直写Web,后来接触了Machine Learning以后就迷上了,好像跟你的兴趣正好反过来了。º.º
    jimmy66
        32
    jimmy66  
       2015-06-28 15:28:24 +08:00
    @staticor 非常感谢~
    WildCat
        33
    WildCat  
       2015-06-28 16:23:13 +08:00 via iPhone
    @ShiehShieh 问题是不知道做些什么呀?有什么初学者可以做的东西推荐吗?
    ShiehShieh
        34
    ShiehShieh  
    OP
       2015-06-28 17:37:22 +08:00   ❤️ 1
    @WildCat 我也是初学者,这个给不了建议啊。。。我倒是有自己找过数据集来玩。
    不过上面几位提到的资源都是可以利用的啦。比如kaggle,notebook那几个链接。
    icedx
        35
    icedx  
       2015-06-28 17:52:48 +08:00 via Android
    做Data Science 的一般都是研究生教授 未必是程序员
    而V2 都是程序员
    baka
        36
    baka  
       2015-06-28 20:15:22 +08:00
    大三的时候入坑,那时候深度学习开始火起来,自己很着迷,上ng的课,看李航的「统计机器学习」,也尝试着翻「PRML」;了解到计算神经这个作为dl发源的领域,于是研究生选择了neuroscience和vision相关的方向。
    然而大概大半年前决定从机器学习的坑里出来了,以为要真正深入地研究模型,读个phd会更好一些;
    现在更想结合模型做一些有趣的应用,这或许说明我并不适合research吧
    choicecheng
        37
    choicecheng  
       2015-06-28 23:14:37 +08:00
    目前在游戏行业做数据分析,非计算机非数学相关本科,想从事数据挖掘感觉有点虚。。。
    ShiehShieh
        38
    ShiehShieh  
    OP
       2015-06-28 23:58:20 +08:00
    @baka 嗯,我是有出国读PhD的打算,因为我想做Research。看了很多paper,的确,很多学术性很强的内容需要投入大量时间还有实验室设备支持。希望以后能够如愿从事Machine Learning的工作。
    zerh925
        39
    zerh925  
       2015-06-29 00:33:05 +08:00
    python,numpy,scipy,OpenCV开发工业自动化,机器视觉,机器学习。用得比较多。
    OpenNI,OpenGL,CUDA偶有涉猎。坑比较多。
    jyhmijack
        40
    jyhmijack  
       2015-07-01 14:23:04 +08:00
    送你个doge
    tikazyq
        41
    tikazyq  
       2015-07-07 01:02:25 +08:00
    我也用python,有时候R也会用到。但感觉python处理数据的速度比较快,处理量也比较大
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1126 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:36 · PVG 02:36 · LAX 10:36 · JFK 13:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.