V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
jakeyfly
V2EX  ›  Python

关于 Python 适合数据分析,有一事不解

  •  
  •   jakeyfly · 2018-12-18 14:10:37 +08:00 · 3257 次点击
    这是一个创建于 2161 天前的主题,其中的信息可能已经有所发展或是发生改变。
    不是说专业的数据分析都要上 SPARK 吗? pandas 都只是玩具。
    那 python 不是就没用了? spark 不就得上 java 或者另一个叫啥的语言
    15 条回复    2019-01-03 23:05:46 +08:00
    holajamc
        1
    holajamc  
       2018-12-18 14:18:56 +08:00
    巧了最近也在看 Spark,不如看看官方文档?-> https://spark.apache.org/docs/latest/quick-start.html
    richzhu
        2
    richzhu  
       2018-12-18 14:20:49 +08:00   ❤️ 1
    兄弟,玩什么不重要,重要的是你玩的怎么样
    devqin
        3
    devqin  
       2018-12-18 14:26:57 +08:00
    https://spark.apache.org/docs/latest/api/python/index.html

    最新版 2.4.0 Spark Streaming 也可用 python。
    andylsr
        4
    andylsr  
       2018-12-18 14:27:47 +08:00 via Android
    看你数据量,市面上几千条数据也拿来分析的~有必要 spark 么,
    kzfile
        5
    kzfile  
       2018-12-18 14:38:23 +08:00
    这个就看实际的需求环境了
    yab119074412
        6
    yab119074412  
       2018-12-18 14:54:56 +08:00
    spark 也有 Python 版的 pyspark
    janxin
        7
    janxin  
       2018-12-18 14:59:29 +08:00   ❤️ 2
    pyspark,另外也取决于数据量

    是时候拿出这个文章了了 Don't use Hadoop - your data isn't that big https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

    当然,老外也有可能没见识,不知道我天朝的大数据
    ftexplore
        8
    ftexplore  
       2018-12-18 15:43:42 +08:00
    python 适合数据分析的原因是,很多非计算机领域的大牛,例如数学家,他们用 python 比较顺手,所以有大量的 lib 可以用
    mwiker
        9
    mwiker  
       2018-12-18 15:51:51 +08:00
    另一个叫啥的语言:scala。因为 spark 是由 scala 编写的,用 scala 支持更多的 api。不过熟悉 python 的用 pyspark 也可以了。
    yak9dd
        10
    yak9dd  
       2018-12-18 16:06:40 +08:00
    python 只是接口,把数据灌倒 spark,flink,tensorflow 里跑。python 真的很慢,但其处理数据的简洁性使得绝大部分数据处理框架都是 Python 接口
    yanzixuan
        11
    yanzixuan  
       2018-12-18 16:58:16 +08:00
    pandas 难道不专业?数据量少用 pandas,数据量大用 dask,数据量很大用 spark。
    cyspy
        12
    cyspy  
       2018-12-18 17:14:13 +08:00
    pyspark+numpy 是常用做法。
    fyxtc
        13
    fyxtc  
       2018-12-18 17:31:10 +08:00
    有时间纠结工具,不如先找一个上手试试
    visitantzj
        14
    visitantzj  
       2018-12-18 22:14:05 +08:00
    python 数据分析有优势的是大数据 /ML 这些离工程领域近的生态圈强,单纯说数据分析语法上没有 matlab/r/julia 这些适合,用 python 经常感觉脑子里要想一想语法 namespace 之类的,不像那些语言思维那么流畅。
    googlefans
        15
    googlefans  
       2019-01-03 23:05:46 +08:00 via iPad
    spark 要多大量级的数据?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   941 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 19:50 · PVG 03:50 · LAX 11:50 · JFK 14:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.