V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huzhikuizainali
V2EX  ›  Python

在本机用 Python 做数据挖掘,大家一般用什么数据库?

  •  
  •   huzhikuizainali · 2021-04-22 21:24:05 +08:00 · 2751 次点击
    这是一个创建于 1314 天前的主题,其中的信息可能已经有所发展或是发生改变。
    考虑到数据的安全性,排除租用云的情况。如果在本机做数据挖掘。大家一般用什么数据库?是 mysql ?还是 sql server ?(收费版? express ?)为什么?希望根据自己的实际工作需求,给出优点和槽点。
    16 条回复    2021-04-23 12:42:26 +08:00
    noqwerty
        1
    noqwerty  
       2021-04-22 22:01:56 +08:00 via Android
    SQLite 和 clickhouse😂
    hellogitooxx
        2
    hellogitooxx  
       2021-04-22 23:25:54 +08:00
    mysql
    vertigo
        3
    vertigo  
       2021-04-22 23:33:46 +08:00
    问就是 mongodb,自由的一批
    huzhikuizainali
        4
    huzhikuizainali  
    OP
       2021-04-22 23:36:42 +08:00 via iPad
    @noqwerty 求分享。和 mysql 对比如何?优势是什么? SQLite 和 clickhouse 中文知识生态如何?
    huzhikuizainali
        5
    huzhikuizainali  
    OP
       2021-04-22 23:37:33 +08:00 via iPad
    @vertigo 具体好在哪里。求分享。
    ipwx
        6
    ipwx  
       2021-04-22 23:42:38 +08:00
    做算法的一般不用数据库。。。。

    结构化的数据用传统数据库也没用(比如 Knowledge Graph 知识图谱)
    vertigo
        7
    vertigo  
       2021-04-22 23:43:46 +08:00   ❤️ 1
    @huzhikuizainali 如果只是本地挖掘,而不是生产环境批量搞.其实对数据的各种维度变化和存储结构变化更多(毕竟是随着想法变),例如分析一组消费数据,一会想存用户年龄,一会又想存用户留存.用 mongo 就直接在程序里加个字段即可(关系型数据库基本只能重新建表),同时因为本身的 bson 格式存储,可以直接扔各种 json 格式数据进去且方便多层检索.

    总体而言就是自由,轻量化,不会因为种种条框打断更重要的思考过程(俗称一把梭)
    huzhikuizainali
        8
    huzhikuizainali  
    OP
       2021-04-22 23:48:55 +08:00 via iPad
    @vertigo 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象。
    noqwerty
        9
    noqwerty  
       2021-04-23 00:14:52 +08:00 via Android
    @huzhikuizainali 这要看你数据量和结构,本地如果数据量不大的情况我个人认为没必要 MySQL/PostgreSQL,SQLite+pandas 足够应对大多数需求。

    提到 clickhouse 是因为我们之前的一组数据需要 columnar database,MySQL 超过 4096 列就不支持了。
    huzhikuizainali
        10
    huzhikuizainali  
    OP
       2021-04-23 00:49:41 +08:00 via iPad
    @noqwerty 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象
    knightdf
        11
    knightdf  
       2021-04-23 09:48:38 +08:00
    csv
    es
    buliugu
        12
    buliugu  
       2021-04-23 09:49:44 +08:00
    py 做数据挖掘用啥数据库?当然是 csv 啦(逃
    z740713651
        13
    z740713651  
       2021-04-23 10:34:27 +08:00
    csv +1 后面也可以对接 hdf5
    mongo 也很舒服
    丑 sql 真的好麻烦
    MinQ
        14
    MinQ  
       2021-04-23 10:57:53 +08:00
    csv+10086
    princelai
        15
    princelai  
       2021-04-23 12:09:13 +08:00
    我主要是时序数据,所以选择了 timescaledb,其实就是 postgresql 魔改版本,所以其他数据基本都入到我这个库里了,本地小数据我都用 pandas 输出为 parquet/feature,读写非常快,压缩比也很高
    leven87
        16
    leven87  
       2021-04-23 12:42:26 +08:00
    一般就是 CSV 就好,先数据清洗整理,生成一个符合要求的 csv,方便下次调用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1168 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 23:00 · PVG 07:00 · LAX 15:00 · JFK 18:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.