首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

有个处理 csv 的问题,想了好几个晚上,都没有办法解决,请教各位

  •  
  •   kavana · 2018-05-10 06:27:54 +08:00 · 3817 次点击
    这是一个创建于 431 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个超过 256 列的 csv 表,大概在 800 多列,10w 行 另外有一张表,要匹配上面这个表中的部分字段,然后找出关键字对应的值,类似于 vlookup 这种功能 现在的情况是,通过 vlookup 也能找,但是花费的时间比较长,放到数据库里,光导入的时间就不是一点半点的 请教一下大家有没有什么好的办法?

    36 回复  |  直到 2018-05-12 09:55:47 +08:00
        1
    binux   2018-05-10 06:32:39 +08:00
    你排序了吗?
        2
    madNeal   2018-05-10 06:48:10 +08:00
    能不能希望查询的字段抽出来,写到本地 json 文件中,并且保存和 csv 的映射关系,这样找是不是会快一点。
        3
    AX5N   2018-05-10 07:23:14 +08:00
    能预处理转换成别的数据结构的话,那倒是有很多办法。不过估计跟直接导入数据库也差不多。
        4
    iceheart   2018-05-10 07:29:42 +08:00 via Android
    把小表读到内存里,对你要匹配的列建索引(就是建几个 map)。然后遍历大表,先匹配你的查找范围,再从小表的索引里查。
    应该用不上多少行代码
        5
    Boyizmen   2018-05-10 07:38:27 +08:00 via Android
    excel 功能挺强大的不知道转成 excel 格式来处理能不能满足你的需求
        6
    zk123   2018-05-10 07:38:38 +08:00 via Android
    用 ketttle
        7
    hrong   2018-05-10 07:51:51 +08:00 via Android
    赞同小表方案。

    另外,找找有没有可以高速探索 csv 的库,游标打开后前后移动的那种,这样从真实 csv 取数据不失性能也比较方便。
        8
    doun   2018-05-10 07:53:30 +08:00 via Android
    10W 行很大?导数据库不是随便折腾吗?或者 power query 了解一下
        9
    liuzhaowei55   2018-05-10 07:54:58 +08:00 via iPhone
    能否确定需要的列?在本地预处理 csv 文件,然后再上传
        10
    df4VW   2018-05-10 08:03:49 +08:00
    10w 行导入,考虑到比较长,就算个 2 分钟吧
        11
    McooLewis   2018-05-10 08:06:03 +08:00 via Android
    全倒进数据库不随便折腾?才多少东西啊导入就要好长时间。
        12
    SErHo   2018-05-10 08:24:52 +08:00   ♥ 1
    https://github.com/BurntSushi/xsv 知道有个这个工具,但是没用过,可以看看能不能满足。
        13
    mengzx   2018-05-10 08:28:42 +08:00 via Android
    excel 处理这点数据还是没问题的,不需要导入数据库,如果电脑性能差点可以考虑 excel 的 powerquery 处理
        14
    TimePPT   2018-05-10 08:36:43 +08:00 via iPhone
    https://github.com/dinedal/textql
    TextQL
    Allows you to easily execute SQL against structured text like CSV or TSV.

    另,Python 的话用 pandas 直接处理 csv 也很方便,就别导入数据库了
        15
    urmyfaith   2018-05-10 09:00:27 +08:00
    python 貌似很方便
        16
    mmd1989   2018-05-10 09:14:38 +08:00
    10W 行 EXCEL 就搞得定,用 index 配合两个 meach 函数,一定要用 lookup 的话用 lookup 函数,先排序再判断,Vlookup 的效率低很多
        17
    wqzjk393   2018-05-10 09:14:48 +08:00 via iPhone
    导数据库里吧,csv 比 xslx 这些都快,我导三四百 m 的 csv 到 access 都很快了
        18
    zhucegeqiu   2018-05-10 09:22:29 +08:00
    才 10w 行,用 pandas 吧,pd.read_csv,简单粗暴
        19
    abusizhishen   2018-05-10 09:26:10 +08:00 via Android
    7 秒导入 200w 行 load data infile 了解一下
        20
    expkzb   2018-05-10 09:32:28 +08:00
    用工具将 csv 转成 sqlite 不会花多久的
        21
    super452   2018-05-10 10:05:23 +08:00
    pandas 了解一下?
        22
    ourzhang   2018-05-10 10:38:11 +08:00
    外部表。。。
        23
    kavana   2018-05-10 11:42:02 +08:00 via Android
    @mengzx 谢谢啦
        24
    caryqy   2018-05-10 14:20:22 +08:00
    awk + grep 呢
        25
    thedrwu   2018-05-10 16:05:11 +08:00 via Android   ♥ 1
    10w 行的表,awk 如果写得高效,跑起来飞快。
    还能多进程并行!
    在几十个核心的服务器上跑个几秒就解决了。
        26
    Hopetree   2018-05-10 16:18:54 +08:00
    数据的东西交给 pandas
        27
    a132811   2018-05-10 16:47:47 +08:00
    才 10w 行,800 列,也没有多少数据嘛。
    简单的匹配 grep, awk。复杂点的匹配,就 python 等处理,很方便的啊。

    刚 python3 写了一个, 10 多行的事情:
    wget https://ahui132.github.io/bin/grepcolumn
    chmod u+x grepcolumn


    echo 'name=Jack,gender=male,job=coder' | grepcolumn - 'job,name'

    echo 'Jack,male,coder' | grepcolumn - 'job,name' -c 'name,gender,job'

    echo 'Jack||male||coder' | grepcolumn - 'job,name' -c 'name,gender,job' -d '||'
        28
    annielong   2018-05-10 16:57:39 +08:00
    看字段内容吧,如果是一般的字段,还是导入数据库方便,我曾处理过一次复杂文本的 csv,字段用逗号隔开,但是某个字段是富文本,里面一大堆换行 和逗号,不知道为什么用 Excel 引擎导入只能处理一部分,最后还是写个软件 处理后批量插入数据库
        29
    a132811   2018-05-10 17:15:05 +08:00
    csv 的话 pands 最方便:

    dataFrame = pandas.read_csv("./marks.csv", sep=",")
    dataFrame = pandas.read_table("./marks.csv", sep=",")
        30
    zynlp   2018-05-10 17:21:37 +08:00 via iPhone
    spss 了解一下?
        31
    zhangsen1992   2018-05-10 17:48:02 +08:00
    数据库操作
        32
    Hzzone   2018-05-10 17:51:28 +08:00
    像是中软杯(滑稽)
        33
    qianc1990   2018-05-10 18:12:18 +08:00
    10W 多行不算大,pandas 就可以处理
        34
    lance7in   2018-05-11 17:02:12 +08:00 via Android
    @thedrwu 这么好的工具为啥大伙都不用
        35
    guyskk0x0   2018-05-11 23:59:05 +08:00 via Android
    试试 apache drill,先把 csv 里需要的字段抽出来
        36
    xiaohanqing   2018-05-12 09:55:47 +08:00 via Android
    MySQL,loadCSV,6 百万行也是几分钟的事
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   837 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 22ms · UTC 20:27 · PVG 04:27 · LAX 13:27 · JFK 16:27
    ♥ Do have faith in what you're doing.