请教，处理上亿条日志，每条 10+列，单机使用 Python 如何很好的处理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2824 天前的主题，其中的信息可能已经有所发展或是发生改变。

Python

日志

请教

处理

11 条回复 • 2017-07-03 12:23:36 +08:00

QQ2171775959

2017-07-01 23:09:11 +08:00

找个好点的服务器就可以了。多核心多线程就可以。。例如 16 核 32 线程的。

ldbC5uTBj11yaeh5

2017-07-01 23:10:32 +08:00

这种场景 awk 完爆 python

xiaomacai

2017-07-01 23:16:04 +08:00

补充：从提高效率的角度讲，使用 python 什么库或者什么语法糖更好一些

decken

2017-07-02 01:26:58 +08:00 via iPhone

这种量如果逻辑不复杂，不用太多考虑语言性能问题

liprais

2017-07-02 02:27:32 +08:00 via iPad

用 pyspark 很轻松的

laxenade

2017-07-02 02:52:59 +08:00

spark+1

herozhang

2017-07-02 03:38:41 +08:00 via iPhone

用 pypy 跑 python 脚本

sdshiyan2005

2017-07-02 09:00:16 +08:00

dask?

beginor

2017-07-02 10:45:21 +08:00 via Android

Spark+1

fiht

2017-07-02 10:52:43 +08:00

建议二楼的方法：使用 AWK+grep+管道，从运维工程师的角度来思考这个问题方便很多。
楼上刷 spark 有点不大好，楼主要是会 spark 就不会来这里问了....现学 spark 显然是来不及的。
关于效率其实一次性处理的东西和效率也没什么关系，cat today.log | awk '{print $3}' >> column3.log，一般也没有多少效率上的问题，使用 Python 还得处理内存上的东西。
如果硬要考虑 py 的话，你解决了大文件读取时候内存问题就好了，multiprogress 倒也不大好用，处理大文件时候很大以部门场景是内存不如文件大，一次 load 进来内存就得 gg。
用 AWK 吧，本来就是为了解决这个问题设计的。
另外，说到日志想安利一发 ELK 框架，做起统计报表什么的很能忽悠人

wangchen

2017-07-03 12:23:36 +08:00

这个可能会帮到你： http://www.rankfocus.com/use-cpu-cores-linux-commands/。