pzhdfy 最近的时间轴更新
pzhdfy's repos on GitHub
Java · 6 人关注
incubator-druid
Apache Druid (Incubating) - Column oriented distributed data store ideal for powering interactive applications
Python · 2 人关注
ChinaUnicom-NetSpeed-Client
A cross-platform and open source replacement of China Unicom Net Speed Client
CSS · 0 人关注
2048
A small clone of 1024 (https://play.google.com/store/apps/details?id=com.veewo.a1024)
0 人关注
982092332-qq.com
test_module
Objective-C · 0 人关注
BatteryQuery
此项目用于iOS设备的电池信息查询(请注意!由于此项目动用了私有框架,因此几乎上不了App Store!)
HTML · 0 人关注
bigdata-ecosystem
BigData Ecosystem Dataset
JavaScript · 0 人关注
blink
Blink Mobile Shell for iOS (Mosh based)
C · 0 人关注
cachemaster
Cachemaster is similar to VMTOUCH, but with more functions. Such as kick page cache, warmup/readahead data, lock data in mem, stat page cache, stat page cache in realtime mode, by file or directory~ Personally, I think the most usefule function is real-time-statistic of page cache. You can see the page cache thrashing when kernel do page reclaiming.
0 人关注
charybdefs
ScyllaDB fault injection filesystem
C++ · 0 人关注
ClickHouse
ClickHouse is a free analytic DBMS for big data.
0 人关注
cmake-examples
Useful CMake Examples
0 人关注
converthouse
A distributed scheduler for CK using Prophet
0 人关注
datasketches-cpp
Core C++ Sketch Library
CoffeeScript · 0 人关注
dispatch-proxy
Combine internet connections, increase your download speed
Python · 0 人关注
gcrawler
A lightweight crawler framework using gevent.
C++ · 0 人关注
HeiBaiQiWithAI
HeiBaiQiWithAI writen in QT4
JavaScript · 0 人关注
How-To-Ask-Questions-The-Smart-Way
本文原文由知名 Hacker Eric S. Raymond 所撰寫,教你如何正確的提出技術問題並獲得你滿意的答案。
0 人关注
incubator-doris
Apache Doris (Incubating)
Objective-C · 0 人关注
IOKitBrowser
Hardware Browser for iOS
0 人关注
jvm-tools
Small set of tools for JVM troublshooting, monitoring and profiling.
0 人关注
linux-insides-zh
linux内核揭密
JavaScript · 0 人关注
loveyue
loveyue系列1到8的源码
Python · 0 人关注
luigi
Luigi is a Python module that helps you build complex pipelines of batch jobs. It handles dependency resolution, workflow management, visualization etc. It also comes with Hadoop support built in.
Python · 0 人关注
mortar-luigi
Mortar extensions for Luigi
0 人关注
pcstat
Page Cache stat: get page cache stats for files on Linux
Swift · 0 人关注
Potatso
Potatso is an iOS client that implements Shadowsocks proxy with the leverage of NetworkExtension framework in iOS 9.
HTML · 0 人关注
pzhdfy.github.io
0 人关注
rust-in-databend
Rust 培养提高计划, 感谢 Databend 社区 支持https://github.com/datafuselabs/databend
Python · 0 人关注
salary_ke
岁岁有余
0 人关注
shadowsocks-java
shadowsocks server base on netty4 , tcp & udp full support,
pzhdfy

pzhdfy

🏢  快手 / 大数据架构师
V2EX 第 86161 号会员,加入于 2014-12-11 11:20:38 +08:00
hadoop生态开源贡献者
pzhdfy 最近回复了
这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个,PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv (或者更多,每个文件能载入内存就行)
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理,生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据,
所以只需要 10 组文件对比就行
195 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
满了
196 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
仅有最后一个了
196 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
还有 2 个车位
196 天前
回复了 Lexgni 创建的主题 iCloud iCloud 国区拼
@hyv2u 可以看下我发的车
2022-09-30 11:06:02 +08:00
回复了 hhhhhh123 创建的主题 程序员 Python 读取 500M .pkl 文件,却用了 8 G 内存
@hhhhhh123
不是这样算的 openjdk 还是 c++写的呢
需要按照 pod 这类 c/c++原生内存布局才能省空间
cpython 的都是一堆对象,对象相互引用,每个对象额外的 overhead 特别大。
举个简单的例子 java 里面 int[] 和 Intager[] 的内存占用和计算速度差很大
2022-05-30 11:07:40 +08:00
回复了 2liuqi 创建的主题 上海 在上海的哥哥姐姐们,打算搞车的,你们都有意向搞什么车
北京的个人绿牌都已经排队到 45 年了
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5029 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 05:39 · PVG 13:39 · LAX 22:39 · JFK 01:39
Developed with CodeLauncher
♥ Do have faith in what you're doing.