V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Kaiv2  ›  全部回复第 1 页 / 共 20 页
回复总数  387
1  2  3  4  5  6  7  8  9  10 ... 20  
17 天前
回复了 nightnotlate 创建的主题 随想 你有想过远离互联网吗
巧了,最近也看
21 天前
回复了 name1991 创建的主题 Firefox 现在用 firefox 的人还多吗?
切换到 firefox 好几年了
22 天前
回复了 y99c11 创建的主题 问与答 我是不是有点恶毒了
偏题了还是说说:居民区的路,就应该单独弄个车道,区分人行道,非机动车道。
牛的,多亿点 LSP 功能,这样 vim 上也能用上
别来害新手
39 天前
回复了 rzdCG 创建的主题 程序员 有老哥们分享一下 nvim Java IDE 的方案吗
@Kaiv2 添加了支持 spring yaml 文件提示的插件 https://github.com/JavaHello/spring-boot.nvim
@noahlias 很准了
用户平均支付时间 30s
44 天前
回复了 ztfot 创建的主题 Apple 关于 iPhone mirroring 的使用场景?
等出来后用着试试就知道了
49 天前
回复了 duhb 创建的主题 问与答 请各位大佬们帮忙起个名字?
男:杜里里
女:杜嘉里
@Kaiv2 写着写着写成了单机的,这么做多此一举,太蠢了。。。应该是 分 hash-3.1 .. n.txt 多个机器同时处理,然后合并重复数据 hash-4.1..n.txt
1. 先计原始文件 a.txt 算每一行 hash 保存到 hash.txt 文件
2. 复制一份 hash.txt -> hash-2.txt 用于去重计算
3. 取 hash-2.txt 文件中 10000(这个数根据内存大小预估) 个 hash 前 8 位不重复 hash_array_8
4. 重复的的写入 hash-4.txt, 剩于的写入 hash-2.1.txt -> hash-2.txt , 循环处理直到 hash-2.txt 没有记录
```txt
let limit = 10000; // 控制内存使用
let hash_array_8 = [];
let cache_line = []
for(let h_line: read_line(hash_2.txt)) {
if(hash_array_8.size < limit) {
if(!hash_array_8.has(h_line.sub(8))) {
hash_array_8.add(h_line.sub(8))
}
}
if(hash_array_8.has(h_line.sub(8))) {
if(cache_line.has(h_line)) {
write(hash-4.txt);
} else {
cache_line.add(h_line);
}
} else {
write(hash-2.1.txt);
}
}
mv(hash-2.1.txt, hash-2.txt)
```
5. 得到 hash.txt 跟文件一一对应,hash-4.txt 是重复的记录
6. hash-4.txt (如果重复的不多)直接读取到内存,对应读取 a.txt, hash.txt 每一行,比较 hash 重复跳过,不重复写入 b.txt
没有考虑过计算量,内存不够可以考虑试试这个办法
@iOCZS ... 服了这脑回路,“剥夺了别人进步的路线”?
公司机房服务器打补丁,你可以要求留下来值班。
分配任务时,如果你觉得你可以做,你可以要求做。

这个是你可以主动的,不是逼迫你做事情
1  2  3  4  5  6  7  8  9  10 ... 20  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1921 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 46ms · UTC 00:41 · PVG 08:41 · LAX 17:41 · JFK 20:41
Developed with CodeLauncher
♥ Do have faith in what you're doing.