V2EX › 9hills 的所有回复 › 第 39 页 / 共 354 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 35 36 37 38 39 40 41 42 43 44 ... 354

❮

❯

2016-09-08 13:15:44 +08:00

回复了 SeedMssP 创建的主题 › 推广 › 如何抓包分析报文防护 DDoS 攻击?

看完全文发现就是一个特征匹配。。和 ML 有什么关系？

2016-09-08 12:03:31 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

恰好前不久用 13 台机器+Spark 做了一个排序

100G 的原始数据，需要接近 40min
但是如果用分布式去重算法的话， 1min 以内

有的时候不能盲目 MR ，盲目 Spark ，不先自己思考下

2016-09-08 11:46:24 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 再说资源， lz 不过 1 亿条未去重数据，按照 hash 来说 8G 足够了。这个就是一个正确的解决方法

你说有其他解决办法， OK ， code 拿出来看看，在 8G 内存条件下，看谁更快

2016-09-08 11:44:30 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@Magic347 Talk is cheap ， show me your code 。

别 TB ， PB ，你就写个 3000w 行排序去重给我看看，呵呵

事实上，你以为 hash 不能分布式扩展？去重一定要排序？呵呵

2016-09-08 07:58:18 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

地图炮下，假如这是一个面试题目，凡是说排序的，统统不得分

做个简单的测试，首先生成 3000w 行随机数，去重后是 1000w
seq 1 10000000 > 1000w
cat 1000w 1000w 1000w > 3000w
shuf 3000w > 3000w.shuf

然后用 awk hash 的方法去做去重。结果如下

资源占用： 1G 内存， E5-2650 v3 @ 2.30GHz 一个核
时间消耗： 35s

$ time awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out
awk '{if($1 in a){}else{a[$1];print $1}}' 3000w.shuf > 1000w.out 34.12s user 0.95s system 99% cpu 35.107 total

说排序的，谁能用单机排序去重做到 35s ？

2016-09-07 18:18:20 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@9hills 这里有个错误， hash 表的大小是和最终去重后的条目有关的，和原始数据条目无关

2016-09-07 18:17:09 +08:00

回复了 zmrenwu 创建的主题 › Python › 1 亿条数据如何使用 Pandas 去重？

@xderam 用 awk 就行了，不需要 uniq 。因为原理是 hash 表

1 亿条数据（和大小无关，和条数有关）， 8G 内存应该差不多。 80B 一条，可能刚刚好

2016-09-07 18:13:40 +08:00

回复了 miaobug 创建的主题 › 程序员 › 今天突然思考了下在图片中藏信息的办法，没想出来。求大神们指导。

提高一下难度，怎么存储信息让图片打印出来依然不丢失信息

2016-09-07 16:54:53 +08:00

回复了 coltguo 创建的主题 › 问与答 › 猛然间发现 V2EX 都是 Python 的天下

因为只会 Python ，其他语言长时间不写都忘了

2016-09-07 16:53:28 +08:00

回复了 coolair 创建的主题 › Flask › Flask 不同文件夹下 model 的 class 名称相同，除了改名还有什么办法？

修改 tablename 如果我没记错的话，应该是在 model,类开头加__tablename__ ="xxxxxxx",

这样表名就不冲突了

2016-09-07 16:37:12 +08:00

回复了 shyrock 创建的主题 › 职场话题 › 另一个角度看 996

@flydogs 这个事实上还真是这样，加入 WTO 有个承诺就是实现双休日和有偿加班

2016-09-07 14:18:59 +08:00

回复了 Nexvar 创建的主题 › Docker › 多个物理主机之间,docker 怎么互联和交互的？

@Nexvar 我刚才翻了翻，找了一篇文章给你，有详细的对比

http://chunqi.li/2015/11/15/Battlefield-Calico-Flannel-Weave-and-Docker-Overlay-Network/index.html

2016-09-07 14:10:10 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@SmiteChow 我是前面一类，可能更加过一些。有些需求如果可以用非工程的办法解决，那就不用工程的办法。

再举个例子，比如某人做的答题卡识别的召回率比较低，只有 99.9%，也就是一千份卷子中的一份需要人工识别
而从 99.9% 改进到 99.99%，可能需要耗时一个 RD 7 个工作日，价值 3000 块。

但是卷子总量只有 100w 份，也就是人工需要识别 1000 份，随便招个临时工一会就弄完了，价值 300 块。

那我会选择 2 ，只有当 2 的成本大于 1 的时候，才会选择 1

2016-09-07 14:01:16 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@sgissb1 得了吧，就一个背后祥林嫂，还巴巴的不断回复找其他人的认同感，这是心理多脆弱。。

2016-09-07 13:48:42 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@sgissb1 80w /year 只是弥补和像你一样的同事共事的精神补偿金。

另外我终于发现我为什么看到这个帖子立刻很反感，细看了下，原来是喜欢背后同事坏话，这种很 Low 的行为，我只能希望你同事不上 V

2016-09-07 13:45:49 +08:00

回复了 Nexvar 创建的主题 › Docker › 多个物理主机之间,docker 怎么互联和交互的？

Overlay network ： Docker 最新版官方支持，基于 VxLan
Calico: 纯三层解决办法，简单好用性能好
Flannel ：基于 VxLan or UDP tunnel(把 UDP 当成 IP 层）
Weave ：同上，但是自己带了一个 DNS

我个人建议在 Overlay Network 和 Calico 中选择一个，使用 docker 的 network plugin

2016-09-07 13:35:39 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@canautumn 呵呵，你自己去看你的发言和我的留言

你的：答题卡识别是个科学问题，用 OpenCV 很快能写出来不错；

我的：答题卡的准确率 openCV 没有太大的问题，难点是召回率

哦，好像都省略了『 API 』，只允许你省略，不允许我省略

2016-09-07 13:15:35 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@canautumn OK ，你要认真，我可以给你详细写下，希望以后多学语文

OpenCV 自带的方法+简单的数学处理，就可以实现传统答题卡的高准确率识别，但是召回率需要各种优化

另外 OpenCV 不是一个框架，你可以理解是一个 interface 集合，和框架是完全不同的两回事

2016-09-07 12:52:16 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@canautumn 答题卡的准确率 openCV 没有太大的问题，难点是召回率

但是工程上是可以接受比较低的召回率的

2016-09-07 12:12:00 +08:00

回复了 sgissb1 创建的主题 › 程序员 › 若干年前有句话“干掉熊猫我就是国宝了”，现如今感觉历史在一天天重演

@sgissb1 另外既然您光临了我 4 、 5 年没更新的 github ，我也看了下您的发帖历史（有个帖子还有简历）
大概了解了技术水平，不过看这个帖子从开始就充满的那种奇怪的感觉，道不同不相为谋。

另外絮叨几句，工程实践就是在投入产出中进行平衡，你可以拿答题卡识别各种转进，找各种场景。但是实际上并没有任何的卵用，因为有更简单，更省成本的方案。

比如你说有人随便瞎涂答题卡，要如何如何识别。你知道以前我们高中怎么解决的么，答题卡上乱写乱画直接 0 分。

1 ... 35 36 37 38 39 40 41 42 43 44 ... 354

❮

❯