[机器学习相关] 含有大量标签错误的数据如何建模？

我详细阐述一下，我这的应用场景是药物发现领域的分子（样本）在靶点的活性预测。比如我们测定大量的分子与靶点的结合信号，其中可能只有 1%的分子会出信号，出了信号的分子可能是潜在的活性分子，没出信号的分子大概率是没活性的。我们根据人工的经验会选择一些高置信度信号的分子进行验证是否有活性，验证成本很高，一般验证几十个样本左右，验证结果显示中只有 35%左右是真实有活性的。如果随机从出信号的样本中挑选，根据我们经验估计 true positive 的概率不会超过 10%。

也就是我们拿到 99%的负样本，1%的正样本（其中可能 90%左右就是 false positive ），目的建立模型挑选出 true positive

标签

错误

算法

数据

14 条回复 • 2023-02-17 09:55:40 +08:00

thinkershare

2023-02-16 14:52:28 +08:00

没啥好办法，我也想要支持知道。

leimao

2023-02-16 14:56:00 +08:00

0/1 二元分类，标签错误 90%
那你 flip 一下标签，标签正确率不就是 90%了么

leimao

2023-02-16 15:00:44 +08:00

我仔细看了下，你说的是 false positive 90%，不好意思。

leimao

2023-02-16 15:03:19 +08:00

好多年前碰过这个 loss function 对 noisy label 比较 robust 。
https://arxiv.org/abs/1805.07836
这些年可能还有新的进展。

TongDu

2023-02-16 15:24:27 +08:00

@leimao 谢谢你分享的文献，我复现一下试试。我后面再看看被引文献，应该可以找到更多研究结果。我以前没接触过这个方向，看到过一个用于回归任务的 robust loss function ，https://arxiv.org/abs/1701.03077 。

king888

2023-02-16 15:57:12 +08:00

当然是使用超能力，据时代周刊报道说 openai 是找非洲人工打标签的，每小时 2 刀

thinkershare

2023-02-16 16:01:49 +08:00

@TongDu 大部分技术手段都没啥用，我之前研究过，你这个只需要二分类，可能简单点，可以考虑使用元学习 /小样本学习试一试。不过问题一旦稍微复杂了，感觉还是要使用人工打标签才靠谱。

ml1344677

2023-02-16 16:07:30 +08:00

没法很好解决这个问题几乎跟没标注一样了

qzwmjv

2023-02-16 16:11:11 +08:00

false positive 你是怎么知道的？

wangritian

2023-02-16 16:27:00 +08:00

如果你有办法判断原数据错误，那你根本不需要做这个项目了[狗头]

NoOneNoBody

2023-02-16 17:24:21 +08:00

机器学习节点 https://www.v2ex.com/go/ml
Torch https://www.v2ex.com/go/torch
Keras https://www.v2ex.com/go/keras
……

还是没搞清这个 90%是怎么来的，有对照数据？还是有其他参考标准？

jamosLi

2023-02-16 17:27:22 +08:00

先聚类，再分？

raycool

2023-02-16 17:57:27 +08:00

对于有监督学习，FP 这么高，任何算法都无效吧，还是想办法标注比较好。

INFP

2023-02-17 09:55:40 +08:00

@qzwmjv

对啊，没有“正确”的 label 你怎么算出来 false positive rate 的哈哈哈。

anyway ，对于这种情况不建议做任何形式的 imputation 去补 label ，因为这样不过是在错误上构建错误，或者是在已知中预测已知。

建议考虑 unsupervised learning ，或者 semi-supervised learning 。比如聚类，比如在有一部分确定正确的 label 的情况下用 semi-supervised SVM 去建模，可能会比只用“确定正确”的小部分数据的 test performance 好一些，也肯能不如。