平台是如何知道是 AI 生成的文章？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 520 天前的主题，其中的信息可能已经有所发展或是发生改变。

比如某乎能提醒是 ai 答题。

看到别处的讨论：“ai 加速了互联网的速度，但是也制造了大量垃圾信息”，

百度和谷歌貌似都加入了关于 ai 内容的判断？

https://www.vincentschmalbach.com/google-now-defaults-to-not-indexing-your-content/

想问一下各位，是否知道平台判断的标准？能否破解识别是 ai 生成？

22 条回复 • 2024-07-26 17:36:03 +08:00

SiWXie

2024-07-24 12:01:35 +08:00 via iPhone

很简单，文本二分类问题，训练就好了，正确率颇高

Rheinmetal

2024-07-24 12:16:15 +08:00

21 年前的数据基本可靠然后就好办了

mirrornighth

2024-07-24 12:23:02 +08:00

直接将问题提给 gpt 然后比对回答？

deplives

2024-07-24 12:29:56 +08:00

ai 生成的内容还是有很显著的特点的，训练一个模型去判断正确率应该很高的。

rekulas

2024-07-24 13:12:51 +08:00

上面几楼的思维还停留在 22 年吧？现在 ai 内容要么很难识别（微调过的，不是直接生成），要么把人类的误认为 ai 写的，而且越往后难度越大，openai google 这些大佬都做不出来精确识别的

rekulas

2024-07-24 13:13:50 +08:00

另外知乎这个提示 ai 的也很水，经常把人写的也给你提示 ai 说白了识别到就是瞎猫碰上死耗子

e3c78a97e0f8

2024-07-24 15:04:54 +08:00 via iPhone

@rekulas 不能精确识别和不能识别是两回事

ChristopherCheng

2024-07-24 15:42:47 +08:00

我觉得这种识别很傻逼，也没有必要。
因为针对任何问题的回答最重要的就是能不能解决问题，之所以 AI 写作存在就是因为大部分人不会提问，提问的是宽泛的问题，而不是具体的问题，这就给了 AI 自说自话的机会。
人类越会提问，提出的问题越具体，就能实际看出 AI 到底是个什么水平。
反过来说，如果一个平台充斥着大量乏乏而谈的回答，既可以说是真人回答的，也可以说是 AI 创作的，这个平台本身价值也不大了，比如知乎。

murmur

2024-07-24 15:43:34 +08:00

为什么要判断，ai 写的比小编写的好多了

ray2023

2024-07-24 16:21:31 +08:00

这个不是答题者自己配置的吗, 在创作声明那里能选择"包含 AI 辅助创作"

lichdkimba

2024-07-24 16:32:50 +08:00

训练一个 ai 来判断 ai 的文章，再训练一个用来判断 ai 判断 ai 文章准确性的 ai

InkStone

2024-07-24 16:51:18 +08:00

LLM 本身就有判断 LLM 生成文章的功能。

不过之前就有过邪道，在富文本里用人类看不到的形式写下对 LLM 的 prompt ，引导它在分类时输出“是人类写的”这样的结果。

archxm

2024-07-24 16:55:01 +08:00

反正知乎上，排版清晰，图文并茂，基本就是垃圾营销文了。
管他是不是 ai 生成呢。
我在想，能不能把 ai 融入 adblock

rekulas

2024-07-24 18:01:54 +08:00

@e3c78a97e0f8 如果要咬文嚼字，确实可以这样理解，但你如果实现一个准确度 50%左右的硬币正反面预测器，这跟随机有什么区别吗，而现在所谓的 ai 预测就是这样的，基本跟随机没多大区别

hxscript

2024-07-24 20:40:51 +08:00

AI 不 AI ，可能不是 google 评价内容的好坏的标准；有很多做 SEO 的就是 AI 生成的，照样几百万流量。

关键是，内容对用户有没有价值、google 是否认为这个页面提供的信息，对整个 google 系统，是有信息增量的（ Information gain ）

zhishi69

2024-07-24 22:09:35 +08:00

我也在思考这个问题，知乎在 gpt 刚出后没多久就有检测的系统，只要是 gpt 原封不动搬过去的，知乎可以检测的到，现在论文也可以检测到 AIGC 率，gpt 写的论文检测系统就会查到

potatowish

2024-07-24 22:49:08 +08:00 via iPhone

@hxscript 最近 google 自己都在搜索结果里加 AI 搜索内容

R4rvZ6agNVWr56V0

2024-07-25 04:54:01 +08:00

检测的要点：行文准确无误。
Prompt 对抗：适当加入语句不通顺的口语化表述方式、emoji 表情以及混乱的标点符号。

EndlessMemory

2024-07-25 10:14:19 +08:00

gan 网络

enjoyCoding

2024-07-25 17:04:16 +08:00

知乎是有创作声明的, 写文章和回答问题得时候要表明包含 AI 生成内容, 其他平台不了解

e3c78a97e0f8

2024-07-26 13:34:06 +08:00

@rekulas “而现在所谓的 ai 预测就是这样的，基本跟随机没多大区别”这个说法并不对。我都能一眼看出来很多文本是 AI 生成的，要训练一个 precision 在 50%以上的模型不是什么难事。

rekulas

2024-07-26 17:36:03 +08:00

@e3c78a97e0f8 如果你指的是 55%的话，目前来说还是有可能达到的，但想达到 60 甚至 70 就很难了，因为一旦识别敏感度调高，对人类作品的误判率极速上升，以至于很难进行商用，我为什么敢这样说，因为试过用各种各样的 ai 鉴别，要么识别率低，要么误判率高，而且 ai 水平还在不断进步，难搞