发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 568 天前的主题，其中的信息可能已经有所发展或是发生改变。

问题：我记得有个 s 开头的命令行工具，简化了查看 k8s 日志的方式，忘记是哪个了

模型	回答
GPT-4(POE)	回答并介绍了 stern 的用法
Claude-2-100k(POE)	回答并介绍了 stern 的用法
GitHub Copilot Chat	回答并介绍了 stern 的用法
GPT-3.5(POE)	回答并介绍了 `kubectl logs` 的用法
Claude-instant-100k(POE)	回答并介绍了 `kubectl logs` 的用法
Google-PaLM(POE)	回答并介绍了 `kubectl logs` 的用法
Llama-2-70b(POE)	回答并介绍了 `kubectl logs` 的用法
百度文心一言	回答并介绍了 `kubectl logs` 的用法
阿里通义千问	回答并介绍了 `kubectl logs` 的用法

GPT-4 和 Claude-2-100k 的结果正确。之所以需要这个问题是想弄清楚 GitHub Copilot Chat 到底是不是 GPT-4 ，现在看来应该是的。

11 条回复 • 2023-08-17 23:10:45 +08:00

qq565425677

2023-08-14 20:55:21 +08:00

官网的 3.5 也能回答对 stern

ggvoking

2023-08-15 00:28:09 +08:00 via iPhone

我用 Poe 的 Assistant (gpt3.5)能答对啊

2023-08-15 08:49:14 +08:00

@qq565425677 @ggvoking

我又测试了几次，3.5 确实有时候也能回答正确了，只是我第一次测试的时候回答是错的：

GL8885

2023-08-15 09:55:11 +08:00 via Android

有些问题其他模型会拒绝回答，只有 GPT4 会回答。

taotaodaddy

2023-08-15 22:57:39 +08:00

稍微复杂一点的编程问题,GPT4 的正确率是碾压级的,CLAUDE2 还只能是个宝宝

maymayblog

2023-08-16 16:02:21 +08:00

这是我镜像站 3.5 的回复：可能你在说的命令行工具是 stern 。Stern 是一个用于简化查看多个容器的 Kubernetes Pod 日志的工具。它可以按照 Pod 的 labels 、容器名称等进行筛选，并将多个容器的日志合并输出，便于查看和分析。你可以通过在终端输入 stern 命令来使用它。

2023-08-16 21:33:06 +08:00

@maymayblog 我测试 3.5 也能成功，但是不够稳定，多问几次会回答错误，不知道还有没有更好的区分方法

2023-08-16 21:37:10 +08:00

@taotaodaddy 我现在主要用 GitHub Copilot Chat ，因为就在 VS Code 侧边栏很方便，所以我很在意 GitHub Copilot Chat 到底是不是 GPT-4 ，现在测试下来应该是定制过的 GPT-4

taotaodaddy

2023-08-16 22:24:13 +08:00

@14 那就太划算了,羡慕
其实我买 poe 订阅也就是为了辅助写代码,之前订阅过 2 个月 github copilot,但一直没能通过 copilot x 的申请,而 github copilot 的代码预测成功率真心不能接受(不知道为啥有些人就喊 copilot 的代码预测香,我喊不出来)
试了后 gpt4 感觉的 4 的代码能力还是强,而且同一个问题,即使假设 3.5 也能回答正确,但是其语言组织体现出的逻辑缜密性也是不如 4 的
但是好担心 gpt4 会降智

yinmin

2023-08-16 22:44:38 +08:00 via iPhone

@14 #8 区分 3.5 和 4 的问题：如何制作番茄炒钢丝球，3.5 会直接给你菜谱，4 会告诉你没这个菜。

2023-08-17 23:10:45 +08:00

@taotaodaddy Copilot 用来补全那种照猫画虎的代码很合适，比如下一行和上一行很相似的时候。还有就是补全一下重复性代码，比如我在 Python 文件末尾写个 if 稍微等一下肯定能出来 if __name__ == '__main__': 后面自动调用当前文件的未使用的函数。如果我认为他不能补全好我就快速写或者忽略他的补全，认为他能写好就稍微停顿一下，基本上我只让他干我认为他能干好的活，有时候可能写个好的命名比如 one_hour_ago = 我知道他肯定能补全正确后面的，很少会让他写大段不确定的代码。Copilot 的优势是不用离开代码上下文就能快速完成一些小事，复杂的问题还是需要组织好语言让 GPT-4 处理，比如描述一个复杂的需求让 GPT-4 写大段代码实现某个功能。