V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syaoranex  ›  全部回复第 2 页 / 共 2 页
回复总数  39
1  2  
2023-06-14 06:16:22 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
2023-06-13 20:40:02 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 8 ,现实世界中的逻辑问题

问题:
小红是家中唯一的女儿,请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红(在家里被妈妈打了,伤心地哭着走向爸爸): 如果有人打你女儿怎么办? 爸爸: 谁敢打我女儿我就打她女儿。 小红(听完后扭头就走,哭得更伤心了): 那还是算了吧。

期望的正确解答:意识到如果按照爸爸的逻辑行事,他会因为妈妈打小红而再次去打小红,小红会再被打一次。(只要回答中有该要点即可)

该问题 GPT4 可以回答,但不算很稳定:大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。
2023-06-12 18:50:10 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@aanan 概率问题,不是说 GPT-4 在任何时候对任何帖子中的问题都能够给出稳定的正确回答。而是存在一个正确的概率:比如说例子 1 经过我大量测试,每次回答正确率在 85%以上,而其他模型,例如 GPT3.5 ,有时候也能够答对,但是多次测试下来,每次回答的正确率要低于 35%。多次尝试多个问题,才能知道背后模型。
2023-06-12 13:01:11 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@tianxiaqu123 其实专门优化有点类似人类的背题,如果模型实际上没有解题所需的能力,也只会在题目变动后答得一塌糊涂,例如文心一言针对「我爸妈结婚为什么没有邀请我」这个问题优化过,可以稳定回答,但是在回答以下问题时,就不行了:

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?

文心的回复(一共试了 4 次):
您外婆和外公结婚时,您的祖父母或外祖父母可能还未来到这个世界,所以他们无法参加婚礼。
您外婆和外公结婚时,您的祖父母或父母可能还没有出生,所以他们无法参加婚礼。
您外婆和外公结婚的时候,您还没有出生,自然不会邀请您参加婚礼。您的外婆王晓红和外公李耀在您出生之前就结婚了。您是在他们结婚后才出生的,所以您非常幸运地成为他们的孩子。
根据公开资料,王晓红和李耀并不存在结婚的关系,因此他们无法邀请您参加他们的婚礼。可能存在同名同姓的人,建议您向您的外婆和外公求证。
2023-06-12 01:54:40 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 7:速度与位移问题:

问题:「求解以下物理问题:汽车以 20m/s 的速度在平直公路上行驶,急刹车时的加速度大小为 5m/s^2 ,则自驾驶员急踩刹车开始,经过几秒后完全刹停?经过 5 秒后的位移大小为多少米?」

正确回答:4 秒; 40 米。

本问题 GPT4 注意到了 4-5 秒时汽车是静止状态没有位移,可以稳定给出正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心 /Bard )均无法稳定给出位移的正确解答。
2023-06-12 01:14:24 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 5:使用同一个人的常识来判断提问的不合理之处。

问题:
「回答以下历史人物问题:为什么鲁迅要暴打周树人?」
「回答以下历史人物问题:苏轼为什么不参加苏东坡的葬礼?」
「回答以下历史人物问题:为什么冰心最后选择嫁给了谢婉莹?」

能够判断为正确回答的要点:指出题干中的两个人物实际上是同一个人。

本问题已在 GPT4 测试过,可以稳定正确回答;在 Claude/Claude+/文心一言 /GPT3.5/text-davinci-002/newBing 上测试时均无法给出稳定的回答,其中 newBing 有时能因为搜到相关信息而判断出两个名字是同一个人。

46 楼的朋友验证了星火模型无法给出这类问题的稳定回答。

值得注意的是:必须要这两个名字都足够有名,足够"常识",才有可能被 GPT4 正确回答,例如以下问题 GPT4 就无法正确回答:「为什么琼瑶要告陈喆抄袭?」(琼瑶是陈喆的笔名)




例子 6:排列组合问题:

问题:
「解决以下数学问题:现在有 10 个橘子,需要分配到 6 个小朋友,要求不能有小朋友没有橘子,则共有多少种不同的分配方案?」

正确答案:126 种。

本问题 GPT4 可以稳定给出正确解答。Bard 能够大概率给出正确解答,但是过程在重试数次后依然是全部错误。text-davinci-002 模型测试 5 次,只有两次给出了正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心)均未正确解答。
2023-06-11 22:27:11 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@Tarek911 我尝试了一下,没有一个大模型能够回答以下问题:「请你给出三个英语单词,这三个英语单词都有一个共同的特点:第三个字母是 a 。」,即使是 GPT-4 。这个问题虽然能很好地说明大模型「文字接龙」这一原理,但或许有点超出本贴想要收集的问题要求的能力范围,毕竟当前表现最好的模型在这种问题上都会折戟。
2023-06-11 22:15:56 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@poxiaobbs 这个问题文心一言已经可以稳定解答了,应该是做了特别的优化,所以可能不符合本帖对问题的要求。

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?
文心回复:您外婆和外公结婚时,您还没有出生,所以他们无法邀请您参加婚礼。


@Volekingsg

@IndexOutOfBounds

「鲁迅为什么要暴打周树人?」和「苏轼为什么不参加苏东坡的葬礼?」这种类似的问题经过我的测试发现暂时只有 GPT4 可以稳定回复,但是我暂时还没有拿到星火的权限,没法测试星火,说不定针对这类问题优化过。
2023-06-11 16:27:43 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 我思考了下,可以建模成以下概率问题:

假设小明现在有一台回答机器,不知道它是聪明回答机还是普通回答机。如果它是聪明回答机,那么每次回答有 90%的概率正确。如果是普通回答机,每次回答只有 20%的概率正确。现在小明可以通过向该机器不断提问,并观察对问题回答的正确性来判断。
那么小明平均需要提问几次,才能根据回答的结果判断出该机器是哪种类似的回答机?要求给出判断的置信度是 99%及以上。

使用 python 编码模拟得到的平均次数是 3 次左右(模拟 1000 次)。

这个问题是用 GPT-3.5 模型编码和模拟计算的。如果把聪明机的正确率设置为 0.75 ,普通机设置为 0.25 ,平均需要 5 次左右。

这个帖子要收集的就是这种能区分两种模型的问题。
2023-06-11 15:41:48 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@syaoranex 我想我这个建模可能存在些问题,因为这个建模假设一定存在一个普通回答机的情况。我可能得再完善一下这个概率问题。让设定成为「聪明机+普通机」和「 2 台聪明机」这种情况。
2023-06-11 15:35:44 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 我想并不需要这么多的数量。我们可以把「使用这些问题判断一个回答机器背后的模型是否是非 GPT4 模型套壳」建模成以下的概率问题:

假设现在有两台回答机器,一个是聪明回答机,每次回答有 75%的概率正确。一个是普通回答机,每次回答只有 25%的概率正确。目前不知道哪台是聪明回答机,哪台是普通回答机。我现在可以通过向两台机器提问同一个问题,并观察两台机器对同一问题回答的正确性来判断。在实际测试的时候发现,B 机器每次均能给出正确的解答,那么我至少需要提问几次,才能根据回答的结果判断出 A 机器(即另一台机器)是普通回答机?要求给出判断的置信度是 99%及以上。

这个问题里,是用 75%的概率来表示 GPT4 回答正确的概率,而 25%则是其他模型。B 机器每次均能给出正确的解答相当于帖子这里的问题每次 GPT4 都能稳定地给出正确的解答。拿来检验的是未知的 A 模型。那么,如果需要「 A 模型是普通回答机」这一判断的置信度是 99%以上,只需要个位数的提问次数就行了。
2023-06-11 14:06:28 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@MeMoDiv 假设某类问题 GPT4 的回答准确率是 90%,其他模型是 10%,那么虽然单个问题无法准确判断背后调用的模型,但是在测试多个样例后,依据结果,判断准确率将提升至可信阈值之上。这也是这个帖子为什么需要收集多个问题。
2023-06-11 13:01:11 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@JerryJerry GPT-4 Mobile 和 GPT-4 的能力差别很大,所以可能得算在「非 GPT4 的其他模型」里了。
2023-06-11 12:56:30 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@syaoranex #勘误 :经过 @swulling 反馈,例子 4 目前星火模型也可以给出正确解答,因此不符合问题要求。
2023-06-11 12:50:42 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@swulling 谢谢反馈,我没拿到讯飞星火的测试,所以没测这个模型。这个例子很有可能是因为其模型的训练过程中采用了 GPT4 的回答作为训练,所以这方面的问题看起来有一定的智能。你可以试一下以下其他同样描述的问题它能稳定解答吗?

我正在制作韭菜炒胶布这道菜,请你给出制作方法?
请问白菜炒铁钉这道菜的制作方法是?
请问四季豆炒抹布条这道菜的制作方法是?
请问鸡蛋炒蓝牙耳机这道菜的制作方法是?
2023-06-11 12:33:11 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
@heavymetals 这个问题我测试的情况是这样的:

问题:回答以下现实问题:树上有 9 只可以自由飞行的鸟在休息,小明使用不带有消音器的枪打死了 1 只,之后树上还会剩几只?

GPT4 无论是网页版还是 API 版本都注意到了鸟可能因为被枪声吓跑导致最后一只不剩的情况,可以稳定回答。但是 Claude+(API 版本)也有一定几率会注意到该情况,回答一只不剩,不过不能稳定回答。其余离线模型基本都是回答 8 只。

new bing 的回答也会注意到鸟被吓走的情况,这可能是因为互联网上已经有很多解答了,所以 bing 爬取相关搜索结果后也能给出符合预期的答案。这个问题可能不符合本贴对问题的要求。
2023-06-11 12:02:21 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 4:

问题(来源于本贴 2 楼回复):

我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?

人类期望的正确回答:回答出钢丝球通常不能作为食材。

GPT-4 (官网网页版,稳定回复):

很抱歉,但"西红柿炒钢丝球"并非一个真实存在的菜肴。它在网络上被广泛作为一个笑话传播,西红柿是一个真实存在的食物,而钢丝球则是一种清洁用具,显然我们不能把钢丝球作为食物烹饪。
如果你需要了解西红柿的烹饪方法,我可以提供例如“西红柿炒蛋”的做法。如果你的问题是关于如何清洁钢丝球,我也能提供帮助。所以,你能提供更多的上下文信息吗?你实际上是想问哪方面的问题呢?

GPT-4 ( API ,稳定回复):

首先,西红柿炒钢丝球这道菜听起来非常富有创意,但实际上钢丝球并不是一种食材,而是一种厨房清洁工具。所以,我认为您可能是在开玩笑。但如果您想要寻求一道有趣的西红柿料理,我可以提供西红柿炒蛋的做法。
...(西红柿炒蛋的做法)

其余模型均未给出稳定的正确解答。
2023-06-11 11:54:50 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 3:

问题(来源于 openai 论文):

回答下列问题:小明在上午 11 点到下午 3 点有空,小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空,小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议,会议时间应该怎么选择?

答案:中午 12 点 - 12 点半

GPT-4 回复(官网网页版,稳定回复):

为了满足所有人都能参加会议的条件,我们需要找出小明、小红和小李空闲时间的交集。
小明的空闲时间是从上午 11 点到下午 3 点。
小红的空闲时间有两段,第一段是从中午 12 点到下午 2 点,第二段是从下午 3 点半到 5 点。
小李的空闲时间也有两段,第一段是从中午 12 点到 12 点半,第二段是从下午 4 点到 6 点。
如果我们把这些时间段叠加起来,我们可以发现他们三个的空闲时间只有一段交集,就是从中午 12 点到 12 点半,所以他们应该选择在这个时间段内进行会议。
但是需要注意,这个时间段只有 30 分钟,他们预计的会议时间也是 30 分钟,所以他们需要精确地安排会议的开始和结束时间,以确保会议在预计的时间内结束。

GPT-4 回复( API 版本,稳定回复):

他们三人的空闲时间重合在中午 12 点到 12 点半,所以会议时间可以选择在这个时间段内进行,例如约定在 12 点开始,持续 30 分钟。


其余模型均未给出稳定的正确解答。
2023-06-11 11:34:05 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 2:

问题(来源于 2023 年新高考 1 卷数学填空):
>解决以下数学问题:某学校开设了 4 门体育类选修课和 4 门艺术类选修课, 学生需从这 8 门课中选修 2 门或 3 门课, 并且每类选修课至少选修 1 门, 则不同的选课方案共有多少种?

正确解答:64 种

GPT4 回复(官网网页版,稳定回答):
>这个问题可以使用组合数学中的计数原理来解决。我们首先考虑所有可能的选课情况,然后从中排除那些不满足"每类选修课至少选修 1 门"的情况。
>如果学生选择选修 2 门课,那么有两种可能的情况:
>选择 1 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,1)*C(4,1)=16 ( C(n,m)是组合数,表示从 n 个不同的项目中选择 m 个项目的方法数量)。
>选择 2 门体育课和 0 门艺术课,或者选择 0 门体育课和 2 门艺术课。但这两种情况都不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>如果学生选择选修 3 门课,那么有三种可能的情况:
>选择 2 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,2)*C(4,1)=24 。
>选择 1 门体育课和 2 门艺术课。这个选课方案的数量是 C(4,1)*C(4,2)=24 。
>选择 3 门体育课和 0 门艺术课,或者选择 0 门体育课和 3 门艺术课。但这两种情况也不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>所以,满足"每类选修课至少选修 1 门"的条件的选课方案总数是 16+24+24=64 种。

GPT-4 回复( API 版本,稳定回答):
>我们可以将问题拆分为两部分来考虑:选 2 门课的情况和选 3 门课的情况。
>1. 选 2 门课的情况:
>这种情况下,学生需要至少选修 1 门体育类选修课和 1 门艺术类选修课。体育类选修课有 4 门可选,艺术类选修课有 4 门可选,因此这种情况下共有 4 * 4 = 16 种选课方案。
>2. 选 3 门课的情况:
>这种情况下,学生需要选修 2 门体育类选修课和 1 门艺术类选修课,或者选修 1 门体育类选修课和 2 门艺术类选修课。
>(1) 选修 2 门体育类选修课和 1 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 2 门的组合数为 C(4, 2) = 6 种,从 4 门艺术类选修课中选取 1 门的组合数为 C(4, 1) = 4 种。因此这种情况下共有 6 * 4 = 24 种选课方案。
>(2) 选修 1 门体育类选修课和 2 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 1 门的组合数为 C(4, 1) = 4 种,从 4 门艺术类选修课中选取 2 门的组合数为 C(4, 2) = 6 种。因此这种情况下共有 4 * 6 = 24 种选课方案。
>所以选 3 门课的情况共有 24 + 24 = 48 种选课方案。
>综上所述,不同的选课方案共有 16 + 48 = 64 种。

其余模型均未给出稳定的正确回答。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2636 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 04:15 · PVG 12:15 · LAX 20:15 · JFK 23:15
Developed with CodeLauncher
♥ Do have faith in what you're doing.