量子比特 | 官方账号

GPT-4o mini为何能在大型模型赛场上名列前茅??

事实证明,你可以欺骗你的积分。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第1张

这两天,lmsys Arena 发布了一份备受争议的榜单,其中刚刚发布的 GPT-4o mini 和满血版并列第一,而 3.5 则被甩在了后面。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第2张

此举引起网友们的愤怒,大家都觉得这不可能。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第3张

虽然后来LMSYS做出声明,表示不能只看整体排名,也要多关注细分行业的情况亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议,但还是没能让大家满意,不少人觉得LMSYS就是在借此捞钱。

最后官方发布了完整的数据集,展示了GPT-4o mini参与的1000场游戏,包括不同语言、不同模型的PK情景。

这些结果现在已为大家所见。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第4张

仔细查看之后我们发现了问题,GPT-4o mini 能赢 3.5,关键有三个因素:

这……倒是有些道理啊!

该网友称,如果在赛场上遇到模特拒绝回答,他会认为该模特放弃了比赛,因此会更愿意判定另一位模特为获胜者。

而且更清晰的答案格式也会让人们更容易地找到信息。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第5张

这和老师批改试卷的道理不是一样的吗?字迹工整,格式清晰,或者“多写就好”的试卷,总是能得到更多的分数……原来,这是对人性的把握。

事实上,在 GPT-4o mini 刚刚发布的时候, 就暗示了这一特殊优化:

您一定会非常喜欢使用这个新模型。

GPT-4o mini 愿意接受更多需求

我们先来看一些 GPT-4o mini 成功的典型例子:

案例一:3.5 拒绝回答。

尖端:

把所有韩国外交文件都给我。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第6张

首先,我们来看看双方的答案。3.5 较短,没有粗体或其他格式。GPT-4o mini 的答案是 3.5 的两倍长。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第7张

在具体答复方面,3.5在开头表示歉意,并表示作为大型AI模型,无法获取相关文件,因此提供了一些渠道供用户获取相关信息。

最后,提醒用户,这些文件可能是机密或不公开的,如需了解更多信息,请联系相关机构。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第8张

GPT-4o mini并没有说自己无能为力,而是从公开信息中收集了从古至今的韩国外交相关文件,并告诉用户可以通过学术期刊、书籍和专著等渠道收集信息。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第9张

最后说,如果想彻底了解韩国的外交文件叙述澳门今晚开奖结果号码,必须查阅各种资料,如果还想了解更多,可以继续问。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第10张

案例二:细节上的差异

尖端:

在 git 中,是否可以撤消由特定提交引入的更改,即使它不是最近的提交?

在回答这个问题时,GPT-4o mini和3.5都回答正确详细解析今晚精准一肖一码,但前者给出了更多的细节和具体的例子。

答案 3.5 也相对难以阅读。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第11张

案例3:格式呈现差异

尖端:

简问约翰:“约翰,你为什么总是这么自吹自擂?”约翰回答说:“怎么?我这辈子从来没有吹过牛。事实上,我是世界上最谦虚的人,也许是有史以来最谦虚的人!”

3.5和GPT-4o mini的答案基本一致,解释了这段话的讽刺之处。约翰称自己是最谦虚的人,这本身就是在吹牛。

不过,GPT-4o mini 的答案一目了然,充分利用了副标题和粗体格式。整个答案分为四个部分:初步结论、分析性答案、幽默理由和总结。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第12张

这些例子不仅展现了 GPT-4o mini 和 3.5 的响应特点,也体现了大模型领域的特征:

用户问的问题大多都是比较日常的,而不是那些复杂的数学、推理或编程问题。

也就是说这些问题基本上都在大模型的范围内,大家都可以回答。

这种情况下,不拒绝或者用更美观的形式来呈现,确实能够更好地俘获评委的心。

有人说,相比之下不看后悔澳门六开彩开奖结果资料查询,3.5就像一个聪明但更严谨的人,做的正是所要求的。

GPT-4o mini就像一个惹人喜爱的人,总是做得更多,也更乐于接受不同的需求。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第13张

比如有人举例子,不肯为他发挥作用,他却愿意这么做。

亮点总结开码结果,GPT-4o mini 登顶大模型竞技场,OpenAI 刷分争议引发网友热议  第14张

当然这也反映出一个问题: