顶级模型 o3 高考数学不如国产第二梯队?

网上看某 AI 流量大 V 号总结了最近高考的数学题目,并且反馈 o3 “水土不服”,答错一半,比国产第二梯队的模型都差。正好手上有 o3,我们来用“正确姿势”看看表现如何。

(结尾笔者会穿插介绍大 V 号测试结果为何有问题,如何检测并避免降智)


提示词


从现在开始,你充当一名顶级的数学高考状元,你将会解答一系列的中国数学题目,以此来评估你的能力。我将会把题目截图发给你。你将进行分析和分别作答。请你以最高水平的措施以及最高准确率来回答这些题目。当前题目(类型)如图


先说结论


来介绍题目和结论


14道题目,1-8单选,9-11多选,12-14填空,其中 o3 初次做答第六题答错(思路过程很惊艳),其他全对 13/14——一次性答对


解答后,再人工检查题目,发现大 V号整的这套题目第六题截图并不完整(囧,少了几十个字),寻找到更完整的题目描述给到 o3,解答正确。14/14,满分


第六题独特之处是必须读取坐标图,拿到详细参数,图片推理正是 o3的强项(笔者给的图分辨率并不高,且充满水印干扰),结尾处还会给大家展示下o3耗时 4分钟读图部分推理过程。


题目



  • 第一题

Image


o3

Image


  • 第二题


Image


o3

Image


  • 第三题



Image

o3
Image


  • 第四题

Image


o3

Image


  • 第五题


Image

o3

Image


  • 第六题


Image

o3

Image

解答过程很挺漂亮,可惜最终结论错误 (事后笔者再确认了题目描述和真正高考的对比不完整,完整的题目结尾再给出,o3 作答正确)


Image


  • 第七题


Image


o3

Image


  • 第八题

Image

o3

Image


  • 第九题

Image


o3

Image


  • 第十题

Image

o3

Image


  • 第十一题

Image

o3

Image


  • 第十二题

Image



o3

Image
  • 第十三题
Image
o3
Image

  • 第十四题

Image
o3
Image


备注: 如上作答全部 10 分钟内一次性答完,无重试。

——题目结束——

好了,看到这里的读者,我们来回答前面的疑惑: 大 V 号为何得出 o3 不如国产第二梯队模型——答案是大 V号真正使用的是 o4-mimi。(4o-mini 狗都不用系列,不如国内第二梯队实属正常)

通常国内使用代理的情况下,账户大概率会判定风险号,openai 基本上会用免费的 4o-mimi 作答任何问题。


下面是一些小技巧


1.尝试问模型你是谁,具体哪个版本,知识截止到什么时候

2.看推理时间是否低于30s(通常复杂的题目会超过1分钟,极端情况4 min+ ——见结尾高考第六题完整版推理  )

3.使用固定干净的 ip,或者美区家庭ip,如果被识别为风险账户或者ip,任何回答都会被替换为 o4-mini(可用方法 1 验证)

4.目前能稳定使用 o3 的方法可以在移动端 app 手动控制切换(截止05年6月8号笔者验证还有效,但不保证稳定)

5. 使用第三方 api 比如 openrouter 或者平台比如poe等基本能保证 o3 百分之百启用。

———
以上 14 道题目来源网友整理(第六题不完整)
https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

———
最后附修复后的第六题

  • 高考完整版第六题目

Image

o3部分推理过程(4分半,推理过程很久)
Image
Image
Image

最终作答

Image


最终结论——o3 满分作答,chatgpt4o-mini 不如元宝、百度等模型。


更新时间: