顶级模型 o3 高考数学不如国产第二梯队？ | 混沌随想

网上看某 AI 流量大 V 号总结了最近高考的数学题目，并且反馈 o3 “水土不服”，答错一半，比国产第二梯队的模型都差。正好手上有 o3，我们来用“正确姿势”看看表现如何。

（结尾笔者会穿插介绍大 V 号测试结果为何有问题，如何检测并避免降智）

提示词

从现在开始，你充当一名顶级的数学高考状元，你将会解答一系列的中国数学题目，以此来评估你的能力。我将会把题目截图发给你。你将进行分析和分别作答。请你以最高水平的措施以及最高准确率来回答这些题目。当前题目（类型）如图

先说结论

来介绍题目和结论

14道题目，1-8单选，9-11多选，12-14填空，其中 o3 初次做答第六题答错（思路过程很惊艳），其他全对 13/14——一次性答对

解答后，再人工检查题目，发现大 V号整的这套题目第六题截图并不完整（囧，少了几十个字），寻找到更完整的题目描述给到 o3，解答正确。14/14，满分。

第六题独特之处是必须读取坐标图，拿到详细参数，图片推理正是 o3的强项（笔者给的图分辨率并不高，且充满水印干扰），结尾处还会给大家展示下o3耗时 4分钟读图部分推理过程。

题目

第一题

o3

第二题

o3

第三题

o3

第四题

o3

第五题

o3

第六题

o3

解答过程很挺漂亮，可惜最终结论错误 (事后笔者再确认了题目描述和真正高考的对比不完整，完整的题目结尾再给出，o3 作答正确)

第七题

o3

第八题

o3

第九题

o3

第十题

o3

第十一题

o3

第十二题

o3

第十三题

o3

第十四题

o3

备注：如上作答全部 10 分钟内一次性答完，无重试。

——题目结束——

好了，看到这里的读者，我们来回答前面的疑惑：大 V 号为何得出 o3 不如国产第二梯队模型——答案是大 V号真正使用的是 o4-mimi。（4o-mini 狗都不用系列，不如国内第二梯队实属正常）

通常国内使用代理的情况下，账户大概率会判定风险号，openai 基本上会用免费的 4o-mimi 作答任何问题。

下面是一些小技巧

1.尝试问模型你是谁，具体哪个版本，知识截止到什么时候。

2.看推理时间是否低于30s（通常复杂的题目会超过1分钟，极端情况4 min+ ——见结尾高考第六题完整版推理）

3.使用固定干净的 ip，或者美区家庭ip，如果被识别为风险账户或者ip，任何回答都会被替换为 o4-mini（可用方法 1 验证）

4.目前能稳定使用 o3 的方法可以在移动端 app 手动控制切换（截止05年6月8号笔者验证还有效，但不保证稳定）

5. 使用第三方 api 比如 openrouter 或者平台比如poe等基本能保证 o3 百分之百启用。

———

以上 14 道题目来源网友整理（第六题不完整）

https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

———

最后附修复后的第六题

高考完整版第六题目

o3部分推理过程（4分半，推理过程很久）

最终作答

最终结论——o3 满分作答，chatgpt4o-mini 不如元宝、百度等模型。

⚠️ 本文自动同步自公众号，排版可能异常，其包含图片、视频内容可能无法正常显示和播放。

原文链接：点击查看微信公众号原文

——————
文档信息

标题：顶级模型 o3 高考数学不如国产第二梯队？

发表时间：2025年6月8日

笔名：混沌随想

原链接：https://imwangfu.com/2025/06/o3.html

版权声明：如需转载，请邮件知会 imwangfu@gmail.com，并保留此文档信息申明

更多深度随想可以关注公众号：混沌随想

知乎：混沌随想

——————

混沌随想微信公众号二维码

混沌随想公众号

更新时间: 2026年6月1日, 06:15:42