网上看某 AI 流量大 V 号总结了最近高考的数学题目,并且反馈 o3 “水土不服”,答错一半,比国产第二梯队的模型都差。正好手上有 o3,我们来用“正确姿势”看看表现如何。
(结尾笔者会穿插介绍大 V 号测试结果为何有问题,如何检测并避免降智)
提示词
从现在开始,你充当一名顶级的数学高考状元,你将会解答一系列的中国数学题目,以此来评估你的能力。我将会把题目截图发给你。你将进行分析和分别作答。请你以最高水平的措施以及最高准确率来回答这些题目。当前题目(类型)如图
先说结论
来介绍题目和结论
14道题目,1-8单选,9-11多选,12-14填空,其中 o3 初次做答第六题答错(思路过程很惊艳),其他全对 13/14——一次性答对
解答后,再人工检查题目,发现大 V号整的这套题目第六题截图并不完整(囧,少了几十个字),寻找到更完整的题目描述给到 o3,解答正确。14/14,满分。
第六题独特之处是必须读取坐标图,拿到详细参数,图片推理正是 o3的强项(笔者给的图分辨率并不高,且充满水印干扰),结尾处还会给大家展示下o3耗时 4分钟读图部分推理过程。
题目
第一题
o3
第二题
o3
第三题
第四题
o3
第五题
o3
第六题
o3
第七题
o3
第八题
o3
第九题
o3
第十题
o3
第十一题
o3
第十二题
o3
⚠️ 本文包含视频内容可能无法正常播放。
原文链接:点击查看微信公众号原文