这就有些意思了,openai 最新的一篇博客,公布了一些他们和 swe-bench 相关的一些东西。最新的 gpt4o(不确定是否发布),直接 Agentless (无工具调用)就超过了社区各种复杂的 Agent 方案。
swe-bench 是一个由社区驱动的,以评估 LLM (opens new window) Agent 系统解决真实世界问题能力的测试集 (opens new window)。
这些测试集中的每个示例都是根据 GitHub (opens new window) 上 12 个开源 Python 存储库之一中已解决的 GitHub 问题创建的。每个示例都有一个关联的拉取请求 (PR),其中包括解决方案代码和用于验证代码正确性的单元测试 (opens new window)。简单而言,就是用 Agent 模拟人类程序员,自动分析issue、找到代码,修复 bug,提交 diff (opens new window)。
由于笔者最近大部分时间在关注基于 LLM 解决真实世界的问题,一直在尝试各种各样的 Agent 策略,以提高性能。这个领域一直是被社区驱动,截止 openai 博客提到的8月5日的前,在 SWE-bench 上得分最高为 20%,在 SWE-bench Lite 上得分为 43% 。
大部分 Agent 策略都是使让模型调用各种工具,并思考做规划和行动等,构建这类智能体 (opens new window)通常工程工作非常繁琐。
openai 博客本次更新主要信息有两个:
2. 新的 gpt4o 在 Agentless 达到33%。超过社区构建的各种复杂 Agent 方案。
当 openai 开始关注 更上层的 Agent 应用,并从纯 Agentless(不依赖复杂的 Agent,纯LLM) 上做到了 top。这是不是意味着,底层模型一更新,基于模型的 Agent 方案就失效了,广大工程师和研究者所设计的各种策略就没有价值了呢?
首先,从实际结果上看,模型底层能做到这样的结果非常惊艳。但底座的能力提升和基于底层的 Agent 策略缺不冲突。使用逻辑推理 (opens new window)性能更的底座,构建到 Agent 会让系统整体更强。我们可以持续关注 swe-bench 来验证这一点(事实上,昨天最新的一个Agent genie,已经把榜单做到 50%,超过了openai 今天这篇博客 (opens new window)的数据)。
openai的博客也没有提到最新的 gpt4o 是否更新了到 api 接口中,如果一旦更新,社区将会继续用更强的接口,构建更复杂的 Agent。
这次更新,可能不会引起公众的关注,但对于在尝试构建 Agent 系统的人而言,是非常重要的信号。在用大模型解决现实世界真实问题的的过程中,基座能力和工程应用 (opens new window)是协同并进的。期待更强推理能力的模型出现!也支持投入大量精力去研究构建更复杂 Agent 方案。
openai 的博客: https://openai.com/index/introd (opens new window)