上一篇《跨到 2025》 (opens new window),结尾曾简单聊到AI如何影响我们的日常生活,但2024年不仅仅是生活层面的变化,而是一个 LLM 继续加速的年份。 闭源领域 openai 和 claude.ai 相互竞争, 开源领域 qwen 和 llama 无疑是明星产品, 其他还有大量诸如 deepseek、Mistral 等在开源和闭源领域同时深耕的公司, 2024 的竞争非常白热化,gpt4 级别模型能力不再被垄断。 从行业视角来看,我认为,还有一些技术和事件的意义非常重大。 本篇笔者试图回顾那些标志性事件,并深入其中和自己最相关两个方向的看法。
如果要从2024年AI领域的关键词开始,我的第一选择一定是MOE(Mixture of Experts)。2023年初,OpenAI被传言在GPT-4中试用了MOE技术。这种技术听上去近乎完美——通过混合多个专家模式的方式,让大模型仅调用最需要的部分参数,大幅降低计算成本。然而,这一传言始终未能被证实,于是MOE更多停留在一个“概念”的层面。
真正让MOE走向大众视野的,是2023年12 月底Mistral开源的8x7B MoE模型。那时候,X (原推特)被一条磁力链接刷屏。几乎所有关注AI的从业者都在讨论——MOE不再是一个传闻的概念,而是一种可以在社区中落地的技术。
随后,开源社区变得更加热闹。2024年初,国内公司开始快速跟进,deepseek开源了国内首个MOE模型;不久之后,Qwen宣布支持MOE架构。到2024年6月,腾讯推出了当时全球最大的MOE模型 Hunyuan-Large,整个行业对MOE技术的认可达到了高潮。
MOE的意义在于它直接极大缓解了大模型的资源瓶颈——“用更少的资源,完成更大的任务”。这一点,不仅对模型技术结构创新重要,对于大模型降低成本大规模普及非常重要。
如果说MOE是2024年的效率革命,那么多模态就是体验革命。回想一下,你第一次使用GPT-4o是什么时候?对我来说,那必定是让人兴奋又略有遗憾的体验。
OpenAI的GPT-4o带来了真正的大规模多模态能力——文本、图像、视频,全都囊括其中。人们热烈讨论它科幻电影Her一样的语音助手功能,而我也对这一功能充满期待。然而,OpenAI的市场策略却 “备受批评”, 虽然高调宣布了Her的高级语音功能,但一直延迟面向公众开放,直到2024年年中才逐步放开。
多模态技术最大的突破,在于它不仅能够“读懂”文字,还能理解复杂的图像信息。传统的OCR技术,只能提取出一段图片中的文字内容,而GPT-4o却能读出上下文的意义——比如图像中的场景、逻辑,甚至推断出其潜在的用途。这相当于给大模型赋予了“眼睛”。
更令人值得关注的是,这一领域迅速形成了开源闭源竞争格局。谷歌的Gemini与Meta的Llama 3、Qwen等都加入了战局,多模态AI已经不再是 openai 独有技术,而是一场巨头间的竞争。可以预见,多模态的能力将彻底改变人机交互的体验。
早期的 chatgpt 最大的问题就是推理能力弱,特别是在数学领域倍受质疑。 o1 模型,这是一种全新的推理范式:不再是简单的生成,而是通过在模型真正输出内容前,有一个内部的自我反馈与试错,完成复杂的推理任务,最终再返回给用户。
第一次体验o1模型的预览版时,我的感受其实并不特别深刻。它的某些能力还不如GPT-4,回答编码能力也不如 claude 3.5 。然而,随着最近正式版的 o1更新,我感觉出 “思维链”真正展现出了潜力, 它确实可以更精准地解决一些逻辑问题,包括编程领域也能比传统模型更精确的发现细节问题,随着使用频率增加,我发现 o1 确实比 gpt4-o等模型更“聪明”。但在纯粹的文本生成,o1依旧非常生硬,这种专注推理,而不仅仅是生成一段好听的文字,被视为“推理模型”。
这一技术浪潮很快席卷了开源社区。国内的Qwen团队发布了支持推理任务的qwq模型,DeepSenK也推出了推理能力增强的DeepSeek-R1,至于 openai 最新的至于 o3 其高成本模式下可以解决数学领域的难题,一直被陶哲轩点赞。这种推理能力的进步,意味着AI开始迈向“精确决策”的时代——对许多复杂场景来说,我认为这是一种真正的质变。
回顾 2024 年,“成本” 是不可忽视的主题。这一年,大模型成本显著下降。OpenAI 的 GPT-4o 相较于 GPT-4,API 成本降低了十倍以上,国内厂商更是在价格战中实现了 90% 以上的降幅。这里原因有在算法上的优化,也有大模型蒸馏技术的成熟。
成本的下降对行业意义重大,但目前来看,成本仍是 LLM 落地的重要障碍。市面上低价模型多为 7B 或 14B 参数规模,能力有限。而像 Qwen-72B 这样的高质量大模型,其 API 费用依然较高,每百万 token 通常需要几元到几十元不等。笔者曾用 Qwen-72B 官方 API 测试代码自动化推理,仅几个小时便花费了几十到上百元。如此价格,难以支撑数千万甚至上亿用户的高质量需求。当前,GPT-4 级别模型的 C 端用户成本每月会员定价都到上百人民币(比如openai和cluade.ai的会员), 宣称免费版本则多为小参数模型。
除价格外,推理速度的限制也严重影响用户体验, 我测试过许多低价 API 因推理速度过慢,实际难以实用。而推理速度和模型高成本的根源,归结到底是底层芯片的高价。英伟达凭借其算力芯片支撑了行业发展,也维持了其巨大的市值。 未来,GPU 能否进入“白菜价”时代,将决定 AI 是否能真正普惠大众。
2024 年初我介绍过,Prompt提示词技术。不是简单的 “一句提示词”,而是各种框架、可视化工具、编码平台、编排工作流、 知识库等提示工程系统。 如果在 2024 年初这些工具还是非常薄弱,那截止 2024 年底,基于提示词的工程生态逐渐成型,大部分个人开发者和企业都己经开始接受并重视这种工程能力。
面向 C 端用户,典型的比如 Coze 等让提示词应用进入小白化,甚至不少提示编排应用作者能以此获利。 面向开发者的工具更是百花齐放,从国内的 dify 到海外的 langFlow、 llamaIndex 等都提供了非常稳定的功能,在开源和闭源领域上各自占据相应的市场。
提示工程的生态非常重要,想要让 LLM 应用的构建像下饺子一样快速产生,比如拥有提示词管理、流程编排、记忆管理、知识库管理等各种成熟的配套工具,但目前仍然只是初步生态,在易用性和成熟度上仍未取得很好的进展。
这一年, Agent技术(如自动化任务代理)在学术界和工业界得到了广泛的实验性探索,它能够在无需人类干预的情况下,跨多个系统和数据源完成复杂任务。2024 年上半年 swe-bench 的发布是一个关键节点,这是用于衡量 Agent 模拟人类程序员在开放软件领域的效果。自从普林斯顿发布这一指标,并给出 swe-Agent 方案后,上半年各类软件 Agent 层出不穷,它们大体都是模拟人的思路不断以迭代、试错的方式去完成需求和解决 bug。到了下半年,openai 也加入了这一战场,并提供了一个优化版本的 WE-bench Verified,,用于评估推理模型 o1。
除了软件智能体外,用于完成人类通用认为的智能体也不断探索,比如 claude.ai 发布 compute use 模拟人类操作电脑, 随后 google 在发布会也演示了类似的概念。openai 则计划发布 “Operator”的自主计算机控制代理。截止 2024 ,自主决策通用 Agent 目前停留在“探索”阶段,实用性仍然待提高,这里既有成本的考虑,也有性能的问题。
笔者上半年的精力在提示工程编排系统,下半年则投入在自主决策的 Agent 探索。不得不在深入回顾下这些技术的应用和局限。
提示词工程化不等于应用产品化。工程化的目的是提高系统的可复用性、产品化是提供用户价值性。 我们从目标用户的视角出发,哪些人会用提示词编排平台,哪些人不会用? 对于大多内部系统, 第一直觉用户会是开发者。 但我们发现在一些早期 LLM 应用落地的时候,开发使用可视化的编排系统意愿并不强烈,甚至会出现抵触,原因是基于裸写代码是更符合习惯,可视化平台反而需要一定学习成本。另外一个视角则是,很多开发者都有一种 “掌控” 程序逻辑的偏好,将编码逻辑置于外部系统,相当于自己失去了代码的灵活控制权,很多优化无法有效进行。
当然,这表面上看是一个内部系统使用意愿的问题,本质是产品本身能否提供更高开发效率的问题。
比如,对于一个简单的提示词应用,直接手写一个 prompt ,直接调用 LLM接口即可,中等复杂的提示,则是基于之前的结果进行串行链式再调用,一个熟悉编码的人,手写一段类似逻辑非常快,并无太多难度。在更复杂的如知识库 RAG等场景,知识拆解、检索查询、召回等有大量优化问题,可视化平台无法提供最新的策略。也就是提示词工程平台并不一定能给开发提高效率,对于一些特定场景可能是负担。
如果我们给运营和产品同学使用呢?提示词编写涉及大量提示词优化,链式调用可能涉及 HTTP请求、数据编码解码问题,实际上,不具备软件工程能力的产品很难胜任这类平台。
所以,我认为当下,在企业内部系统构建类似的内部平台,要慎重考虑。内部系统和面向 C 端系统的重要区别在用户量,前者是用户量少且重复应用场景非常少,后者用户量非常大,重复应用场景大,工程抽象的价值也大。我们虽然构建了平台,但应用产品的本身价值才是用户价值。
在当下阶段,对于一个中等规模的企业内部,最重要的仍然是发现 LLM 本身的应用能力,直接给用户带来价值的 LLM 工具,而不是构建 LLM工具的工具。 (备注: 这一结论是和笔者在 2024 年初的一下观点 (opens new window)是相反的)
但这并不代表大模型提示词工程工具没有意义, LLM 工程化形态不断在进化,提示词编排不是全部,诸如向量库、RAG知识检索、chatbi 等各种其他工具能力都值得考量。
这里我借鉴了 claude.ai 他们的一个年度回顾观点,其中提到。
LLM并不是构建最复杂的系统, 而是关于根据你的需求构建正确的系统
在构建 Agent 技术,笔者颇有感受。 2024 年学术界和行业出现各种层出不穷的 Agent 技术,他们大多在追随一些指标的性能。 但实际上,在产品落地到特定领域的时候,我们可能有更高效和更敏捷的方案。
比如定位一个确定上下文的代码报错,通常只需要把相关行数给到大模型,而非需要运行复杂的 Agent 策略。 在一些特定场景,人类知晓其最佳运行流程以及确定的逻辑,那通过提示词编排 workfolw 就能解决,并且达到更精确的效果。
也就是通用 Agent 不应该一开始成为目标,应该优先考虑特定领域的大模型策略。只有当特定领域无法解决,能明确 Agent 能提升效果才引入到系统。这个想法似乎不符合软件设计领域的通用性,这是目前的 LLM 模型成本和性能限制导致的。 传统的软件设计通用性是 100% 精确的逻辑,而在特定领域用通用的大模型 Agent 策略, 意味着更高的不确定性(幻觉、试错),以及更高的成本。
什么场景下适合用 Agent 策略? 在不能预测将要进行的步骤、以及无法进行硬编码的开放式问题。这类问题比如定位一个上下文未知的 bug,探索一个未知系统等。
在 C 端领域,日活最高的几个大模型知名应用,如ChatGPT、Bing、perplexity等属于聊天和搜索等通用应用;垂直领域的明星有 Canva 、Cursor等,前者基于AI推出了一站式的AI设计创作工具套件,后者围绕 AI ,提高了软件编码的的效率。
企业 B 端的应用场景基本围绕特定垂直领域提供 AI能力,典型的有智能客服,检索问答,数据分析,内部代码生成等。这些领域都属于 AI增强型,即在传统应用形态下,用 LLM增强智能化。垂直领域的智能化价值非常明显,它以一种点对点、而非通用的方式提高办公效率, 未来这种增强还会持续扩大,并形成企业内部 LLM 强化的应用群。
而Agent技术虽然在2024年取得了突破性进展,但离真正的 "替代人类"还有很长的路要走。 人类世界的复杂性操作不仅仅涉及简单的 “知识和推理”,更多是困难在于人与人协作,人类工程师会主动和产品了解项目,和开发交接人反复讨论细节,甚至参杂大量人类情绪因素。在通用 Agent全自动化过程中, AI 会缺失大量 “人性” 的东西,它不可能简单的替代人,但我们的工作方式肯定会因为 Agent 能力的强大而被改变。
结尾时,笔者再提一个使用 windsurf 以及 cursor 策略。 在大多数软件任务中,我会尽可能的这样使用 AI 。(windsurf 和最新 cursor是分别两款有 Agent 能力的IDE)
先提供多的XXX上下文,然后再补充一句:”请你解决该任务,当你发现解决该任务的相关背景和上下文不够足以解决该问题,请你主动向我请求你需要的内容,直到你认为得到了解决该问题的全部资料。“
Agent 模式下,AI 会自动分析项目,当发现解决不了,还会像我请求,最终我提供信息给 AI ,笔者大多软件编码问题,都是 AI 自动完成的。
个人认为,在Agent 领域,未来有两个明确方向,第一是底层LLM以及 Agent 能力越来越强大。 另一层是在产品设计上, 正如我在使用各类AI工具时的体会,最理想的状态是AI能主动交互、反复核验、精准理解,但同时保持人类在决策链条中的主导地位。
LLM技术的发展不应该是简单地追求"全自动化",而是要找到AI与人类协作的最佳平衡点。在这个过程中,降低使用成本、提升推理能力、优化交互体验都是重要点。而对于开发者和企业来说,如何在通用性和专用性之间找到平衡, 如何让AI真正服务于具体的业务场景,可能才是更值更多的探索和实践。