混沌福王

不会吹口琴的心理咨询师不是好的工程师

  • OpenAI o1 在自主代理任务中并未想象中强大

    尽管 OpenAI o1 preview 发布,引发了剧烈的媒体讨论,甚至提到“超越博士水平”的言论。这显然是一个误传。

    阅读更多 >
  • 如果将大模型用于黑客攻击?

    近被好友拉去参加一个类似 CTF 的理论加实践竞赛,期间发现 gpt 在这种场合出奇的强大。

    阅读更多 >
  • 重大更新,openai 开始打榜 swe-bench

    openai 开始关注 swe-bench ,并尝试打榜。

    阅读更多 >
  • 基于开源大模型的 Agent 如何自主完成需求—回顾

    近期大量时间都在聚焦基于 Agent 解决现实世界问题。这个想法最初来自 Devin 的出现,随后由普林斯顿大学大学发起的 swe-bench Can Language Models Resolve Real-World GitHub Issues? 引发了社区踊跃参与建设——用 Agent 方案以解决真实时间的软件 issue 问题。

    阅读更多 >
  • MOA架构,多个开源 LLM 协作可超过GPT-4o

    MOA架构,多个开源 LLM 协作可超过GPT-4o

    阅读更多 >