本日,一家名为 Cognition AI 的初创新企业发布了他们的最新项目:首个 AI 软件工程师 Devin。
在他们的宣扬中,Devin 能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、实行代码、修复 bug 并完成任务,而且完成这些端到真个任务只需一个指令。
在 SWE-bench 基准测试中,Devin 能够办理 13.86%的问题,而 GPT-4 仅能处理 1.74%的问题。更主要的是,Devin 无需人工干预,而 GPT-4 则须要人工提示指定处理文件。
Devin 一发布,便引爆了全体科技圈。但在此之前绝大多数人可能根本没听过这家公司,毕竟他们两个月前,才真正在"大众面前亮相。然而这家仅有的 10 名员工的公司,从 Peter Thiel 的风险投资公司 Founders Fund 及其他资方(包括前 Twitter 高管 Elad Gil)处成功筹集到 2100 万美元。而他们所看中的,正是 Cognition AI 的创始团队及其紧张成果 Devin。
Devin 是一款类似于 Copilot 的软件开拓助手,但不同于由 GitHub、微软和 OpenAI 联手推动的后者,Devin 身上更有下一代 AI 编程方案的气质。Devin 不仅能够供应编码建议并自动完成部分任务,乃至可以独自承担并完玉成部软件开拓流程。其利用办法也相称大略,只需提交一项任务——比如创建一个网站,展示悉尼市所故意大利餐厅的舆图——该软件就会实行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin 还会列出它正在实行的所有任务,乃至在编写代码时持续测试,自行查找并修复 bug。
Devin 能做什么?
那么,如此强大的 Devin 都能做些什么?
总体而言,Devin 可以方案和实行须要数千个决策的繁芜工程任务。 Devin 可以回顾起每一步的干系背景,随着韶光的推移学习并修复缺点。
研发团队还为 Devin 配备了常见的开拓职员工具,包括沙盒打算环境中的 shell、代码编辑器和浏览器,以及人类开拓者完成事情时所需的统统其他工具。
末了,研发团队还授予了 Devin 与用户积极协作的能力。 Devin 能够实时报告协作进展,接管反馈,并根据须要与用户一起进行设计选择。
下列是 Devin 可以实行的操作示例:
Devin 可以学习如何利用不熟习的技能。
下列视频演示了 Devin 在 Modal 上运行 ControlNet,为 Sara 天生带有隐蔽的图像。
视频请到原文不雅观看
Devin 可以端到端地构建和支配运用程序。
Devin 制作了一个仿照生命游戏的互动网站,它逐步添加用户要求的功能,然后将运用程序支配到 Netlify。
视频请到原文不雅观看
Devin 可以自主查找并修复代码库中的缺点。
Devin 帮助 Andrew 掩护和调试他的开源干系编程书本。
视频请到原文不雅观看
Devin 可以办理开源存储库中的缺点和功能要求。
只需供应 GitHub 问题的链接,Devin 即可完成所需的所有设置和高下文网络。
视频请到原文不雅观看
虽然 Devin 能够出色地完成上述事情,但想要更清楚地理解其性能,研发团队在 SWE-bench 上评估了 Devin ,这是一个具有寻衅性的基准测试,哀求 Agents 能够办理 Django 和 scikit-learn 这类开源项目中真实存在的 GitHub issue 问题。
Devin 能够完备办理 13.86%的问题,远远超过了之前最前辈的 1.96%。纵然给出了须要编辑的确切的文件,之前最精良的模型也只能办理 4.80%的问题。
Devin 的评估是在数据集的随机 25%子集上进行的。Devin 是没有赞助的,而其他所有模型都是在赞助下进行的(意味着要见告模型哪些文件须要编辑)。
大家怎么看?
前特斯拉人工智能总监,OpenAI 的创始团队成员 Andrej Karpathy 认为这种自动化软件工程有点类似于自动驾驶技能。AI 做得越来越多,人类做得越来越少,但人类仍需供应监督。在软件工程中,进程正在形成类似下面的趋势:
首先,人类手动编写代码
然后,GitHub Copilot 自动完成几行代码
接着,ChatGPT 编写代码块
终极,代码差异会变得越来越大
Karpathy 强调,在 AI 部分之外,还有很多事情须要人类完成,尤其是在 UI/UX 方面。人类如何供应监督?他们关注的是什么?他们如何勾引 AI 走向不同的路径?他们如何调试出错的地方?我们很可能会不得不大幅改变代码编辑器。
无论如何,软件工程即将发生重大变革。它将看起来更像是在监督自动化,同时供应高等命令、想法或进展策略。
OpenAI 员工 Jimmy Apples 对 Devin 的涌现感到震荡,他表示:“原以为这项技能会再有个两三年才能涌现,没想到到来的如此之快,现在才 3 月。”
Devin 的涌现让更多人意识到,没有什么事情是一定安全的,他们都有可能被 AI 替代。
有用户在 X 上发文称:“现在没有任何事情是安全的。如果你学习了三年,可能终极你还是无法找到事情。乃至在两年后,可能不再须要新的工人,由于一个工人加上 AI 可以一次性完成 10 到 100 个人的事情。可能现在已经完备自动化了。”
得到 10 块金牌的创始人,以及他们的独特技能方案
Cognition AI 公司拥有三位创始人,首先是 CEO Scott Wu,其二是担当 CTO 的 Steven Hao,而后是首席产品官 Walden Yan。Hao 此前曾担当 Scale AI 的顶级工程师,这同样是一家代价可不雅观的初创企业,专司 AI 系统的演习事情。Yan 则刚刚从哈佛大学退学,他哀求对此事保密,由于自己还没跟父母通过气。
今年 27 岁的 Wu 是 Neal Wu 的兄弟,Neal Wu 同样供职于 Cognition AI 公司。两兄弟都拥有极为出色的编程能力。Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的觉得。
还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频,在比赛中,Scott Wu 回答奥数问题基本不须要多少思考韶光,主持人念完问题,Scott Wu 立时能报出答案。
其余,创始人自述团队共有 10 枚 IOI 金牌。
Scott Wu 表示,这样的背景也让这家年轻的初创公司在 AI 市场上霸占了上风。他阐明称,“辅导 AI 成为一名程序员,实际是一个极具深度的算法问题,哀求系统做出繁芜决策、把握接下来的多个步骤,精确判断应该选择哪条路线。实在我们多年来一贯会在脑中推衍这类问题,现在终于有机会把干系思路编码到 AI 系统当中。”
Cognition AI 在设计 Devin 时的一大亮点,便是该公司在打算机推理能力方面取得了打破。从 AI 的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的办法思考并找到合理的问题办理方法。AI Land 认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技能能力。
从多个方面来看,Devin 彷佛的确远远领先于其他编码助手。用户可以哀求它直接处理自然措辞命令,Devin 则能够精确理解并完成这些事情。在运行过程中,Devin 还会展示它的开拓操持、当前利用的命令和代码。如果有些事情看起来出了问题,开拓者可以输入进一步提示以勾引 AI 办理问题,Devin 则持续调度并吸收反馈。目前大多数 AI 系统在此类长周期事情中都很难保持连续性与任务专注性,但 Devin 却能在不偏离轨道的情形下一口气完成数百乃至上千个任务。
在一些网友的个人测试当中,Devin 的确能够在 5 到 10 分钟内从零开始构建起网站,也可以在大致相同的韶光内开拓出基于 Web 的 Pong 游戏。期间虽然也须要人类参与过几次,通过提示改进游戏中小球运动的物理轨迹,此外还对网站外不雅观做出一点调度,Devin 则始终保持着礼貌的态度并顺利知足了测试职员的新哀求。
Silas Alberti 是一位打算机科学家,也是另一家秘密 AI 初创公司的联合创始人。他体验过 Devin,并盛赞其代表着一次技能飞跃。在他看来,Devin 的表现不像是 AI 助手在编写代码,而更像是有真人在处理手头的事情。“这种觉得有很大差异,Devin 是一套能帮我们干事的自主系统。”
Alberti 还提到,Devin 比较善于项目原型设计、修复 bug 并以图形办法显示繁芜数据。“大多数其他助手在四、五个步骤后就「断片」了,但 Devin 在全体事情流程中能够轻松自若地保持住思维主线。”
至少对外人来说,Cognition AI 在如此短的韶光内取得重大打破的办法仍旧是个未解之谜。Wu 谢绝透露太多关于该技能的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大措辞模型(LLM)与强化学习技能相结合的独特方法。“很明显,AI 领域的从业者们长期以来一贯在为此而努力。而精确的路线很大程度上取决于模型和方法,特殊是若何让各种要素恰到好处地折衷同等。”
Cognition AI 公司并不是唯一一家致力于构建 AI 编码工具的企业。就在上个月,初创公司 Magic AI 刚刚从 Daniel Gross 和 Nat Friedman 等人的风险投资团队处筹集到超 1 亿美元,旨在打造 Gross 流传宣传的“超级软件工程师”。与那些建立在 OpenAI、Anthropic 等大措辞模型之上的公司不同,Magic AI 选择从零开始设计自己的模型和其他底层技能,希望借此保障业务独立性。这家初创公司尚未对外展示其 AI 系统,因此我们很难将其与 Cognition AI 的产品直接比较。
Cognition AI 方面则谢绝透露 Devin 在多大程度上依赖于其他现有大措辞模型,以是哪怕是在详细实现方法上,我们也没法将二者进行比拟。
无论出自哪家企业之手,软件开拓职员都想知道这些新技能会不会威胁到自己的谋生饭碗,而行业不雅观察者们则好奇 AI 的参与能否颠覆全体软件开拓体系。我们有情由认为,这些编程助手能够把开拓职员从繁琐呆板的重复性任务中解放出来,让他们专注于更具创造性的事情。此外,脑袋里灵感不断、但苦于缺少编程技能的朋友们则可以借此开拓自己的网站、做事和运用程序。可话说回来,这些编程助手也可能消灭大量高薪开拓者岗位,彻底重塑全体软件行业的商业逻辑。
对付 AI 参与厂商及其投资方来说,Cognition AI 的横空出世也不一定便是一家独大的前兆。我们正处于探索 AI 编码能力及其技能将如何影响传统程序员们的早期阶段。可以想见,这将是一个充满激情与打破的生动领域,而 AI 编码也凭借其光明的出息与巨大的想象空间吸引到了环球许多最精良、最睿智的头脑。
原文链接:
90后华人团队真来砸程序员饭碗了?推出环球首个AI超级工程师:拥有全栈技能,一个指令就能完玉成部开拓过程_天生式 AI_Tina_InfoQ精选文章