内容提要
6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。
据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。
近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应用创新正进入密集探索期,生怕同类型应用被业内其他竞争对手抢占发布先机。
分钟级即可完成应用开发
从阿里云方面的消息来看,此次发布的AI程序员,是基于通义大模型构建的多智能体,每个智能体分别负责具体的软件开发任务并互相协作,可端到端实现一个产品功能的研发,这极大地简化了软件开发的流程。
例如,在编码智能体中,AI程序员首创了代码仓库知识图结构,不仅能理解用户的需求,还能精准定位代码对应的修改位置并自动给出修改方案。
在大会发布现场,阿里云展示了以对话的形式,让AI程序员自主完成一款奥运赛事日程应用,从提需求到页面上线全程仅需10分钟。如果按照传统的开发方式,程序员需要先后完成网页开发、编写Python文件处理程序以及运行、调试、修改代码等工作,至少需要半天才能完成。
“辅助驾驶”转向“自动驾驶”
稍早前,阿里云于去年11月发布AI编程助手通义灵码。目前,通义灵码每日辅助开发者生成代码超3000万次。
业内人士指出,随着AI程序员的问世,软件开发逐步从“辅助驾驶”进入“自动驾驶”阶段。
“软件应用的开发范式正在发生改变,未来用户只需定义问题、提出需求,分钟级完成一个应用开发将成为常态。” 阿里云通义大模型业务负责人徐栋表示,通过AI编程助手和AI程序员的共同加持,每个人类程序员都将成为超级个体。
放眼全球,今年一季度, 初创公司Cognition AI也宣布,一位名叫Devin的AI程序员由该公司创造出来,世界上第一位完全自主的AI软件工程师由此诞生。
值得注意的是,随着大模型性能逐渐提升,AI应用创新正进入密集探索期,但推理成本过高依然是制约大模型规模化应用的关键因素。
今年5月21日,阿里云就宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。据了解,这款模型最高支持1000万tokens长文本输入,降价后约为GPT-4价格的1/400。
彼时,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光表示,阿里云这次大幅降低大模型推理价格,就是希望加速AI应用的爆发,“我们预计未来大模型API的调用量会有成千上万倍的增长”。
补充报道
记者在现场看到,仅需以对话的形式,AI程序员就能自主完成一款奥运赛事日程应用,从提需求到页面上线全程仅需10分钟。如果按照传统的开发方式,程序员需要先后完成网页开发、编写Python文件处理程序以及运行、调试、修改代码等工作,至少需要半天才能完成。
目前,哈啰集团已接入阿里云通义灵码专属版,AI代码采用率超过20%,还将通义灵码接入了自研“海螺机器人”,可实现智能代码补全、进行代码评审等。代码助手补全响应速度平均1.3秒,代码补全准确率为80%。在代码评审方面,每周180个应用通过AI完成评审,平均每周发现140个漏洞。
随着AI程序员的问世,软件开发逐步从“辅助驾驶”进入“自动驾驶”阶段。阿里云通义大模型业务负责人徐栋表示:“软件应用的开发范式正在发生改变,未来用户只需定义问题、提出需求,分钟级完成一个应用开发将成为常态。通过AI编程助手和AI程序员的相互协作,每个人类程序员都将成为超级个体。”
准确率是一个大问题
近一年来,大模型参与编程应用的程度越来越深,包括参与代码的辅助输入与续写、与人类进行自然语言交互等,都使得“低代码”的趋势越来越明显。
或许正是基于此,多位大模型创业者和专家也曾提出,程序员有可能在5年内失业。
但目前为止,大模型仍然是以“助手”的角色参与编程,成为人类程序员的日常工作流程之一。期待中的“写代码、搞开发”的功能始终没有出现突破,也自然不可能在短期内替代真正的程序员。
原因何在?AI大模型生成代码的准确率,首先就是一个重要挑战。
2023年,多篇论文研究数据显示,AI从事简单编程任务一次性生成正确的概率大约在50%左右,和掷硬币得到的正反结果概率差不多。
2023年5月,国外一组研究显示,模型的参数每提高一个量级,代码生成的准确率可以提高5%-10%左右。以此估算,模型参数规模至少达到10万亿级别,等于是现在的ChatGPT4.0的10倍以上。
而就算达到了90%的准确率,大模型依然难以取代代码的生成工作程序员。在实际的开发过程中,不太可能让模型生成大量代码后,再由程序员去甄别筛选。
果真如此,光是阅读、检验这些大模型生成代码的成本,就已经远远超过了实际雇佣程序员写代码的成本了,得不偿失。
AI至今不会逻辑推理
大模型写代码,其实并不是真的在“写”,而是根据人类指令在过往的数据库中作检索后对答案进行归纳整理。AI无法根据代码运行的逻辑,对这些代码进行核验。
换句话说,从思维与生产结构来看,AI大模型原理依然是归纳,而不是逻辑推理。
因此,单从原理来看,大模型与程序员“写代码”在生产逻辑上也是完全不同的。这也解释了,为什么AI当下可以写出非常“标准”甚至“简约美观”的代码,但其代码本身的运转却经常出现错乱等问题。
关于这一点,国外相关AI研究人员也有所共识。
例如,致力于在财务、医疗、数据处理等领域应用人工智能解决方案的公司业ABBY在此前接受采访时承认,即使用最先进的系统,也可能出现人工智能错乱或输出不准确的情况,因此,人工验证目前依然必不可少、至关重要。
网络上有程序员分享过用大模型来生产代码的体验,结果显示,写一个简单函数模块时,AI或许可以胜任,但当需要多个函数模块时,AI所生成的代码就容易出现各种BUG,无法使用。
而就算勉强可以运行,也过不了公司内部的代码评审。这就是因为,尽管AI可以通过海量的搜索归纳来试图在形式上满足写代码的需求,但因为无法理解多个模块之间的逻辑关系,因此,不可避免会出现逻辑性的错误。
将加速人才新旧淘汰
可以说,截至目前,人工智能作为编码助手,依然是程序员的辅助工具,是对人类程序员的效率放大工具,而不是互相替代的关系。
给“AI”一个正式员工的工号与称呼,也无法短期内改变其并非一个真正的员工的现实,更遑论要取代“码农”。公众所设想的AI全面自动化的情景,很可能短期内无法到来。
尤其是,有创造性与原创性,需要综合调动创意与逻辑能力来完成工作的岗位,很难被AI取代。
但不可否认的是,AI大模型作为一种效率工具,仍然将在可见的一段时间内加速人才市场的新旧淘汰。例如,一部分率先应用AI的高级人才的效率提高,同时也加速了另一部分人才的落伍和被淘汰。
与此同时,大量容易被替代的基础性机械性岗位,例如文案整理、日程助理、内容审核等岗位,也很容易率先被替代。
如何进一步在教育体系、人才培养、发展中全面重视与提升人才的创造性,才是AI对人类生产关系提出的新课题。需要迫切面对这一课题的,就不仅是“码农”们了,而是我们所有人。
版权归原作者 加百力 所有, 如有侵权,请联系我们删除。