0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。
【新智元导读】谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。
【资料图】
我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。
这种自我修复背后的机制,究竟是怎样运作的?
对代码为什么是错误的,模型在多大程度上能提供准确反馈?
近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。
论文地址:https://arxiv.org/pdf/2306.09896.pdf
英伟达科学家Jim Fan强烈推荐了这项研究。
在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。
很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。
- GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。
- 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。
- 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。
- 基于专业人员的反馈,GPT-4本身能够编写更好的代码。
揭秘用于代码生成GPT修复
我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。
然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。
好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。
研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。
如图显示的是,基于自我修复方法的经典工作流程。
首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。
如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。
最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。
表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。
并且模仿人类软件工程师编写代码的试错方式。
然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。
而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。
目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。
研究人员提出了一个新的评估策略,称为
,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。
因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。
从实验中,研究者发现:
1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。
2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。
3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。
4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。
自我修复四阶段
自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。
阶段一:代码生成
给定规范
,一个程序模型
,首先生成
样本
用一个公式来表示:
阶段二:代码执行
然后在测试平台上执行
代码示例,并假设可以以可执行形式的访问完整测试集。
如果任何样本通过了所有的测试,就会停止,因为此时已经找到了令人满意的程序。
否则,收集执行环境返回的错误信息
。
这些错误消息要么包含编译/运行时错误信息,要么包含程序输出与预期不同的示例输入。
阶段三:反馈生成
在此,研究人员使用反馈模型来生成更详细的错误解释。
在这个阶段,为每个错误的程序生成
反馈字符串,
,如下所示:
阶段四:代码修复
在最后一步中,对于每个初始程序
和反馈
,
候选修复程序从
中采样:
研究人员称这个过程产生的交错文本和程序树修复树T
——植根于规范
,然后分支到初始程序
,每个程序分支到反馈
,然后修复
。
具体如图所示:
由于自我修复需要几个非一致成本的相关模型调用,在这种设置中,
(在
样本中获得正确程序的可能性)不是比较和评估自我修复的各种超参数选择的合适度量。
相反,研究人员将通过率作为从模型中采样总token数量的函数来衡量,将其称之为
的度量。
实验过程
研究人员又进一步针对3个问题进行了测试:
1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?
2. 更强的反馈模型会提高模型的修复性能吗?
3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?
首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。
这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。
研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。
研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。
下图为提示词的实例之一。
自修复需要强大的模型和多样化的初始样本
研究人员让单个模型分别进行代码的修复生成和反馈生成。
在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。
从图中可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。
而在GPT-4(下图)中,有几个值的自修复通过率明显优于基线。
下图是
和基线的无修复方法。
GPT-4反馈改进了GPT3.5的修复结果
研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。
这个实验的结果如上图(亮蓝色)所示。
在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。
这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。
人工反馈显著提高了GPT-4修复的成功率
在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。
研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。
研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。
每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。
每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。
然后,参与者被要求用他们自己的话解释这个程序做错了什么。
实验结果如下图所示:
研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。
不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。
作者介绍
Jianfeng Gao(高剑锋)
高剑锋是微软的杰出科学家和副总裁,也是IEEE Fellow。
在微软研究院,他是Redmond分部深度学习(DL)组的负责人。该组的使命是推进DL的最新技术,并将其应用于自然语言和图像理解以及构建对话代理。他领导了构建大规模基础模型的研究,这些模型为微软的重要人工智能产品提供了支持。
从2022年开始,他负责自我改进人工智能的研究,其中包括对LLM(如ChatGPT/GPT4)进行增强和适应,以用于商业人工智能系统的开发。
在此之前,他于1999年在上海交通大学获得博士学位。
Chenglong Wang
Chenglong Wang是微软研究院的研究员,此前在华盛顿大学获得了博士学位,并曾就读于北京大学。
参考资料:
https://twitter.com/DrJimFan/status/1675916565823516673
https://arxiv.org/pdf/2306.09896.pdf
标签:
推荐
- 0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!
- 光力科技:生产的空气主轴不能应用在机器人的减速器上-热门
- 看热讯:热情的暑假来了,全家自驾游出行就选面面俱到的别克昂科威Plus吧
- 15分钟内发生三起爆炸!美国警方悬赏捉拿袭击者-独家焦点
- 韩方:不会对福岛水产品进口禁令设定期限-环球热点
- 环球观速讯丨昼夜鏖战织“天网”!陆军某旅携手空军某部开展对抗演练
- 重点聚焦!中企承担的麦加轻轨实现安全满负荷运营
- 推动制造业可靠性提升 世界看热讯
- 多家银行打响理财产品费率“价格战”
- 双乐股份(301036):股价成功突破年线压力位-后市看多(涨)(07-04)|每日热闻
- 青岛今天阴有中雨转多云,局部有雾,市区最高气温30℃,最低气温21℃
- 片约不断,却演啥毁啥,《玉骨遥》这个“戏混子”该醒醒了
- 【环球时快讯】羽毛球训练方法李宗伟_羽毛球训练方法
- 当前动态:8名F1车手被罚,周冠宇排名由第14升至第12
- 当前热讯:致敬!平凡的英雄!
- 日检测能力将达23万管!福州启用海峡会展核酸检测基地 世界聚看点
- 同心战“疫” | 温暖随行 闽清县政协组织慰问一线抗疫人员-全球热点
- 热点聚焦:致敬!平凡的英雄!
- 同心战“疫” | 温暖随行 闽清县政协组织慰问一线抗疫人员 世界微资讯
- 日检测能力将达23万管!福州启用海峡会展核酸检测基地-世界新消息
- 鼓楼居民,好样的!-新视野
- 陪你站岗!“百姓抗疫力量”和连江志愿者的双向奔赴|天天热点评
- 鼓楼居民,好样的!-世界最资讯
- 当前信息:陪你站岗!“百姓抗疫力量”和连江志愿者的双向奔赴
- 前助手爆料:特朗普在海湖庄园餐厅展示机密文件 从不尊重机密信息
- 灯光之外的夜经济
- 世界微动态丨上海迪士尼买什么纪念品?上海迪士尼买了尊享卡还用买门票吗?
- 临港新片区2023年全球投资合作大会将于7月10日举行 世界观焦点
- 可转债市场首个退市整理期敲定 市场风格分化明显 环球视讯
- 环球微速讯:2023年纺织服饰行业中期策略报告 1Q23男装品牌业绩表现亮眼
- 最资讯丨盖洛普民调:七国集团中美英两国政府信心指数最低
- 抗议政府劳工政策及反对日本排污入海 韩国工会组织展开为期两周的大罢工-前沿热点
- 美国“毒”病难除丨经济下行禁毒未果 美国“毒品合法化”再度抬头 聚看点
- 国际锐评|阿根廷首次用人民币还外债说明了什么?_今日视点
- 埃塞俄比亚正式申请加入金砖国家合作机制 专家看好未来发展前景
- 龙华区心意答教育平台 心意答成绩查询龙华区 当前快播
- 世界要闻:接触器型号怎么看例子说明(接触器型号怎么看)
- 【世界速看料】海口建筑业数字化管理整体水平领先全省——项目建设“智造”尽显科技范
- 观察:鼓励女朋友的话
- 广西民族师范学院艺术类专业有哪些?
- 光线传感器有什么用(光线传感器是啥)
- 在香港维园感受未来城市
- 港铁启动“机场快线25周年”庆祝活动
- 全球新消息丨姗姗又能坐起来了(平行病历)
- 知识产权行使范围也有“禁区” 环球动态
- 每日看点!我国新能源汽车产量达到2000万辆
- 宁波银行:融资净买入2265.05万元,融资余额10.34亿元(07-03)
- 天天观焦点:南京产业人才新政,一图带你看!
- 世界播报:科达利(002850)7月3日主力资金净买入534.89万元
- 今日最新!大庆油田上半年油气生产均超计划产量
- 即时:7月4日生意社PP(拉丝)基准价为7164.29元/吨
- 焦点精选!日媒:岸田今天将与IAEA总干事会面,听取国际原子能机构评估报告
- 提出多项政治目标!韩国40万人大罢工“剑指尹锡悦”
- 中国驻中非使馆再次提醒中国公民:尽快撤离阿坝等高风险区域
- 韩政府:福岛水产品进口禁令没有期限 将实施至民众放心为止-世界今日报
- 伊朗外交部:将坚持伊核协议履约谈判进程
- 成贵高铁迎来开通一周年 成贵高铁12月16日全线开通运营
- 辅警情绪失控欲打骑车女子?山东聊城警方通报
- 【全球报资讯】Mysteel早读:多家钢厂发布检修计划,铁矿石到港量增加
- 法国骚乱使公共交通及商业面临巨大损失 焦点要闻
- 【世界聚看点】假期前航班大量延误 美国政府和航司各有说法
- 【世界独家】美国南卡罗来纳州发生坠机事故 致5人死亡
- 美国新罕布什尔州一辆汽车被撞入餐厅 致14人受伤
- 工人日报社评丨给行业乱象做“减法”,就是给地方发展做“加法”
- 29连胜!德约科维奇横扫晋级,迈出5连霸第一步,他就是新的草地之王
- 每日热闻!美墨边境移民混乱状况加剧
- 惊心!全球最大毒品消费国,是它!这里沦为“僵尸之地”……
- 天天热讯:10万亿元大产业?!与你的生活有关
- 每日消息!“警戒”“危险”!多国发布警报!中暑人数激增、大规模停电!
- 每日简讯:暴雨蓝色预警:5省区将现大到暴雨 辽宁局地有大暴雨
- 【焦点热闻】美国民权组织投诉哈佛大学的“传承录取”制度
- 智通港股投资日志|7月4日 焦点日报
- 世界讯息:江苏组织“人才夜市”挖掘见习岗位、发放社保补助稳岗促就业
- “Z世代”外国青年:我爱中国话,我喜欢中国古诗-世界看点
- 美国“毒”病难除丨美国人使用了全球80%的阿片类药物
- 环球今热点:美国“毒”病难除丨毒品泛滥愈演愈烈 美国禁毒为何失败?
- 中国制造业未来将更可靠(锐财经)
- 天天短讯!“奋斗者”号上奋斗者的奋斗(“四深”领域这样创新①)
- 快乐家族代言的游戏(快乐家族 游戏)|全球信息
- 女单八强出炉!丁宁力压队友约石川佳纯,刘高阳对阵平野美宇!-全球最新
- 信息:任丽娟甘肃(任丽娟)
- 亚洲重磅报告发布-环球热议
- 环球热消息:网络安全密匙忘了(网络安全密匙)
- 济宁发布雷电黄色预警 市民注意防范-世界头条
- 世界热文:美国“毒”病难除丨美国人使用了全球80%的阿片类药物
- 美国“毒”病难除丨毒品泛滥愈演愈烈 美国禁毒为何失败?
- 当前速讯:“Z世代”青年走进南京夏日:湖中夏雨荷 江上“白鹭”洲
- 当前快播:东京闹市区发生爆炸已致4人受伤 其中3人重伤
- “Z世代”外国青年:我爱中国话,我喜欢中国古诗
- 即时看!DNFpk光环补丁_dnfpk光环
- Rivian(RIVN.US)Q2交付量超预期! 股价应声跳涨超15%|全球短讯
- 【天天快播报】我学者开发出低成本高性能全固态锂电池电解质
- 新资讯:法国各地市长举行防暴集会 呼吁民众举行抗议反对暴力和抢劫
- 韩媒:韩国全国民主劳动组合总联盟启动为期两周大罢工,剑指尹锡悦政权 当前热点
- 日本九州多地遭强降雨 河流泛滥成灾|世界短讯
- 让转型金融简单化、易操作、可落地 湖州发布五项创新成果
- 当前视点!年产12亿平方米湿法锂电隔膜项目落户沧州高新区
- 世界快资讯丨欧股高开,德国DAX指数开涨0.52%
- 热点!6月份中国仓储指数发布:需求稳中有增 行业保持良好运行态势
- 多措并举,防范外卖食品浪费(评论员观察)
X 关闭
政策法规
X 关闭