(相关资料图)
IT之家 4 月 4 日消息,OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中,都取得了显著的进步,测试表现提升 30%。
GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。
研究人员诺亚・辛恩(Noah Shinn)和阿什温・戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术,让 AI 代理能够模拟人类的自我反思,并评估自己的表现。GPT-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。”
研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中,GPT-4 需要解决 164 个从未见过的 Python 编程问题,原本准确率为 67%,使用反思技术后,准确率提升到了 88%。在 Alfworld 测试中,AI 需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,GPT-4 的准确率从 73% 提高到了 97%,只有 4 个任务失败。在 HotPotQA 测试中,GPT-4 可以访问维基百科,并回答 100 个需要从多个支持文档中解析内容和推理的问题,原本准确率为 34%,使用反思技术后,准确率提高到了 54%。
这项研究表明,AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现,这有点像生成对抗网络,这是一种让两个 AI 互相提高技能的方法,比如一个 AI 试图生成一些看起来像真实图片的图片,另一个 AI 试图分辨哪些是假的,哪些是真的。但在这种情况下,GPT 既是写作者又是编辑,通过自我反思来改进自己的输出质量。
标签:
-
当前播报:国美电器成老赖,同日被执行24次,累计被执行超4.7亿元天眼查App显示,4月3日,因有履行能力而拒不履行生效法律文书...
-
环球焦点!瑞银收购瑞信后或将全球裁员3.6万人据央视财经援引外媒消息,瑞银集团在收购瑞士信贷后很可能将...
-
天天速读:“和珅”扮演者王刚清空多平台账号近日,有网友发现“和珅”的扮演者演员王刚,将多个社交平台...
-
今日聚焦!飞猪:一季度国内酒店和门票预订量已远超2019年从飞猪了解到,2023年第一季度,平台国内酒店、国内门票预订...
-
重点聚焦!三星员工被曝不当使用ChatGPT,半导体机密数据直传美国据财联社消息,自OpenAI公司去年11月底公布以来,聊天机器人C...
-
天天速读:德国考虑“封杀”ChatGPT据每经网报道,4月3日,德国联邦数据保护专员发言人称,出于...
-
天天微头条丨特斯拉市值蒸发2758亿元截至周一收盘,特斯拉股价下跌12 69美元,报收于194 77美元...
-
环球速看:中国恒大:公司与债权人特别小组的成员签订三份重组支持协议中国恒大在港交所公告称,于2023年4月3日,公司与债权人特别...
-
腾讯会议服务调整今日正式生效今日,腾讯会议宣布,自今日起,免费版用户发起的单场会议规...
-
苹果拟削减零售成本,裁掉部分店铺建设和维护人员据外媒消息,苹果计划裁减其零售团队中负责开发和维护的一小...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34