我惊讶地通过了OpenAI预览版的四个AI编码测试(从积极的角度看)

   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

  

一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的。

尽管OpenAI在5月中旬推出了全新的gpt - 40模型,但该公司依然忙碌不已。早在去年11月,路透社就曾报道OpenAI正在开发下一代语言模型,当时被称为Q*。今年5月,他们再次确认,正在以“草莓”(Strawberry)的代号进行Q*的开发。

实际上,“草莓”是一个名为“01 -preview”的模型,现在ChatGPT Plus的用户可以选择使用它。您可以从下拉菜单中选择模型:

如您所料,如果有新的ChatGPT模型可用,我会进行测试。这正是我在这里所做的。

新的“草莓”模型专注于推理,将提示和问题分解为多个步骤。OpenAI通过在每个答案前展示推理摘要来体现这种方法。

当01 -preview被问到问题时,它会进行思考,并显示思考所花费的时间。如果您切换下拉菜单,您会看到一些原因。以下是我进行编码测试的一个例子:

AI知道添加错误处理是个好主意,但我发现有趣的是,o1-preview将这一步归类为“法规遵从”。

我还发现01 -预览模型在代码之后提供了更多的说明。在我的第一次测试中,我创建了一个WordPress插件,该模型提供了标题、类结构、管理菜单、管理页面、逻辑、安全措施、兼容性、安装说明、操作说明,甚至测试数据的解释。这比之前的模型提供了更多的信息。

然而,真正的效果还需实践验证。让我们对这个新模型进行标准测试,看看它的表现如何。

1. 编写一个WordPress插件

这个简单的编码测试要求具备PHP编程语言和WordPress框架的知识。这个挑战要求AI编写界面代码和功能逻辑,而不是删除重复的条目,它必须将重复的条目分开,以确保它们不相邻。

01 -预览版表现出色。它首先以输入字段的形式呈现用户界面:

一旦输入数据并点击Randomize Lines,AI就会生成一个带有随机输出数据的输出字段。您可以看到Abigail Williams是如何被复制的,并且根据测试说明,两个条目没有并排列出:

在我对其他llm的测试中,10个模型中只有4个通过了这个测试。01 -预览模型完美地完成了这个测试。

2. 重写字符串函数

我们的第二个测试修复了一个字符串正则表达式,这是一个由用户报告的错误。最初的代码是用来测试输入的数字是否对美元和美分有效。不幸的是,代码只允许整数(所以允许5,但不允许5.25)。

01 -预览LLM成功地重写了代码。这个模型加入了我之前四次进入优胜者圈的LLM测试。

3. 寻找恼人的bug

这个测试是基于一个我难以解决的真实bug创建的。找出根本原因需要了解编程语言(在本例中是PHP)和WordPress API的细微差别。

提供的错误消息在技术上不准确。错误消息引用了我正在运行的调用序列的开始和结束,但错误与代码的中间部分有关。

并不是只有我一个人在努力解决这个问题。我测试的其他三个llm无法确定问题的根本原因,并推荐了更明显(但错误的)解决方案,即改变调用序列的开始和结束。

01 -预览模型提供了正确的解决方案。在它的解释中,该模型还指出了我错误使用的功能的WordPress API文档,提供了一个额外的资源来了解它为什么会提出这样的建议。这非常有帮助。

4. 编写一个s图书馆的

这一挑战要求AI整合三个独立编码领域的知识,即Applescript语言、Chrome DOM(网页的内部结构)和Keyboard Maestro(单个程序员的专业编程工具)。

回答这个问题需要理解这三种技术,以及它们是如何协同工作的。

再一次,01 -preview成功了,在其他10个llm中,只有3个解决了这个问题。

一个非常健谈的聊天机器人

用于01 -preview的新推理方法当然不会削弱ChatGPT在编程测试中获胜的能力。特别是,我最初的WordPress插件测试的输出,似乎比以前的版本更复杂。

ChatGPT在其工作开始时提供了推理步骤,并在最后提供了一些解释性数据,这很好。然而,解释可能显得有些冗长。我要求01 -preview用c#编写“Hello world”,c#是编程中最规范的测试行。gpt - 40是这样回应的:

这是o1-preview对相同测试的反应:

我想说,哇,对吧?这是来自ChatGPT的大量聊天内容。您也可以打开推理下拉菜单,获取更多信息:

所有这些信息都很棒,但有很多文本需要过滤。我更喜欢简洁的解释,从主要答案中删除下拉框中的附加信息选项。

然而,ChatGPT的01预览模型表现出色。我期待着它在与gpt - 40功能(如文件分析和网络访问)更充分地集成后的工作效果。

您试过用01 -preview编码吗?您的经历是什么?请在下面的评论中告诉我们。

您可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

本文来自作者[小萱]投稿,不代表阿提号立场,如若转载,请注明出处:https://wap.atisheji.cn/zskp/202508-8444.html

(2)

文章推荐

  • 费尔南德斯是在反击批评还是在掩饰问题?

      英超:富勒姆0曼联1“今天不是为了踢球,”曼联门将安德烈·奥纳纳(AndreOnana)说。“今天对我们来说赢球很重要。”至少有人准备说出这个令人讨厌的成功的真相:在球上,曼联是足球界的憎恶者。不过,就令人讨厌的东西而言,最好的东西得三分。

    2025年07月18日
    8
  • 邓肯展望2024-25赛季:埃里克-内姆领衔的密尔沃基雄鹿与克里斯-费多执教的克利夫兰骑士

    雄鹿队的击球手埃里克·内姆是我们的嘉宾,他将打破密尔沃基重返联盟精英行列的追求。我们能从去年带走什么,尽管它很受伤?4个核心球员(扬尼斯,达姆,洛佩斯和米德尔顿)还剩多少钱来支撑有限的阵容?为什么小加里·特伦特是这样一个人达米安·利拉德是在走下坡路,

    2025年07月30日
    11
  • 殴打凯莉·Gain的嫌疑人将不以成年人身份接受审判

      一名十几岁的女孩被指控在圣路易斯高中外殴打同学KayleeGain,视频在社交媒体上传播,但她将不会作为成年人接受审判。圣路易斯县法院少年办公室在审查了15岁的莫丽斯·德克鲁的背景和学校历史后,做出了这一决定。她的律师告诉KDSK,她可能会接受社区监督,类似于缓刑,或者被拘留在少年

    2025年08月10日
    8
  • 欧元区7月PMI显示制造业增长乏力

      路透社伦敦7月10日报道,一项调查显示,欧元区7月份的制造业活动依然处于萎缩状态,产出下滑速度为今年最快,表明欧元区经济仍在艰难挣扎。根据标准普尔全球(S&PGlobal)编制的HCOB欧元区制造业采购经理人指数(PMI),7月终值为45.8,略高于初步

    2025年08月15日
    7
  • 利用钻石微粒打造高安全性防伪标签

    假冒是一个严重的问题,影响到从医药到电子等广泛的行业,造成巨大的经济损失,引起安全问题并危及健康。造假者和反造假者现在陷入了一场技术军备竞赛。尽管防伪工具变得越来越高科技,包括全息图、热致变色油墨和射频识别标签,但由于造假者使用越来

    2025年08月15日
    8
  • 带你了解“潮友潮汕麻将有开挂吗”(确实真的有挂)

    潮友潮汕麻将有开挂吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出

    2025年08月20日
    7
  • 以色列军方确认再度交火,致真主党高级指挥官身亡

    以色列说,以色列军方再次与真主党交火,打死了真主党导弹和火箭部队的一名高级指挥官。以色列大规模轰炸造成的死亡人数上升到近560人。军方官员说,上世纪80年代加入真主党的易卜拉欣·科贝西负责向以色列发射火箭弹,并策划了2000年在多夫山地区发动的袭击,那次袭击导致三名

    2025年08月26日
    5
  • 孟买国家大剧院盛邀全球顶级歌剧比赛,展现艺术魅力

      通过孟买(马哈拉施特拉邦)[印度],9月3日:世界歌剧比赛首次在印度举行,这是该赛事在南亚的首次亮相。孟买国家表演艺术中心(NCPA)将于今年9月举办第31届比赛。由著名男高音普拉西多·多明戈创立的Operalia,在过去三十年中,致力于发现和培养有潜力的

    2025年08月28日
    2
  • 撒哈拉沙尘暴席卷希腊,空气质量骤降引发关注

      周二的视频显示,从非洲吹来的大规模沙尘暴覆盖了雅典和希腊其他城市,将天空染成了黄橙色。据气象部门称,撒哈拉沙尘暴将伴随着泥雨,主要在该国北部和西部地区。当地天气报告称,这场风暴恰逢春季气温升高,加剧了其影响。预计周三风向将转向西风,导致沙尘水平降低。“这是最近几个月发生的现象

    2025年08月29日
    1
  • 重大发现“手机微乐麻将挂先试用后付款”确实真的有挂

    网上科普有关手机微乐麻将挂先试用后付款”话题很是火热,小编也是针对微乐麻将的技术支持和安全性寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。您好,手机微乐麻将挂先试用后付款这款游戏可以开挂的,确实是有挂的,通过微

    2025年08月30日
    2

发表回复

本站作者后才能评论

评论列表(4条)

  • 小萱
    小萱 2025年08月30日

    我是阿提号的签约作者“小萱”!

  • 小萱
    小萱 2025年08月30日

    希望本篇文章《我惊讶地通过了OpenAI预览版的四个AI编码测试(从积极的角度看)》能对你有所帮助!

  • 小萱
    小萱 2025年08月30日

    本站[阿提号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 小萱
    小萱 2025年08月30日

    本文概览:   一般来说,软件公司在5月份发布一个重要的新版本后,不会在短短4个月内再推出另一个主要版本。然而,人工智能行业的创新速度却是非同寻常的...

    联系我们

    邮件:阿提号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们