OpenAI 刚刚超额融资,就迫不及待开始证明自己了。
就在昨天凌晨,OpenAI 发布了 ChatGPT 的新功能——Canvas。这一功能基于 GPT-4o 模型开发,旨在提升用户在编程和写作中的效率。Canvas提供了一个独立窗口,可以与 ChatGPT 协作完成任务,如代码调试、写作建议等。
这是一个新的界面,用于使用ChatGPT编写和编码超越简单聊天的项目。Canvas在单独的窗口中打开,允许您和ChatGPT在项目上进行协作。这个早期的测试版引入了一种新的合作方式不仅仅是通过对话,而是通过并肩创造和提炼想法。
Canvas是用GPT-4 o构建的,在测试版中可以在模型选择器中手动选择。从今天开始,我们将向全球ChatGPT Plus和Team用户推出Canvas。企业和Edu用户将在下周获得访问权限。我们还计划在测试版结束后向所有ChatGPT Free用户提供Canvas。
Canvas的主要功能
- 上下文感知:用户可以高亮特定部分,ChatGPT 会根据上下文提供个性化反馈,帮助优化写作或代码。
- 编程支持:Canvas 可以自动识别代码中的问题,提供内联调试建议。它还支持代码审查、添加日志、优化代码性能等操作。
- 版本控制:用户可以轻松回滚到之前的版本,适用于多次迭代和修改的任务。
- 快捷操作:通过快捷菜单,用户可以调整文档长度、优化代码,甚至一键移植代码到其他编程语言。
在 Claude 中试过 Artifacts 的朋友都知道,这能极大提升 LLM 输出结果的表现力,其支持输出文本文件、代码、网页、SVG 等等。此前风靡一时的「汉语新解」便是基于 Claude 的 Artifacts 功能。但让 ChatGPT 用户感到遗憾的是,Artifacts 上线三个多月了,OpenAI 一直没有跟进,以至于一些开发者自行开发发布了自己的开源版本。
现在,用户的呼声终于获得了响应,于是纷纷点赞。也有人开玩笑地表示 OpenAI 这是打不过 Claude 便加入。
在 canvas 这个界面,你可以与 ChatGPT 一起完成写作和编码项目,而不再局限于简单的聊天。canvas 是一种新的交互方式,也是 OpenAI 推出 ChatGPT 以来的首个重大视觉界面更新。
canvas 会在单独的窗口中打开,方便用户与 ChatGPT 一起协作完成项目。canvas 的 Beta 版本为用户提供了一种全新的合作方式:你不仅能够通过对话进行创作,还能与 ChatGPT 成为并肩作战的伙伴,一起创造和完善。
canvas 由 GPT-4o 支持,在 Beta 期间可以在模型选择器中手动选择。不过,现在 Beta 版本只提供给 ChatGPT Plus 与团队用户。企业和教育用户将在下周获得访问权限。ChatGPT 免费用户需要等到 canvas 正式发布后才能使用。
OpenAI 通过 20 多项自动化内部评估来衡量进展,并使用了新颖的合成数据生成技术,例如从 OpenAI 的 o1-preview 中提取输出,来对模型进行核心行为的后训练。这种方法能够快速应对写作质量和新的用户交互需求,从而无需依赖人工生成的数据。
对研发团队来说,一个关键挑战是何时触发 canvas。OpenAI 训练模型在像「写一篇关于咖啡豆历史的博客文章」这样的提示词下打开 canvas,同时避免对像「帮我做一道新的晚餐食谱」这样的一般问答任务进行过度触发。
在写作任务中,他们优先改进了「正确触发」的情况(以牺牲「正确不触发」为代价),达到了 83%,相较于作为基线的零样本提示词式 GPT-4o 有了显著提升。
值得注意的是,此类基线的质量对特定提示词非常敏感。不同的提示词可能导致基线在表现不佳的同时,呈现不同的错误分布。
例如,在编码和写作任务中会出现「均匀地不准确」情况,导致不同类型的错误分布和表现不佳的形式。在编码方面,OpenAI 有意让模型在触发方面偏向保守,以避免干扰高级用户的体验。之后,OpenAI 也是承诺将继续根据用户反馈对其进行优化。
针对写作和编码任务,OpenAI 改进了准确触发 canvas 决策边界的能力,分别达到了 83% 和 94%,相较于作为基线的零样本提示词式 GPT-4o 有明显提升。
第二个挑战在于对模型在触发 canvas 后的编辑行为进行调优,特别是决定何时进行目标性编辑,何时重写整个内容。
OpenAI 训练模型在用户通过界面明确选择文本时进行目标性编辑,否则就更倾向于重写内容。随着模型的不断完善,canvas 的编辑行为也在持续演变。
针对写作和编码任务,OpenAI 优先优化了 canvas 的目标编辑功能。带有 canvas 的 GPT-4o 在性能上比基线的提示词式 GPT-4o 高出 18%。
最后,训练模型生成高质量评论需要经过仔细的迭代。与前两个可以轻松适应自动化评估并辅以详细人工审查的案例不同,自动衡量评论的质量尤其具有挑战性。
因此,OpenAI 使用人工评估来衡量评论的质量和准确性。他们所整合的 canvas 模型在准确性上比使用提示词指令的零样本 GPT-4o 高出 30%,在质量上高出 16%。
这表明合成训练显著提升了相较于带有详细指令说明的零样本提示词下的响应质量和行为表现。
请登录后查看评论内容