两天前,风声四起称代号为“草莓”的推理功能模型预计在两周内发布,就在9月12日晚间,OpenAI突然对外发布一款名为o1的新模型,这款模型为该公司下一代 “推理” 模型中的第一个,o为“Orion(猎户座)”,这款模型可以比人类更快地回答更复杂的问题。
竞赛类型 | GPT-4o 准确率 | o1 预览版准确率 | o1 正式版准确率 | 人类专家平均准确率 |
---|---|---|---|---|
AIME 2024 数学竞赛 | 13.4% | 56.7% | 83.3% | – |
代码竞赛 | 11.0% | 62% | 89% | – |
博士级科学问题 (GPQA Diamond) | 56.1% | – | 78% | 69.7% |
不过,作为o1系列模型的首批版本,OpenAI仅推出了o1-preview预览版和o1-mini迷你版,而且是分阶段向付费用户、免费用户和开发者推出,且开发者的使用价格颇为昂贵。
与以前的模型相比,在编写代码和解决多步骤问题方面做得更好。但它也比此前发布的GPT-4o更贵,回答问题也更慢。OpenAI强调o1的这次发布为 “预览版”,还只是初始状态。此次同时发布的还有更小、更便宜的版本o1-mini 。对OpenAI来说,o1 代表着向其更广泛的类人人工智能目标迈出的一步。
ChatGPT Plus和团队用户即日起便可以访问o1预览版和o1-mini,而企业和教育用户将在下周初获得访问权限。OpenAI表示,它计划让ChatGPT的所有免费用户都能访问o1-mini,但尚未确定发布日期。
对开发者来说,访问o1的成本比之前要高出很多:通过API使用o1预览版,输入每百万token要收费15美元,输出每百万收费60美元。相比之下,GPT-4o的百万token输入收费只有5美元,输出为15美元。
OpenAI 的研究负责人杰里・特沃雷克(Jerry Tworek)向媒体透露,o1 “是使用一种全新的优化算法和专门为其定制的新训练数据集进行训练的”,它设置了奖励和惩罚机制,通过强化学习的技术训练模型自行解决问题,它利用类似人类通过逐步解决问题方式的“思维链”处理问题。这种新的训练方法,使得模型更加准确。“我们注意到这个模型的幻觉更少了,” 特沃雷克说,但这个问题仍然存在,“我们不能说我们解决了幻觉问题。”
根据OpenAI的说法,这个新模型与GPT-4o的主要区别在于它能够比其前身更好地解决复杂问题,如编码和数学,同时还能解释其推理过程。OpenAI还对o1进行了国际数学奥林匹克资格考试的测试,虽然 GPT-4o只正确解决了13%的问题,但o1得分达到了83%。
在被称为Codeforces竞赛的在线编程比赛中,这个新模型达到了参与者的89%的百分位,OpenAI声称这个模型的下一次更新将在具有挑战性的物理、化学和生物学基准任务中表现得 “类似于博士生”。
虽然在数学和代码方面发挥更出色,但o1在很多方面不如GPT-4o,包括在关于世界的事实知识方面表现不佳,以及没有浏览网页或处理文件和图像的能力。不过,OpenAI认为它代表了一种全新的能力类别,被命名为o1是为了表示 “将计数器重置回 1”。
请登录后查看评论内容