OpenAI 于5月13日发布重大更新,宣布推出 GPT-4o(“o”代表“omni”),这是他们新的旗舰 AI 模型。GPT-4o 将 GPT-4 级别的智能带给所有人,包括免费用户。它改进了文本、视觉、音频和实时交互的功能。OpenAI 旨在减少摩擦,让每个人都能免费使用 AI。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与对话中的人类响应时间相似。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
关键细节:
- 可能会让人想起电影《她》中的人工智能角色萨曼莎
- 统一处理模型:GPT-4o可以无缝处理音频、视觉和文本的输入输出。
- GPT-4o 提供 GPT-4 级别的智能,但速度要快得多,并增强了文本、视觉和音频功能
- 实现自然对话和实时对话语音识别,无延迟
- 可以从音频中感知情感并生成富有表现力的合成语音
- 集成视觉理解,在对话中与图像、文档、图表互动
- 提供多语言支持,跨语言实时翻译
- 可以从视觉效果中的面部表情中检测情绪
- 免费用户获得 GPT-4.0 级别的访问权限;付费用户获得更高的限制:GPT-4o 每 3 小时 80 条消息,GPT-4 每 3 小时最多 40 条消息(高峰时段可能会减少)
- GPT-4o 在 API 上可用,供开发人员大规模构建应用程序
- 比以前的 Turbo 型号快 2 倍,便宜 50%,速率限制高 5 倍
- 一款适用于 macOS 的新 ChatGPT 桌面应用程序推出,具有简单的查询键盘快捷键以及直接在应用程序中讨论屏幕截图等功能。
- 演示了方程式求解、编码辅助、翻译等功能。
- OpenAI 专注于功能的迭代推出。标准的 4o 文本模式已经向 Plus 用户推出。新的语音模式将在未来几周内以 alpha 版本提供,最初可供 Plus 用户使用,并计划将可用性扩展到免费用户。
- “下一件大事”的进展将在稍后公布。
GPT-4o 免费为大众带来先进的多模态 AI 功能。凭借自然的语音交互、视觉理解和跨模式无缝协作的能力,它可以重新定义人机交互。
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、唱歌或表达情感。
借助 GPT-4o,我们在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型,所以我们仍然只是在探索该模型可以做什么及其局限性的表面。
模型安全性和局限性
GPT-4o 通过过滤训练数据和通过训练后改进模型行为等技术,在设计上具有跨模态的内置安全性。我们还创建了新的安全系统,为语音输出提供护栏。
我们根据 GPT-4o 评估了Preparedness Framework and in line with our voluntary commitments准备框架,并符合我们的自愿承诺。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何一个类别中的得分都不超过中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 也经历了广泛的外部红队,70+external experts社会心理学、偏见和公平以及错误信息等领域的外部专家,以识别新添加的模式引入或放大的风险。我们利用这些经验来制定我们的安全干预措施,以提高与 GPT-4o 交互的安全性。当新风险被发现时,我们将继续降低这些风险。
我们认识到 GPT-4o 的音频模式存在各种新的风险。今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、通过培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设语音,并将遵守我们现有的安全政策。我们将在即将推出的系统卡中分享更多细节,解决 GPT-4o 的所有模式。
通过对模型的测试和迭代,我们观察到该模型的所有模式都存在一些局限性,其中一些如下图所示。
模型评估
按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
改进推理 – GPT-4o 在 0 次 COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些 evals 都是通过我们新的简单 evals 库收集的。此外,在传统的 5 次无 CoT MMLU 上,GPT-4o 创下了
型号可用性
GPT-4o 是我们突破深度学习界限的最新一步,这一次是朝着实用可用性的方向发展。在过去的两年里,我们花了很多精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别的模型。GPT-4o 的功能将迭代推出(从今天开始扩展红队访问)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们将 GPT-4o 在免费套餐中提供,并向 Plus 用户提供高达 5 倍的消息限制。我们将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的新版本语音模式。
开发人员现在还可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。与 GPT-4 Turbo 相比,GPT-4o 的速度快 2 倍,价格减半,速率限制高出 5 倍。我们计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
上手亲测
小编亲测使用ChatGPT的GPT-4o模型,编写一个有完整UI界面的,关于自动创建Rectangle图形的MaxScript脚本语言,GPT-4o模型在不到2s的时间内就写完了,并给出了每段代码的含义解释,比GPT-4 turo等语言准确度高很多,小编也把测试的代码贴在下面,有兴趣的小伙伴可以吧代码复制进3DMAX运行试试。
try(destroyDialog createRectangleRollout) catch()
rollout createRectangleRollout "Create Rectangle"
(
-- Define UI elements
group "Rectangle Parameters"
(
spinner spnWidth "Width: " range:[0, 1000, 100] type:#float
spinner spnHeight "Height: " range:[0, 1000, 50] type:#float
)
button btnCreate "Create Rectangle"
-- Define event handler for button click
on btnCreate pressed do
(
local width = spnWidth.value
local height = spnHeight.value
-- Create rectangle using the parameters from the spinners
theRectangle = rectangle length:height width:width
-- Optionally position the rectangle at the origin
theRectangle.pos = [0, 0, 0]
-- Optionally select the created rectangle
select theRectangle
)
)
createDialog createRectangleRollout
总结
小编今天体验了一天, GPT-4o 确实强大,继承了 GPT-4 的优点,同时在语音对话过程中也能够准确理解人类的各种感情,并且依据人类的语气回答,还能随时打断GPT的对话,现在官方在灰度免费内测,有需要的会员可以赶紧体验,但是需要会员有科学上网环境,并且没有被污染。
请登录后查看评论内容