新闻资讯
  当前位置: 首页 > 新闻资讯

GPT-4O降临,数字化伴侣再现人间

发布时间:2024-05-21 07:25:05 

OpenAI隆重推出的全球盛会落幕之后,Sam Altman在Twitter上用一个简短的词语评论道:“她”。

北京时间5月14日,OpenAI举行春季发布会。在首席技术官Mira Murati的介绍下,这家公司正式发布了最新的旗舰模型GPT-4o(o代表Omni,即全能)。

GPT-4o是一款多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。它在文本、推理和编码智能等方面的能力与GPT-4 Turbo不相上下,但在多语言、音频和视觉能力方面有所提升。

与GPT-4 Turbo相比,GPT-4o的API价格降低了50%,但速度提升了两倍,速率限制提高了5倍,最高可达每分钟1000万个令牌。至此,GPT-4o的响应速度接近人类之间的正常对话,据悉其对音频输入的平均反应时间为320毫秒。

几乎无延迟的反应速度支撑起了这场发布会的核心重点——OpenAI研发负责人Mark Chen展示了基于GPT-4o的实时对话能力。

Mark Chen选择的第一个场景是告知ChatGPT他正在进行演示,但非常紧张,需要怎么办。ChatGPT的提示是“深呼吸一下吧,记得你是个专家!”随后,Mark Chen用非常急促的几声喘息回应,而ChatGPT则用吃惊语气下的“慢点呼吸,你可不是个吸尘器!”来回答他。

ChatGPT不仅能够感知人类的语气和状态,并以幽默的方式表达人类的情感,还展示出了对话随时可以被打断并即时跟进的能力。总而言之,在与Mark Chen的对话中,它已经近乎于一个真实的人类,对话没有尴尬的停顿点,也没有理解障碍。

除了实时对话,Mark Chen还引导ChatGPT展示了在讲故事情境下渲染音色的能力。他要求ChatGPT讲述一个主题为“恋爱中的机器人”的睡前故事,并连续两次要求其用“更戏剧化”的方式朗读。用户可以明显感受到有递进感的音色,这背后是显而易见的情感表达能力。

这也是Sam Altman发送那条简短推文的含义。科幻电影《她》中的那位女性语音智能机器人,已接近被OpenAI实现。

情感表现之外,另一位研发负责人Barret负责展示了GPT-4o基于多模态的智力表现。Barret写下了一个简单的线性方程“3x+1=4”,并打开ChatGPT的摄像头,要求它实时引导自己一步步解开这个方程式。过程中,Barret故意给出了错误的反应,但都被ChatGPT以耐心自然的语气予以回应。随后,Barret还给出了一堆代码,展示了ChatGPT理解代码、描述任务、对应函数名及其功能,完全能够理解代码内在逻辑的能力。

ChatGPT也能顺畅完成图表理解任务(任意抽取坐标轴解读等)。作为彩蛋,ChatGPT还解读了Barret自拍中的表情,并简短演绎了实时语音翻译(意大利语和英语)的角色。

在分析自拍照时,ChatGPT 似乎遇到了一个小“故障”,反馈称“看起来像是在看一块木制表面”。巴雷特迅速用“那是我之前发给你的”一句话带过了此事。

OpenAI 将自己再次大力推向 C 端市场的一大杀手锏是,他们的 GPT-4o 的能力将免费向所有 ChatGPT 用户开放,这将让他们直接体验 GPT-4 级别的智能。ChatGPT Plus 用户的容量限制是免费用户的 5 倍。

OpenAI 还发布了 ChatGPT 的桌面应用程序,全面更新了其 UI,使其使用起来更简单自然。

米拉·穆拉蒂表示:“我们的使命中非常重要的一点就是让我们的高级 AI 工具可以免费向所有人提供。我们认为,人们对技术功能有直观的感受非常重要。”这些功能将在接下来几周内逐步推出。