AI圈巨震!苹果神秘新品震撼登场
OpenAI隆重推出全新升级
北京时间5月14日凌晨1点,OpenAI通过直播的形式发布了其产品的最新更新。在为时半小时的线上发布会上,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)宣布了GPT-4系列的重大升级。发布会的亮点如下:
全新的模型——GPT-4o正式发布,其中的“o”代表“omni”(全面、全能)。GPT-4o面向所有用户免费开放。
新模型具备卓越的多模态交互能力。发布会演示展示了GPT-4o在文本、图像、视频和语音方面的强大能力,它能够与人类流畅自然地进行语音交流,并解读屏幕信息。
ChatGPT桌面应用程序正式发布,目前适用于macOS系统,Windows版本将于今年晚些时候推出。
AI助手雏形初现
在发布会前夕,记者注意到OpenAI官网已将GPT-4的描述从“最先进的模型”更新为“先进的模型”,为GPT-4o的发布做好了准备。
作为OpenAI当前最先进的模型,GPT-4o的独特之处在于,它可以接受文本、音频和图像的任意组合作为输入,并生成上述几种模态的内容。这意味着GPT-4o具备了AI助手的基本雏形,在通往通用人工智能的道路上迈出了一大步。
在发布会现场,穆拉蒂与OpenAI前沿研究主管马克·陈(Mark Chen)以及后期训练团队负责人巴雷特·佐夫(Barret Zoph)共同演示了实时语音对话功能。从演示效果来看,GPT-4o与人类的交互变得更加及时和自然。据介绍,GPT-4o可以在232毫秒内对音频输入做出回应,接近于人类对话的反应时间。在此之前,使用语音模式与ChatGPT进行交流,平均延迟分别为2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o不仅能够实时响应对话,消除尴尬的长时间延迟,还能生成不同情感风格的语音。
例如,当被问及“你最近怎么样?”时,GPT-4o除了表示“我很好”之外,还会反问“你怎么样?”当“要求讲一个”关于机器人和爱情的睡前故事时,GPT-4o在开口讲述后被要求以更具情感化和戏剧性的方式讲述,随后GPT-4o在讲述故事时语气跌宕起伏,感情充沛,甚至可以以唱歌的形式结束对话。从此,家长哄娃睡觉变得轻而易举。
不仅如此,GPT-4o还具备视觉+语音交互功能,能够通过图像求解方程式。佐夫开启手机视频通话,对GPT-4o说:“我要在一张纸上写一个线性方程。不要告诉我答案,只告诉我它的求解步骤。”随后,佐夫写下了3x+1=4的方程式,询问如何解开。GPT-4o通过循序渐进的提示,在佐夫提出求助和问题时不断给出下一步的建议,最终得到了x=1的正确结果。由此,家长辅导孩子写作业也变得更加轻松。
GPT-4o 具备以下能力:
- 实时读取屏幕信息,帮助解决代码问题并分析图表。
- 跨语言实时翻译,在意大利语和英语对话时,无需延迟即可将一种语言翻译成另一种语言,还能模仿说话者的语气。
- 识别和分析人类情绪,当要求 GPT-4o 判断说话者自拍时的情绪时,它会分析道:“您看起来很开心,可能还有一点激动,心情应该很好。”
虽然 OpenAI 的首席执行官山姆·奥特曼并未出席发布会,但他通过个人社交平台实时播报着 OpenAI 的最新进展。发布会结束后,他在动态中发布了一个单词:“她”(her)。外媒此前报道称,奥特曼表示自己最喜欢的 AI 电影是《她》,其最终目标是开发出类似电影中虚拟 AI 助手的人工智能,让苹果 Siri 等现有的语音助手变得更加实用和智能。
**“截胡”谷歌,示好苹果**
早在发布会前一周,有关 OpenAI 发布新产品的消息就已甚嚣尘上。有消息称 OpenAI 将发布 GPT-5,也有消息称 OpenAI 将发布一款基于 ChatGPT 的 AI 搜索引擎,挑战谷歌。5 月 11 日,奥特曼在其个人社交平台上否认了上述传言,并表示:“不是 GPT-5,也不是搜索引擎,但我们一直在开发一些我们认为人们会喜欢的新东西!对我来说,这感觉就像魔术!”
值得注意的是,谷歌即将在 5 月 14 日召开 I/O 开发者大会,宣布安卓、谷歌搜索等方面的更新。OpenAI 选择在 I/O 开发者大会前一天举行发布会,显然是为了避免被谷歌抢走风头。这并不是第一次发生这种情况,今年 2 月 16 日,OpenAI 在未预热的情况下发布了 Sora 文生视频模型,引起了全球关注。而彼时谷歌刚刚升级了 Gemini Pro 大模型,但在 Sora 的热度之下显得黯然失色。
如今,OpenAI 再次宣战,压力也直接给到了即将正面迎战的谷歌。华福证券研报显示,在海外主流 AI 大模型中,ChatGPT 仍占据访问量首位,而 Claude、Perplexity、Character.ai 等大模型的 4 月访问量都有所增长。但谷歌的 Gemini 访问量在 4 月出现下滑,环比跌幅为 1.4%。可见,在争夺 AI 大模型的道路上,谷歌正面临着 OpenAI 愈发强劲的竞争。
与此相对,在这场新品发布会中,幕后的赢家当属苹果。发布会全程使用 iPhone 和 MacBook Pro 进行演示,同时还发布了 Mac 桌面版的 ChatGPT,暗示 OpenAI 将与苹果合作,在苹果设备中接入大模型的能力。
事实上,这种合作早有端倪。据彭博社 5 月 10 日报道,苹果正在与 OpenAI 商议一项协议,计划在今年在 iPhone 中引入 OpenAI 的大模型技术。通过这笔交易,苹果将能够提供由 ChatGPT 支持的“聊天机器人”,作为 iOS 18 中人工智能功能的一部分。
报道也指出,苹果公司就授权 Gemini 聊天机器人与谷歌进行了谈判,但尚未达成协议。
近期,奥特曼参与了播客节目“All-in Podcast”,针对诸多人工智能热点与方向发表了看法。他表示,OpenAI 将持续优化语音功能的品质,“相信语音交互或许是通往未来交互方式的重要线索”。当主持人询问他是否与乔尼·艾维(“iPhone 之父”,苹果前首席设计师)合作时,奥特曼回应道,“是的,我们在交流一些想法”。
今年 2 月,苹果首席执行官蒂姆·库克对外透露,公司正在开发生成式 AI 软件功能,iOS 18 中将推出由大型语言模型支持的新 Siri 功能,但未提及与 OpenAI 合作相关事宜。据悉,苹果将在 6 月份举办 WWDC 全球开发者大会,展示 iOS、iPadOS、macOS、watchOS、tvOS 和 visionOS 的前沿创新。
分析人士认为,如能与 OpenAI 达成合作,苹果不仅能缩短产品研发周期,还能快速提升自家产品的智能化水平。在生成式 AI 时代中落后较多的苹果,能否通过在其硬件中接入全球领先的大模型,打一场漂亮的“翻身仗”,答案或许将在 6 月揭曉。