AI圈巨震！苹果神秘新品震撼登场-我幺发信息网

新闻资讯

当前位置：首页 > 新闻资讯

AI圈巨震！苹果神秘新品震撼登场

发布时间:2024-05-23 04:30:54　

OpenAI隆重推出全新升级

北京时间5月14日凌晨1点，OpenAI通过直播的形式发布了其产品的最新更新。在为时半小时的线上发布会上，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）宣布了GPT-4系列的重大升级。发布会的亮点如下：

全新的模型——GPT-4o正式发布，其中的“o”代表“omni”（全面、全能）。GPT-4o面向所有用户免费开放。

新模型具备卓越的多模态交互能力。发布会演示展示了GPT-4o在文本、图像、视频和语音方面的强大能力，它能够与人类流畅自然地进行语音交流，并解读屏幕信息。

ChatGPT桌面应用程序正式发布，目前适用于macOS系统，Windows版本将于今年晚些时候推出。

AI助手雏形初现

在发布会前夕，记者注意到OpenAI官网已将GPT-4的描述从“最先进的模型”更新为“先进的模型”，为GPT-4o的发布做好了准备。

作为OpenAI当前最先进的模型，GPT-4o的独特之处在于，它可以接受文本、音频和图像的任意组合作为输入，并生成上述几种模态的内容。这意味着GPT-4o具备了AI助手的基本雏形，在通往通用人工智能的道路上迈出了一大步。

在发布会现场，穆拉蒂与OpenAI前沿研究主管马克·陈（Mark Chen）以及后期训练团队负责人巴雷特·佐夫（Barret Zoph）共同演示了实时语音对话功能。从演示效果来看，GPT-4o与人类的交互变得更加及时和自然。据介绍，GPT-4o可以在232毫秒内对音频输入做出回应，接近于人类对话的反应时间。在此之前，使用语音模式与ChatGPT进行交流，平均延迟分别为2.8秒（GPT-3.5）和5.4秒（GPT-4）。GPT-4o不仅能够实时响应对话，消除尴尬的长时间延迟，还能生成不同情感风格的语音。

例如，当被问及“你最近怎么样？”时，GPT-4o除了表示“我很好”之外，还会反问“你怎么样？”当“要求讲一个”关于机器人和爱情的睡前故事时，GPT-4o在开口讲述后被要求以更具情感化和戏剧性的方式讲述，随后GPT-4o在讲述故事时语气跌宕起伏，感情充沛，甚至可以以唱歌的形式结束对话。从此，家长哄娃睡觉变得轻而易举。

不仅如此，GPT-4o还具备视觉+语音交互功能，能够通过图像求解方程式。佐夫开启手机视频通话，对GPT-4o说：“我要在一张纸上写一个线性方程。不要告诉我答案，只告诉我它的求解步骤。”随后，佐夫写下了3x+1=4的方程式，询问如何解开。GPT-4o通过循序渐进的提示，在佐夫提出求助和问题时不断给出下一步的建议，最终得到了x=1的正确结果。由此，家长辅导孩子写作业也变得更加轻松。

GPT-4o 具备以下能力：

实时读取屏幕信息，帮助解决代码问题并分析图表。
跨语言实时翻译，在意大利语和英语对话时，无需延迟即可将一种语言翻译成另一种语言，还能模仿说话者的语气。
识别和分析人类情绪，当要求 GPT-4o 判断说话者自拍时的情绪时，它会分析道：“您看起来很开心，可能还有一点激动，心情应该很好。”

虽然 OpenAI 的首席执行官山姆·奥特曼并未出席发布会，但他通过个人社交平台实时播报着 OpenAI 的最新进展。发布会结束后，他在动态中发布了一个单词：“她”（her）。外媒此前报道称，奥特曼表示自己最喜欢的 AI 电影是《她》，其最终目标是开发出类似电影中虚拟 AI 助手的人工智能，让苹果 Siri 等现有的语音助手变得更加实用和智能。

**“截胡”谷歌，示好苹果**

早在发布会前一周，有关 OpenAI 发布新产品的消息就已甚嚣尘上。有消息称 OpenAI 将发布 GPT-5，也有消息称 OpenAI 将发布一款基于 ChatGPT 的 AI 搜索引擎，挑战谷歌。5 月 11 日，奥特曼在其个人社交平台上否认了上述传言，并表示：“不是 GPT-5，也不是搜索引擎，但我们一直在开发一些我们认为人们会喜欢的新东西！对我来说，这感觉就像魔术！”

值得注意的是，谷歌即将在 5 月 14 日召开 I/O 开发者大会，宣布安卓、谷歌搜索等方面的更新。OpenAI 选择在 I/O 开发者大会前一天举行发布会，显然是为了避免被谷歌抢走风头。这并不是第一次发生这种情况，今年 2 月 16 日，OpenAI 在未预热的情况下发布了 Sora 文生视频模型，引起了全球关注。而彼时谷歌刚刚升级了 Gemini Pro 大模型，但在 Sora 的热度之下显得黯然失色。

如今，OpenAI 再次宣战，压力也直接给到了即将正面迎战的谷歌。华福证券研报显示，在海外主流 AI 大模型中，ChatGPT 仍占据访问量首位，而 Claude、Perplexity、Character.ai 等大模型的 4 月访问量都有所增长。但谷歌的 Gemini 访问量在 4 月出现下滑，环比跌幅为 1.4%。可见，在争夺 AI 大模型的道路上，谷歌正面临着 OpenAI 愈发强劲的竞争。

与此相对，在这场新品发布会中，幕后的赢家当属苹果。发布会全程使用 iPhone 和 MacBook Pro 进行演示，同时还发布了 Mac 桌面版的 ChatGPT，暗示 OpenAI 将与苹果合作，在苹果设备中接入大模型的能力。

事实上，这种合作早有端倪。据彭博社 5 月 10 日报道，苹果正在与 OpenAI 商议一项协议，计划在今年在 iPhone 中引入 OpenAI 的大模型技术。通过这笔交易，苹果将能够提供由 ChatGPT 支持的“聊天机器人”，作为 iOS 18 中人工智能功能的一部分。

报道也指出，苹果公司就授权 Gemini 聊天机器人与谷歌进行了谈判，但尚未达成协议。

近期，奥特曼参与了播客节目“All-in Podcast”，针对诸多人工智能热点与方向发表了看法。他表示，OpenAI 将持续优化语音功能的品质，“相信语音交互或许是通往未来交互方式的重要线索”。当主持人询问他是否与乔尼·艾维（“iPhone 之父”，苹果前首席设计师）合作时，奥特曼回应道，“是的，我们在交流一些想法”。

今年 2 月，苹果首席执行官蒂姆·库克对外透露，公司正在开发生成式 AI 软件功能，iOS 18 中将推出由大型语言模型支持的新 Siri 功能，但未提及与 OpenAI 合作相关事宜。据悉，苹果将在 6 月份举办 WWDC 全球开发者大会，展示 iOS、iPadOS、macOS、watchOS、tvOS 和 visionOS 的前沿创新。

分析人士认为，如能与 OpenAI 达成合作，苹果不仅能缩短产品研发周期，还能快速提升自家产品的智能化水平。在生成式 AI 时代中落后较多的苹果，能否通过在其硬件中接入全球领先的大模型，打一场漂亮的“翻身仗”，答案或许将在 6 月揭曉。

上一篇 : 川酒分化加剧：五粮液、泸州老窖存货普增，促销激战一触即发

下一篇 : 利通电子股价暴涨5% 创历史新高

推荐资讯