OpenAI点燃AI魂 GPT-4o掀端侧革命

2024-05-15 孔海丽,实习生邓熙涵 21世纪经济报道阅读 15322

艾媒咨询｜2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展，AIGC技术也日益成熟，广泛应用于更多领域，其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测，预计2023年中国AIGC核心市场规模将达79.3亿元，2028年将达2767.4亿元。

秘鲁互联网市场发展状况及用户行为调查大数据人口统计和使用

玻利维亚互联网市场发展概况及各细分用户行为洞察数据电子商务关键数据

全球互联网广告行业发展概况及消费行为研究数据广告用数据说话

　　酷暑到来之前，OpenAI提前引爆了AI之夏。北京时间5月14日凌晨1点，OpenAI举行春季发布会。会上，重点推出新旗舰模型GPT-4o，以及在ChatGPT中免费提供更多功能。GPT-4o在多模态交互领域开始了现象级横扫。

　　人类津津乐道的智能AI助手，面目逐渐清晰：除了尚未具身，无缝语音对话、精确到细节的视觉信息处理、情绪检测技术及共情能力，几乎都与真人无异。而比人类更强的是，这个AI情绪稳定，天文地理无所不知，解决问题的能力也是一流。

　　业内因GPT-4o沸腾起来，盛赞一如往常，“大模型从‘呆瓜’变‘真人’，交互能力革新带来的可能是场景、用户数的几何级放大”；“OpenAI将蚕食情感类人工智能助手的市场，向更具情感、个性更强的人工智能迈进”；“要重新理解机器视觉、听觉了”……

　　不过，喧嚣之下，也有一些客观声音，在审视OpenAI技术层面的进展。GPT-4o的广泛真实体验，能否全部达到视频演示中的极高水准，仍有待验证。

　　IDC中国研究总监卢言霞告诉21世纪经济报道记者，OpenAI本次发布会的现场演示中，视频采用的还是抽帧处理技术，即Image to text，语音交互还是之前的全双工技术，只是多模态对话的过程更顺畅更自然。但确实进一步提高了类GPT产品的智能化交互能力，弱化了背后的代码，简化了交互的流程。GPT-4o不会砸掉所有语音助手的饭碗，反而是大模型在端侧的落地迎来双赢可能。

　　“AI背后藏了个真人”

　　GPT-4o的“o”代表“omni”，象征着全能。该模型多模态交互能力突出，能够接受文本、音频和图像的“混搭”输入，快速响应完成推理，生成文本、音频和图像的组合输出。

　　音频输入层面，GPT-4o击穿了此前Siri等智能语音助手的延迟弊端，取得突破性进展。其响应速度之快，达到了人类级别，至短232毫秒，平均320毫秒。

　　此外，新模型展现出对人类交流习惯的高度理解力和适应性。GPT-4o能以听起来非常自然的人类声音说话，并且发出多种语气词，表现了此前AI音频所未能达到的张力和可塑性。

　　它能够接受人类交谈中的打断习惯，及时停顿并给出无缝回复，并且保持对上下文的记忆。这种自然的交互体验，让人几乎感觉不到与机器的界限。

　　视频输入方面，GPT-4o可以及时响应高管开启摄像头的视频需求指令，实时解决一元方程的数学计算，整个过程同样丝滑迅速。

　　GPT-4o还展示出对图片信息的快速解读能力，用AI读复杂图片正在变为现实。发布会现场，桌面版ChatGPT对一张包含气温数据的图表进行了详细的分析。

　　市面上已有一部分情感型人工智能机器人，比普通人工智能助手更能准确识别人类情绪。然而，上述功能多停留在文本中，GPT-4o的情绪检测功能则扩展至视频领域。

　　从底层技术分析，GPT-4o的先进之处在于，它革新了传统的多模型串联处理方式，能够通过单一的神经网络统一处理所有的输入和输出，无论是文本、视觉图像还是音频信息，都能得到精准高效的解析和回应。

　　在OpenAI这场仅持续28分钟的发布会后，业内对GPT-4o的评价褒贬不一，但乐观主义期待呈压倒性态势。为继续造势吸引用户和投资的目光，OpenAI官网也为意犹未尽的用户披露了新模型的视频演示和基础信息。

　　GPT-4o的情感智能和多模态交互是OpenAI特别强调的两大竞争优势。发布会上，GPT-4o的语音与视频交互速度均接近真人，其官网后续披露的演示也呈现了新模型讲笑话、玩游戏、催眠放松的感性功用。

　　OpenAI并不是首家运用情感智能技术的公司。Inflection AI发布的Pi已能成熟运用大语言模型的对话共情回复技术，实现人类“嘴替”的效果，提供沉浸式的虚拟情感陪伴。

　　英伟达高级研究科学家兼人工智能代理负责人Jim Fan发文称赞GPT-4o的情感能力，令人联想到2013年的科幻电影《Her》。这部电影讲述了人机亲密关系——遭遇离婚风波的男主角西奥多与人工智能系统萨曼莎成为灵魂伴侣。

　　Jim Fan认为，OpenAI将蚕食Character.AI等情感类人工智能助手的市场，向更具情感、个性更强的人工智能迈进。

　　GPT-4o的另一大特点在于三手抓的多模态交互能力。音频输入层面，GPT-4o击穿了此前Siri等智能语音助手的延迟弊端，图像上则能快速分析复杂图表；视频层面新模型也有突破，可以在接打电话时准确识别通话另一方的情绪。

　　GPT-4o率先表态：多模态大模型融合文本、图片、音频及视频等信息，与现实世界高度契合，更贴近人类信息接收、处理和表达的自然方式。

　　继发布文生视频大模型Sora后，GPT-4o有望成为迈向多模态智能体的又一座里程碑。

　　巨头焦虑与端侧革命

　　OpenAI的大模型库再添GPT-4o一员猛将，预示着AI Agent已至新赛点，再次拨快了人类循序渐进迈向GAI的时针。

　　从技术定义来看，AI Agent是通用人工智能的终极目标，以大语言模型（LLM）为大脑驱动，不需要人类的指挥，具有自主性，能独立思考并运行相应程序。

　　市场嗅到了技术带来的机会风口，AI Agent成为科技巨头竞相追逐的前沿方向。目前，已经出现不少泛化的Agent概念产品，微软的Copilot，谷歌的Gemini都是这一队列中曾被寄予厚望的数字助手。

　　如今，GPT-4o的加速推出革新了智能交互的表现。前DCCI互联网数据中心创始人胡延平认为，GPT-4o重新定义了机器视觉、听觉和摄像头的交互模式，应用爆发力不可估量。

　　新技术进展为巨头们的错失恐惧又添一把火。据悉，谷歌计划在2024年I/O开发者大会上推出个性化数字助手“Pixie”，由Gemini驱动，有望整合多模态功能。

　　微软也在蓄力开拓AI Agent的新场景。为了打造个性化聊天机器人，3月19日，微软已与Inflection AI达成协议，获得其核心技术授权；针对现有最接近AI Agent的Copilot，微软正努力解决如何为生成式AI提供良好提示词，为Copilot for Micorosft 365提供补全功能。

　　AI Agent的爆发之年，苹果同样意图升级被诟病“古老过时”的Siri。有知情人士称，苹果或将在iOS 18中引入由ChatGPT提供支持的聊天机器人。

　　更自然、更“类人”的GPT-4o掀起的巨大波澜，不仅影响上游厂商，还将波及产业链下游的终端厂商。OpenAI此次发布会呈现的新模型多基于手机端场景，为处于产业爆发前夜的AI手机产业带来新想象。

　　市面上AI手机等端侧智能体的生态离不开大模型技术底座，智能终端厂家需要重新审视底层大模型能力。

　　相较于单个AI应用，AI手机的卖点一直是人格化、记忆、感知和管理能力，跨APP交互能力。而具备情绪价值和自然交互能力的GPT-4o走入市场，要么会颠覆一众AI手机，要么会让留下来的AI手机“如虎添翼”。

　　卢言霞告诉21世纪经济报道记者，“GPT-4o意味着大模型在端侧的落地更进一步。短时间内，肯定是谁的端侧交互能力强，谁就会赢得用户。在中长周期内，后来者也会迎头赶上。应该说，这是端侧与AI助手的双赢，毕竟上游厂商没有精力面向每个场景做优化与工程化，还是需要产业链的协作。”

艾媒咨询｜2023年中国AIGC行业发展研究报告

秘鲁互联网市场发展状况及用户行为调查大数据人口统计和使用

玻利维亚互联网市场发展概况及各细分用户行为洞察数据电子商务关键数据

全球互联网广告行业发展概况及消费行为研究数据广告用数据说话