AIGC周报 | 腾讯大模型上线文生视频，并宣布开源；“AI教母”李飞飞空间智能首个模型诞生！一张图可生成交互式3D场景

2024-12-10 李相二艾媒网阅读 14388

艾媒咨询｜2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展，AIGC技术也日益成熟，广泛应用于更多领域，其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测，预计2023年中国AIGC核心市场规模将达79.3亿元，2028年将达2767.4亿元。

　　近年来，随着大数据、云计算、深度学习等技术的飞速发展，AIGC作为人工智能领域的重要分支，正深刻改变着内容创作、信息检索、人机交互等多个领域。接下来让我们一起来看看过去的一周AIGC领域发生的新鲜事！

　　腾讯大模型上线文生视频，并宣布开源

　　12月3日，腾讯宣布，混元大模型上线并开源文生视频能力，参数量达130亿，支持中英文双语输入。“用户只需要输入一段描述，即可生成视频。”腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝App，用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

图片来源：腾讯混元微博截图

　　可灵AI导演共创计划9部AIGC电影短片正式上线

　　12月6日，由快手可灵AI联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位导演打造的9部AIGC电影短片正式亮相，涵盖奇幻、志怪、亲情、动画等多元类型。首映礼现场，快手将可灵AI导演共创计划的9部AIGC电影短片捐赠给中国电影博物馆。作为中国首个AIGC导演共创计划的成果，9部AIGC电影短片被中国电影博物馆永久收藏、放映展示。

图片来源：可灵AI微博截图

　　艾媒分析师点评：AI生成视频技术的迅猛发展正引领着影视创作与传播的深刻变革。2024年年初OpenAI发布的sora让世界看到了AI生成视频令人惊叹的质量，而时至今日仍未对外开放的sora似乎正在被一大批中国的视频生成模型迎头赶上。腾讯混元大模型的文生视频能力上线并开源，标志着国内在视频大模型领域的又一重要突破，其130亿参数量与双语支持展现国产视频生成模型技术的强大实力。与此同时，快手可灵AI通过导演共创计划，将AIGC电影短片推向实际应用，不仅拓宽了艺术创作的边界，也为中国电影博物馆增添了未来艺术的瑰宝。

　　除了电影短片，2024年9月，《聊斋志异》系列AI短剧上线各大平台，从短剧到电影短片，是AI生成视频在质感、逻辑、连贯性上的全面提升。目前，AI生成视频正逐步渗透影视、广告、游戏等行业，这一趋势不仅重塑了内容生产的模式，也为文化产业注入了前所未有的活力与创造力，未来，AI生成视频技术将持续拓展应用场景，推动影视行业的全面革新与发展。

　　阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源

　　11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。

　　OpenAI推出“满血版”推理模型o1和ChatGPT Pro

　　12月6日，OpenAI为期12天的活动开幕。在第一天的活动上，OpenAI创始人Sam Altman表示，今天发布的是“满血版”推理模型o1和ChatGPT Pro（每月订阅费200美元）。据介绍，o1是世界上最智能的模型。比o1-preview更智能、更快速、功能更多（例如多模态）。现已在ChatGPT中上线，即将在API中推出。新推出的ChatGPT Pro将能够充分利用模型和工具，包括无限接入OpenAI o1和一个仅仅有Pro版本的o1。

　　艾媒分析师点评：当前，推理AI正在蓬勃兴起。从国外OpenAI的o1到国内通义千问的QwQ、月之暗面的k0 math和Deepseek的DeepSeek-R1-Lite，一个个具有推理能力的AI大模型昭示着人工智能正一步步学会像人类一样深度思考与推理，而非像传统的大语言模型那样只能理解字面意思、搜索并整理海量信息却较难进行自我判断与纠正。国产推理大模型表现出色，在一些数学能力评测中，得分甚至不输于o1，在全面考察数学解题能力的MATH-500评测中，QwQ斩获90.6%的高分，一举超越了o1-preview和o1-mini。采用强化学习和思维链推理技术的大模型能够试图模拟人类的思考和反思过程，从而增强AI的数学推理能力。推理AI的发展与完善将帮助人类解决复杂困难的数学问题，促进知识的发展，进一步推动国际事务和科学技术等领域难题取得突破性进展。

　　“AI教母”李飞飞空间智能首个模型诞生！一张图可生成交互式3D场景

　　当地时间12月2日，AI学者、斯坦福大学教授李飞飞公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。虽然已有众多AI工具可以将照片转换为3D模型和场景，而World Labs称，他们所生成场景的独特之处在于它们具有交互性，而且是可修改的。“（我们的技术）能让你走进任何一张图像，并以3D的形式对其进行探索。”World Labs在一篇博客文章中写道。在World Labs网站的演示里，这些由AI生成的场景均通过浏览器实时渲染而成，用户可以使用箭头键或键盘（WASD）键移动，然后单击并拖动鼠标实现交互，从而自由探索场景。

　　DeepMind发布新基础世界模型Genie 2，解锁游戏制作新纪元

　　仅在李飞飞的团队发布新模型的两天后，当地时间12月4日，谷歌DeepMind官宣了其最新一代大规模基础世界模型Genie 2，可通过单张图片和文字描述生成种类多样的可玩3D世界。Genie 2与World Labs有诸多相同之处，如单图生成可交互3D场景、空间记忆能力和扩图能力，但在底层技术逻辑上，二者仍有本质区别。普林斯顿AI创新中心创始人、主任，终身教授王梦迪表示Genie2使用的是video diffusion（视频扩散）技术，每一帧画面的生成都基于pixel prediction（像素预测），并通过额外的用户输入的引导来影响下一帧的概率分布；而World Labs则做到了挖掘世界的物理本质，从图片出发，估计图片中不同景物的深度和相对关系，从而生成了更加物理世界的3D环境建模。

　　艾媒分析师点评：“世界模型”是近年来兴起的人工智能新领域，该类模型旨在创建对世界运作方式的内部表征，并具备推理行动后果的能力，可用于预测未来环境状态，帮助AI做出更明智的决策。World Labs和DeepMind发布的世界模型标志着AI技术在模拟和交互虚拟环境方面的巨大进步。这些模型不仅能够从单张图片生成可交互的3D场景，还提升了控制力和一致性。World Labs的系统通过估算3D几何形状和填补场景中未见部分，生成新内容，使用户能够以游戏般的方式自由探索3D场景。而DeepMind的Genie 2则能够生成可交互的3D游戏，并且保持虚拟世界的一致性，即使在视野之外也能准确再现场景。这些技术的应用将改变电影、游戏、模拟器等数字内容的制作方式，为创作者提供更快速的构思和开发流程。同时，作为世界模型，它们在机器人技术、游戏开发和气候建模等领域的潜在影响也不容忽视，为AI的未来发展开辟了新的可能性。

　　广电总局再发管理提示，规范AI“魔改”短视频

　　12月7日，广电总局网络视听司发布《管理提示（AI魔改）》指出，近期，AI“魔改”视频以假乱真、“魔改”经典现象频发。如《甄嬛传》变身“枪战片”、《红楼梦》改成“武打戏”、孙悟空骑着摩托车扬长而去等。《管理提示》认为，这些视频为博流量，毫无边界亵渎经典IP，冲击传统文化认知，与原著精神内核相悖，且涉嫌构成侵权行为。《管理提示》提出具体管理要求。首先，各相关省局督促辖区内短视频平台排查清理AI“魔改”影视剧的短视频，并于12月10日反馈工作情况；第二，严格落实生成式人工智能内容审核要求，举一反三，对各自平台开发的大模型或AI特效功能等进行自查，对在平台上使用、传播的各类相关技术产品进行严格准入和监管，对AI生成内容做出显著提示。

　　加拿大多家媒体起诉OpenAI侵犯版权

　　艾媒网（iimedia.cn）获悉，加拿大多家主流媒体11月29日入禀法院，以侵犯版权为由，对开发人工智能应用ChatGPT的美国科技公司OpenAI联合提起诉讼。兴讼媒体指称，OpenAI“经常违反”版权和在线使用条款，从加拿大媒体上抓取大量内容，以帮助开发ChatGPT等产品。OpenAI在未获内容所有者许可或对此作出补偿的情况下，利用这些内容并从中获利。

　　艾媒分析师点评：AIGC的发展，一方面降低了内容创作的门槛，另一方面也带来了版权侵犯、隐私泄露等问题。AI“魔改”短视频既可能侵犯原作者版权，也存在过度解构、扭曲原作、篡改原义等问题。OpenAI等大模型的训练过程中所使用的大数据，也潜藏着未经用户同意而直接使用平台数据导致个人隐私泄露、创作内容版权被侵害的风险。AI的安全问题不能仅靠某企业或平台的自觉，还需要整个行业加强自律、优化模型训练流程、推进技术创新，更重要的是，国家与政府需要加快对研发AI模型的公司以及传播AI生成内容的平台的监管与规范，促进AIGC行业的健康发展。

责任编辑：竹杉

艾媒咨询｜2023年中国AIGC行业发展研究报告