21对话丨全国政协委员、中国工程院院士王坚:发展AI,最重要的是找到真问题
AI,是今年全国两会的热词之一。除了频频在代表委员的提案中被提及,“人工智能+”还首次被写入政府工作报告。
赛迪研究院数据显示,2023年中国AIGC的企业采用率已达15%,市场规模约为14.4万亿元。专家预测,2035年生成式人工智能有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元。
百模大战升级,跟不跟?OpenAI发布Sora,意味着什么?AI带来的颠覆性变革下,还有许多追问。
什么是人工智能产业发展的真问题?全国两会期间,南方财经全媒体-21世纪经济报道记者就此对全国政协委员、中国工程院院士王坚进行了专访。
(全国政协委员、中国工程院院士、之江实验室主任、阿里云创始人王坚)
切忌人工智能庸俗化
《21财经》:从22年年底ChatGPT登场至今,产业界已经历经多轮搏杀。您认为,国内的“百模大战”跑出了哪些您认为比较成功的场景、产品或者技术?
王坚:要谈优劣,首先需要明确讨论的对象。我认为当前所谓的百模大战优劣讨论中,包含了几个不同层面的概念。
首先,真正意义上的大模型包括两种类型:第一种是基础模型(foundation model);第二种是基于基础模型做了一些针对性调试(fine-tuning)的模型,这种大模型在某一个领域、场景表现得更好。前者可以叫通用模型,后者可以称作是应用模型(专用模型)。
在这两类模型之外,还有模型应用。所谓模型应用,是指根据现有的模型开发一个应用来提供服务。在模型应用背后提供支持的,可以是通用模型,也可以是垂直模型。
以OpenAI为例,该公司的GPT是早在2017年就已经存在的技术概念,GPT-3、GPT-4等,是公司开发的基础模型,而ChatGPT、Sora则是基于基础模型的应用产品。
不同层级的概念,比较的标准也不同。因此,比较应该在同类型的技术或产品间展开。
如果是在基础模型的领域作比较,Hugging Face社区上的模型榜单是相对更有参考性的。这个社区汇集了世界各国、各种版本的大语言模型,样本量较大,所以如果模型能上榜,其质量相对来说会有一定保障。
不过,虽然目前行业内有一些共识,但是要给出确切的指标和“谁比谁好”的定论,并不容易。
处在大模型创业初期的公司为了展现其潜力,可能会倾向于强调他们的应用拥有大量的用户;一些更关注底层技术的公司会更注重其基础模型是否优越。我个人观点还是支持基础模型的能力更重要。毕竟,如果能力一成不变,用户的数量增长和留存率都很难维持。
总而言之,我认为谈比较还太早。对于这种还处于发展早期的技术,讨论出一个确切的答案要考虑太多复杂的因素,还需要投入更多的精力和资源研究讨论。
《21财经》:两会期间发布的政府工作报告首次提出了“人工智能+”的概念,您怎么理解这个词?您认为它会对AI以及其他行业产生怎样的影响?
王坚:“人工智能+”是对未来人工智能产业非常好的总结,对推动人工智能技术在我国快速发展有着极其关键的引导作用。但需要我们认真理解“人工智能+”的机理以及它对产业变革影响的内在规律。我们一定要防止出现“AI”的深刻、长远影响走向庸俗化,产业发展上只是“新瓶装旧酒” 的情况,让我们失去一次历史性机会。
除了要警惕AI庸俗化,我认为还应该思考“人工智能+”的真正含义,明确人工智能的概念和对千行百业的真正意义。需不需要用?具体用在哪个方面?该怎么用?不同行业面对这些问题的答案不尽相同。
同时,只想到AI的加和效应,可能太过简单。人工智能未来不会只是一个叠加在现存的应用上的工具,它可能会改变一个行业的生产方式。以Sora为例,它的出现可以简单看作是“AI+短视频”的成果,但本质是智能技术除了理解语言之外,开始理解和生成物理世界,尽管它的表达是用视觉的。
发展新技术需要审慎考量。从业者要思考究竟如何与AI结合能够实现质的突破,而不是把“人工智能+”当成一个框,把所有已有的东西都套进来。
人类暂时无法预测AI的最佳实践
《21财经》:今年年初,OpenAI发布了新产品Sora。Sora的出现对国内AI产业冲击大吗?
王坚:很多人看到Sora后只觉得它可以用来做短视频,其实是对这个技术的低估。
过去讨论大模型,很多时候主要说的是大语言模型。语言模型输出局限于文字的表达;Sora这类产品和技术不同,它们输出的是视觉性的结果。尽管仍有许多无法通过视觉呈现的东西,但相对文字,视觉描述的真实世界能提供更多细节。
Sora给人类社会带来的惊喜在于其通过精准的视频生成,展现出了对物理世界优秀的理解能力。Sora和ChatGPT背后的基础模型其实都基于GPT-4,但输出上已经从文字迈向视觉,这种优异表现,让我们意识到其背后的基础模型在理解能力上又有了极大进步。
它的出现也会让人开始思考:人工智能模型是否真正能够理解我们的世界,甚至能够在理解和生成方面超越我们?Sora展现出的潜力让我意识到,这个问题的答案很有可能是肯定的。
回到国内产业影响这个问题。我认为,需要坦率地承认,在这个赛道上国内外确实是有一定差距。 以前国内也出现过类似的产品,但是生成的视频不超过10秒,技术效果和市场表现都比较一般,企业最终也没能长久存活。
根源问题无非就是在类似GPT4的基础模型技术上还有差异和壁垒。我认为,不需要心急,也没必要盲目地追逐热点,扎扎实实地在基础模型研究的过程中,不断发现和解决问题,最终会开发出属于中国的基础模型和商业模式。
《21财经》:今年可以称得上人工智能的应用元年,阿里云也在不久前发布能让图片“开口唱歌”的技术EMO。您观察比较现实的落地应用场景有哪些?
王坚:现实的应用场景是什么,这个问题很难说清楚。我认为,至少会比大家目前着眼较多文字、图片、视频等生成领域要广泛得多。
Sora的出现使我们意识到人工智能在世界理解问题上的进步,这是AI智能程的革命性突破,使其超越了其传统意义上只会模仿人的程序,进一步迈向数字智能。AI未来的可能性是无限的。
在我看来,最重要的还是坚持基础上的研究突破,把基础打牢、筑高,应用才能充分探索。
简单来说,我认为云计算-人工智能-AI应用的关系,和电-电动机-电动汽车的关系非常相似。
电能被发现之后,电动机也被发明和广泛使用。但从电动机出现到人们开上电动车,中间走过了百年时光。我们花费这么多年才发现电动车这一最佳应用,要花多长时间才能发现AI的最佳应用呢?坦白讲,AI技术还处在相当早期的阶段,可能谁都给不出答案。
AI之于当前的人类社会,就如同电灯之于百年前的人。现在的文生图、文生视频的模式,就类似电气时代早期电灯这类很初级的电能使用。
人类会从电灯一步步走向电动汽车,不能说还没把灯点亮就想到更远的事,同时也不能觉得电灯就是电力使用的全部。AI发展也是同理,其应用突破会随着技术不断升级一一出现,不是一蹴而就的。
在电动车成为现实的时候,电灯依旧是我们生活的基本单元,而电气化几乎涵盖了我们生产生活的近乎全部。我对人工智能引领的“第四次工业革命”也有这样的期待。
《21财经》:近期阿里、京东云降价相继降价,背后有何战略思考?人工智能应用浪潮下云计算有何新的增长点?
王坚:当下,人工智能的带来的工业革命浪潮正在全方位影响人类社会。作为一名云计算领域的从业者,我认为,AI同时也给云计算的带来了第三次革命浪潮。
算力是人工智能发展的三要素之一,而云计算是最好的提供算力的技术手段,英伟达的黄仁勋也表达过类似的观点。
云计算的算力,无疑会给大模型进步提供很大支持。这一轮的降价,最直观的效果是对AI发展有积极作用。之前从业者都担心算力贵导致无法支持AI训练,现在算力成本降低了,研发者在这方面的受到的掣肘会小一些。
我还是希望算力供给方和大模型开发方的关系能够越来越良性,大家共同成长。
开发基础模型是发展核心
《21财经》:您之前在受访时谈到,对人工智能技术来说,最重要的是找到每一轮发展的真问题。您认为当前AI产业的真问题是什么?
王坚:在我看来,当下的真问题就是如何打造一个属于中国的、足够强大的基础模型。
人工智能在很长时间里面找的都是玩具性问题(toy problem),比如,最早的时候,科学家尝试教人工智能下象棋。从深蓝的对弈到AlphaGo打败了李世石,AI在象棋界的成就次次都能引起很大轰动,但是后续对其他产业产生的影响可能不多。
ChatGPT和后续Sora的出现改变了这一点,它让我们意识到,AI的理解力已经能够涉足其他领域解决事实性的问题,我认为未来这样的情况会越来越多。我想我们可以设想一个这样的终极场景——让AI解决一个城市的运行和发展问题,城市GDP是多少、日常如何运转,都可以通过强大的基础模型来协调解决。
不过,从ChatGPT开始,到人工智能能够理解世界,还有很多工作要做。所以,专注打造基础模型,从根源上提升技术能力,是产业发展的核心。
《21财经》:数据也是产业发展不可缺少的动力,您认为当前高质量数据荒的问题应该如何解决?
王坚:数据问题的解决与建立一个真正的大模型息息相关。
以OpenAI为例,大部分ChatGPT的训练数据是互联网公开数据。技术人员开发了大模型,在使用数据训练迭代的过程中判断数据的优劣。换言之,如果不开始做模型,从业者就无法知道哪些数据真正有用。
把好的模型建起来,在运行的过程中,自然会找到合适的数据。基础模型的构建能够帮助人类完成AI“三驾马车”的考验:数据的数量和质量如何,算力的供给够不够,算法是否足够优秀……只有在一个真实的模型中,才可以完成对这些问题的检证。
治理是法律和技术配合
《21财经》:AI发展以来,这个行业在不同层面的“路线之争”常常被人们关注和讨论。随着应用变多,有人觉得AI变得“头脑发达,四肢简单”,没有解决人类发展的真问题。您觉得人工智能走偏了吗?
王坚:我也听过类似的观点——“人工智能应该先做到替人类下矿井、检修高压线、在空中擦玻璃;而不是先能够做视频、写文章、画画。”我对此非常赞成。
但是这其实并不是走偏,是技术发展还没到达让人工智能“四肢发达”的阶段。对AI目前的水平来说,让头脑发达(以GPT为代表),比让四肢灵巧容易。人类的灵巧的四肢是不断进化的结果,机器人短时间内可能很难实现。
至于为什么AI已经足够聪明,却还是出现“一本正经说瞎话”的情况。我认为还是基础模型能力不足,导致它没有办法真正理解世界。
《21财经》:人工智能,虽然可能在您看来我们才刚刚起步。但目前在应用中已经出现了AI换脸诈骗这类问题。您在AI治理方面有何建议?
王坚:我个人认为,技术投入使用后发现问题是非常正常的,问题的出现和解决会推动产业的发展。
我倾向于相信,技术发展会带来的问题一定会被人类自己解决。不过,这并不意味着问题会被自动解决,需要订立规则。解决AI应用导致的法律和伦理问题,需要法律和技术的协作配合。
以AI换脸诈骗为例,诈骗的成因之一,是日常生活中对人脸数据识别的大量使用。通过技术手段加强保护,或者制定规则减少使用、加大对滥用行为的惩罚,可能可以有效地阻止此类情况发生。
不管怎么样,我们对此要有信心。技术产生的问题,人类定会解决,历史证明了这一点。