中国大模型创业风潮:应用创新是下一个突破口
从去年的ChatGPT,到今年的Sora,国内对于大模型的讨论居高不下。
过去一年以来,资本市场也在试图挖掘出“中国版的OpenAI”。在巨头注资下,月之暗面、智谱AI、百川智能等国内AI创业公司正迅速成长为大模型领域的独角兽。
无一例外,这些企业都聚焦在大模型本身,这也是去年初大多数企业的创业方向。百模大战、千模大战的喧嚣之后,行业也面临着泡沫和洗牌。有投资人向21世纪经济报道记者表示,通用大模型的创业窗口已经关闭。
面对这样的行业格局,创业者们纷纷将目光从大模型本身转向了更为落地的商业化应用。2月25日,仅成立3个月且只有3名员工的“AI+游戏”应用公司“奇酷网络”正式对外宣布:以3000万元人民币的估值,成功获得500万元人民币的融资。
AI时代的应用竞赛已经开始,在大模型的基础设施和技术逐渐成熟的过程中,应用创新显然将成为下一个重要的突破口。业内有观点认为,2024年或是AI大模型应用的浪潮年。
“去年处于一种‘叠加复杂态’,投资人和创业者都摸不清方向,同时欠缺基础保障,”OpenCSG创始人陈冉向记者表示,“今年来看,创业者对于自己可以做什么都更加明确。”
虽然大模型技术的发展并未到达天花板,但其带来的机遇和变革都被业界普遍认同。对于国内的大模型创业者来说,2024年确实是一个路径更加清晰的起点。
风口吹出独角兽
就在前几天,一场AI界的巨额融资引发多方讨论。国内AI创业公司月之暗面,于近期完成新一轮超10亿美元融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。
据悉,此次融资被视为自ChatGPT爆火以来,国内AI大模型公司获得的最大单轮金额融资。在本轮融资后,月之暗面的估值已达到约25亿美元,成为国内大模型领域的头部企业之一。
很难想象这家获得巨额融资的公司成立还未满一年。这不仅体现了月之暗面自身的实力和潜力,也反映了国内大模型初创企业整体的发展态势和资本市场的动向。风口给了创业者机会,据统计,截至2023年11月20日,2023年有14 家人工智能公司在一级市场获得了1亿美元以上的融资,其中,基础大模型的初创企业被更多地看见和关注。
例如,成立于4年前的智谱AI于去年宣布融资额达到25亿元人民币,估值超过百亿,投资方包括社保基金、阿里、腾讯、高瓴等知名机构。该公司是国内最早研发大模型的企业之一,在当时存在BERT、GPT和T5等主流预训练框架之外,提出了GLM(General Language Model)算法框架。
“想要追赶,你不能简单踩着别人的脚印往前走。”智谱CEO张鹏向21世纪经济报道记者表示,从呈现效果上GLM-4正在追赶GPT-4,但具体的实现路径有细微差别,他认为,这是后发者的优势所在。
由前搜狗公司CEO王小川创立的百川智能也在去年获得A1轮3亿美元投资,由阿里、腾讯、小米、深创投等机构参投。过去一年,百川以平均每28天的速度迭代大模型,在成立后半年时间内就发布了7款基础大模型,其研发速度远超行业平均水平。
同样成立于去年的零一万物是由创新工场董事长兼CEO李开复创办的人工智能公司。该公司于2023年11月6日完成了新一轮融资,由阿里云领投。融资后,零一万物的估值已超过10亿美元,成为AI 2.0领域的独角兽公司。
类似的企业还有MiniMax、深言科技等,投资人用脚投票,让多家大模型初创企业在极短时间内跻身独角兽之列。这些初创企业的实力也并不差,在《SuperCLUE中文大模型基准测评报告,2023》中,大厂和创业公司大模型的平均成绩差值约1分,几乎持平。
“国内大模型公司的发展都非常快,突破也很大。毕竟过去的一年,这些公司基本都是all in AI大模型。”IDC中国研究总监卢言霞向21世纪经济报道记者表示,“当然每家公司都需要时间,这些投入才能真正体现在模型能力上。”
通用大模型创业窗口关闭
新年伊始,各家大模型企业纷纷推出新一代大模型:智谱AI发布了新一代基座大模型GLM-4,相比上一代性能全面提升了接近60%,表示在多个测评集中评分逼近GPT-4;百川智能发布超千亿参数的大语言模型Baichuan 3,宣布在中文任务上超越了GPT-4;MiniMax发布大语言模型abab6,是国内首个MoE(Mixture of Experts混合专家模型)大语言模型,也宣称对标GPT-4。
虽然从各家公司的口径中不难看出其追赶OpenAI的野心,但仔细观察便可知,各家大模型通常只在某一项或几项能力上接近或超越GPT-4,尤其在中文能力上做得更加突出。
在OpenCompass2.0大语言模型评测中,评测结果显示,国内模型在中文场景下相比海外模型具有性能优势,在中文语言理解、中文知识和中文创作上相比GPT-4 Turbo具有较强的竞争力,甚至部分模型实现了部分维度上对GPT-4 Turbo的超越。
但整体来看,与GPT-4的差距仍然较大。“现在国内主流的大模型的能力水平基本上在GPT3.5上下。”非凡资本合伙人吴畏向21世纪经济报道记者表示,在他看来,其中差距至少在半年以上。
大模型的核心壁垒包括算力、数据、算法,一切需从底层做起。度小满CTO许冬亮曾在2023金融街论坛年会上表示,只有极少的企业能够从头到尾地完成产业级研发。
不仅如此,这条赛道已经十分拥挤。公开资料显示,到去年10月时,国内已涌现了238个大模型;自2023年8月第一批国产大模型通过备案起,截至今年2月,已经有40余款大模型获批对外开放。到现在这个时间点,这显然已经不再是一个适合创业公司的赛道。
在吴畏看来,通用大模型不是创业者的应许之地,且通用大模型的创业窗口已经关闭了。而对于已经成长起来的大模型企业来说,也面临着诸多挑战。
“对于国内大模型企业来说,不是拿了多少钱才是成功,而是谁能把商业模式跑通的问题。”陈冉向记者表示,“如果商业模式没有验证清楚,拿的钱越多其实负担越大。”
过去的一年,大模型目前处于泡沫期,拥有技术力量的公司不想被时代的浪潮抛下,所以有了百模大战、千模大战。当行业进入成熟期,只有少量企业能真正赋能行业,挤掉泡沫后才能沉淀出价值。
“大模型之后会逐渐呈现寡头的趋势,因为算力有限的情况下,大模型过于同质化,会使得算力资源以及数据资源在未来集中,有一些价值性不高的大模型也会逐渐被淘汰。”沙利文大中华区总监李庆向21世纪经济报道记者表示。业内普遍认为,在通用大模型中,最后胜出的只会是少数的几家巨头。
未来押注基座还是应用?
经过了一年的生长,大模型企业的方向逐渐明晰:要么深耕基座技术,要么聚焦应用创新。而后者则被认为是当前更合适的创业路径。
在去年11月的西丽湖论坛上,百度创始人、董事长兼CEO李彦宏就曾表示,“AI原生时代,我们需要100万量级的AI原生应用,但是不需要100个大模型。”在百度世界2023现场,百度率先甩出了十余款AI原生应用。
目前,应用创业一种路径是基于原有的产品来融合大模型的能力,另一种路径是重新搭载关于大模型的基于场景的应用。大多数应用都是选择了后者。
对于创业者来说,应用方面的创业确实更容易起步,对于投资者来说,也倾向于更快见到商业上的反馈。
“投资人一方面关注这个项目本身AI的含量,另一方面也关注应用的商业化程度。”吴畏向记者表示,在他看来,已经具有场景和数据+AIGC应用层公司,其商业成功概率无疑更高。
去年,大模型应用的创业已经显露头角,如上传20张照片生成写真照的妙鸭相机,输入几个关键词就可生成高质量视频的Pika等等,在市场上掀起极高的讨论度。业内普遍认为,原生应用能够撬动更大的商业价值。
但遗憾的是,去年国内没有产生一款持续火热的应用,究其原因,陈冉认为,去年国内的大模型基础设施还未做好准备,造成应用得不到持续的保障;另一方面技术层面也没有非常成熟,应用形成不了客户粘性。
他同时强调了生态的重要性,他认为,目前国内大模型的生态站位还没有形成,上下游还没有完全打通,还需要一段时间的汇集,当生态成熟之后应用会更加蓬勃发展。
“我能感觉到的是,90%以上的人都会在应用方面去创业,5%左右在生态创业,剩下的5%在大模型其他要素里面或者大模型本身。”陈冉向记者表示。
当然,深耕大模型的初创企业仍然坚持在打磨基座的路上继续走下去,短期内业内对于大模型发展的路径并不一致。
“有人认为中国原创大模型的基础不行,就等着看应用;也有人认为还有机会,值得努力一把,比如像我们。”张鹏向记者表示。
他认为,大模型的技术还没有到天花板,也没有到稳定的阶段,过早地强调应用,反而有可能把这个整个势头拖慢下来。“总有第一拨人做0到1的事情的。”
张鹏表示,大模型发展速度过快,短期之内业内对发展路径的观点很难统一。但将时间维度拉长到十年,业内对于大模型带来的机遇和变革是认同的。
对于国内的大模型创业者来说,2024年确实是比上一年有着更加成熟的基础设施以及更加清晰的路径选择。但这也是一条长征路,需要人工智能行业所有的参与者、产业链上下游合作伙伴、开发者社区、学术界的共同建设。