谷歌发布Gemini模型,30 项性能测试得分超过 GPT-4
传闻中谷歌重点研发的Gemeni模型,今日终于正式露面。
当地时间12月6日,谷歌官网发文介绍“我们有史以来最大、最强的AI模型Gemini”,其包含了三个套件:
Gemini Ultra——谷歌参数量最大、性能最强的模型,适用于高度复杂的任务;
Gemini Pro——可扩展各种任务的模型;
Gemini Nano——高效的设备端任务模型。
Gemini系列模型主打多模态、灵活性两个能力。官网将Gemini定义为一款“原生多模态”(natively multimodal)模型。可以理解为,Gemini的出厂设置就是“全科发展”,多种感官在模型内统一学习,而不是单独学习再拼接到一起——后者是GPT等模型采用的标准做法,有可能带来“偏科”问题,也就是更擅长处理文字或者图片。
这就意味着Gemini可以直接理解不同类型的信息,包括文本、代码、音频、图像和视频,不需要额外的转换,各种模态的性能也更为平衡。
官网介绍,原生多模态能力让Gemeni能够“回答更复杂的问题”,“特别擅长解释数学和物理等复杂学科的推理”。 官网强调了MMLU(大规模多任务语言理解)的测试结果——MMLU测试旨在衡量模型处理文本和图像的能力,包括大学数学、物理、经济学、社会科学等一系列问题。Gemini Ultra 的得分高达 90.0%,首次超越了人类专家。
值得一提的是,在32 项性能测试标准中,Gemini有30 项得分超过了 GPT-4,不过大多差距很小。
灵活性方面,谷歌推出了更多模型应用的选择。比如Gemini Nano作为最轻的模型,适用于内存空间有限的移动设备。该模型将在12月首次内置于谷歌手机Pixel 8 Pro,支持录音自动摘要、键盘智能回复两项功能,未来预计将更多功能置于安卓手机离线运行。谷歌CEO桑达·皮采还表示,Gemini 将出现在更多的产品和服务中,例如谷歌搜索、广告营销、Chrome浏览器和 Duet AI。
“我们确实看到Gemini全面开辟了新的领域。”谷歌 DeepMind 产品副总裁在近日一场的电话会议中表示,但他也承认大模型仍然存在不可小觑的幻觉、偏见、滥用问题。真正直指GPT-4的Gemini Ultra模型目前还在接受内部、外部的红队安全测试,预计明年年初才会上线。
需要保持关注的是,即将由Gemini Ultra模型支持的对话机器人Bard,会迎来最大的一次更新。更新后的Bard计划在 170 多个国家、地区提供服务,但没有包括欧盟和英国。负责Bard的谷歌副总裁表示,这是为了让公司与当地监管机构继续“接触”。