专访全国政协委员陈松蹊：深度学习和统计分析相结合，推动人工智能的高效绿色发展

2024-03-11 周潇枭 21世纪经济报道阅读 14500

艾媒咨询｜2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展，AIGC技术也日益成熟，广泛应用于更多领域，其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测，预计2023年中国AIGC核心市场规模将达79.3亿元，2028年将达2767.4亿元。

中国乡村数字经济市场发展状况与消费者行为调查数据科技消费

英国数字经济大环境分析与运行状况研究数据经济领域

中国新经济产业发展状况及TOP100独角兽企业排名科技消费用数据说话

　　政府工作报告指出，制定支持数字经济高质量发展政策，积极推进数字产业化、产业数字化，促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用，开展“人工智能+”行动，打造具有国际竞争力的数字产业集群。

　　全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊今年两会带来的提案跟“数字中国”建设相关，他建议加强数据分析人才培养、推进公共数据开放，这样中国才能在全球数据赋能竞赛中成为“领跑者”，才能更好地推动实现科技自立自强。

　　近日，21世纪经济报道记者带着相关问题专访了陈松蹊。陈松蹊表示，中国发展人工智能要走自己的路，可以把深度学习和统计学结合起来，走一条更效能更绿色的发展之路。

（全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊，采访者供图）

　　数据驱动经济腾飞有经典案例

　　《21世纪》：今年两会你带来的提案，有一份是关于加强数据分析人才培养。在推进人工智能发展过程中，数据起到什么作用？数据分析起到什么作用？

　　陈松蹊：人工智能的算法是基于数据，基于高质量数据。人工智能的基础，一个是计算机，一个是统计学。像人工智能大模型，就是基于大量的、无序的、有偏差的数据，应用统计思想、统计分析方法，构建的分析决策模型。

　　近些年，人力资源部发布的数据显示，我国数据分析人才非常欠缺。大量数据要真正实现“赋能”，需要经过数据分析，因为数据存在随机性、误差等特征。只有通过分析数据才知道其质量、价值、是否可以赋能；只有经过统计分析才能真正用于决策。

　　统计学是一门基础学科，各个学科的实证分析，都需要用到统计学。统计学科数据赋能的历史已有150年，在农业、工业、生物制药、医学、金融等领域都有广泛的应用。

　　像日本经济实现腾飞很关键的一环在于1950年代开始使用统计学的质量控制，在数据分析的基础上提升了工业产品质量，是数据驱动经济腾飞的经典案例。药物临床试验要做的实证分析，是通过实验组和对照组来对比验证药物是否有效，这里面数据的采集分析需要用到统计学方法。美国几个大的药厂都雇佣600名统计博士。另外一个数据赋能的成功案例是信用卡公司，信用卡个人信用风险评估，就是基于大量个人数据，应用统计学方法建模分析对不同客户进行风险打分。近年来，部分统计学毕业生进入互联网公司，跟算法工程师一起完善算法。

　　我们团队之前监测大气污染的治理效果，就在考虑统计团队可以贡献什么。因为此前评估空气污染治理效果，主要基于观测到的大气污染平均浓度，但是大气污染受到排放、气象条件等多因素影响。我们应用统计学方法剔除掉气象因素，排除掉“天帮忙”的情形，基于排放来监测大气状况，来评估地方大气治理的效果，这样的评估会更加公平有效。

　　加强统计分析来挖掘数据生产力

　　《21世纪》：我国大数据产业发展多年，但很多大数据公司似乎难以盈利，在你看来背后的原因是什么？

　　陈松蹊：我国大数据产业发展有十多年了，此前很多公司侧重在卖硬件，在显示、存储、算力等方面投入较多，但是在数据分析这块还比较欠缺。要真正实现数据赋能，不能只是配备硬件，需要在某个领域里深耕，真正利用数据分析实现科学决策，这样才能真正盈利。现在要补齐数据分析能力，基于行业特点通过数据分析，才能判断数据的质量和价值，才能摸索出数据赋能的路径，才能释放数据的生产力。

　　数据赋能现在有两条路，一条是自上而下，一条是自下而上。“自上而下”就是大模型的应用，使用通用模型来解决问题。但是，大模型耗电量很大，需要使用很多超算，训练模式也比较复杂，通用大模型下沉到具体企业还有很长的路要走。对于企业而言，其实更适合“自下而上”，就是企业把自己产生的数据先分析利用起来，在此基础上解决企业、行业现实的问题。数据赋能是一个长期事业，需要企业有自己的数据分析师，而不是只是找短期咨询师，咨询完后就走人。

　　数据是国家或企业的战略资源，但是数据本身不会自动赋能，要通过数据分析才能实现。通过数据分析挖掘数据生产力，是数字中国建设的一个关键。

　　统计分析让人工智能更高效更绿色

　　《21世纪》：去年美国的ChatGPT，今年开年的Sora，都让大家惊讶于人工智能的发展。中国的人工智能应该朝着什么方向努力？

　　陈松蹊：中国需要走出自己的路，不然总是跟在别人后面。现在大模型主要靠算力，也消耗很多能源，中国可以考虑是否能让人工智能变得更绿色，比如把深度学习和统计分析结合起来，在前端做更多聪明的事情，减少一些蛮力投入，这样对能源的消耗不会那么大，让人工智能的发展路径更加绿色高效。

　　公共数据开放需建立规范机制

　　《21世纪》：你今年还有一份提案，建议“加强公共数据共享，推动科技数据自立自强”。公共数据的开放，现在是否变得更迫切？在推动公共数据开放共享方面，有何建议？

　　陈松蹊：数据是最新的生产要素，新质生产力的发展往往需要数据驱动。要想数据赋能，要想弯道超车，需要有顶层设计，需要在数据标准、交易制度、数据开放等方面做更多工作。2023年专门成立国家数据局，就是为了更好推动相关基础工作。

　　科学家和企业对公共数据都有需求。比如，智慧农业对气象、地表、土壤等数据都有需求。科学家们需要稳定的数据来源，因为做科研发表时所用数据其他人也要可以获取，用于重复验证，因此公共数据对外公开的标准和格式都应该有规范，不要随意更改。

　　要推动实现高水平科技自立自强，首先需要提高公共数据的开放度。中国科学家可以基于中国海量数据，构建高质量的数据集，进而推动相关研究、人工智能往前发展。

　　因为国内公共数据获取存在困难，我国科学家大量使用国外的公共数据进行科学研究。比如英国生物银行基于30万大样本人群的遗传、生活环境和健康数据，是脑科学、生物统计、人口遗传等学科研究常用的数据来源。华为的盘古气象大模型，是基于欧洲气象中心的数据，构建了再分析数据集，进而训练成功的。世界卫生组织发布的各国流行病数据，也是开展相关研究的重要公共数据来源。

　　在公共数据开放方面，政府可以带个头。那些不涉及国家安全的数据，诸如经济、地球科学、交通、气象等数据，应该尽可能多地公开共享。建议建立一套公共数据公开透明的机制，明确哪些可以对外公开，哪些做了风险评估后公开，哪些需要签订保密协议等。当然，搜集采集数据是有成本，有些数据的获取可以收费。

艾媒咨询｜2023年中国AIGC行业发展研究报告

中国乡村数字经济市场发展状况与消费者行为调查数据科技消费

英国数字经济大环境分析与运行状况研究数据经济领域

中国新经济产业发展状况及TOP100独角兽企业排名科技消费用数据说话