“把问题底层原理搞清楚”就是基础研究

来源: 《中国科学报》

包云岗

日前,谷歌旗下的DeepMind公司在《自然》上发表论文,宣布使用其开发的人工智能程序AlphaFold2预测了人类98.5%的蛋白质,并决定公开AlphaFold2的源代码,免费开源有关数据集,供全世界科研人员使用。这一突破性进展立刻受到全世界的广泛关注,中国科学院院士施一公认为AlphaFold2是“人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一”。

那么,AlphaFold算基础研究吗?

对此,中国工程院院士李国杰将AlphaFold归为工程科学技术——“工程科学技术不只是工具,也不仅仅是基础研究成果的应用,而是在基础研究中可以发挥巨大作用的重要组成部分”。

笔者对于李国杰的这个论述特别有共鸣,同时个人对基础研究有以下几个观点,仅为抛砖引玉。

选择合适的“基础研究”的定义

科研有其自身的规律与法则,如果不按规律办事,就会事倍功半。那么,基础研究有什么规律?事实上,对于基础研究不同的定义反映了不同角度的认知,对应的具体实施方式也不同。总的来说,过去几十年主要有两种对基础研究的定义。

其一,VannevarBush在线性模型下定义基础研究和应用研究,这种模式把基础研究看作一个知识储备池,是技术进步的源泉。在这种定义下,基础研究的作用是产生知识,不需要考虑和具体技术的关系,因此在实施层面,“广撒网”可能是最有效的产生多样化知识的方式。

其二,Donald E.Stokes通过四个象限来定义不同的研究类型,Stokes把基础研究分为纯粹基础研究(玻尔象限)与“由应用驱动的”基础研究(巴斯德象限)。在实施层面,波尔象限和线性模型下的基础研究基本一致。而巴斯德象限中,要用尖端的基础科学研究来解决迫切、强烈且巨大的现实需求;在实践时,通过解决实际问题“倒逼”科研人员把一些应用问题的底层原理搞清楚。

笔者更青睐Stokes的四象限模型。在笔者看来,“把问题的底层原理搞清楚”就是基础研究。其实波尔象限与巴斯德象限在具体科研实践时是一样的,就是“把问题的底层原理搞清楚”,只是问题的来源有所不同而已。

波尔象限的问题主要来自学科自身,如为什么会有量子纠缠现象;而巴斯德象限的问题主要来自现实应用,如牛奶如何保鲜。从“把问题的底层原理搞清楚”这个角度来看,只要能提出一些未解的问题,那就有潜力做出好的基础研究工作。

要高度重视自研科研基础设施

我们可能都有一个体会,科技攻关时“第一次”往往特别困难,比如第一架飞机、第一颗原子弹、第一颗人造卫星、第一款CPU、第一次火星登陆等。哪怕曾经有其他国家实现过,另一个国家要实现“第一次”依然很艰难。

这主要因为这些“第一次”输出的不仅仅是一款原型系统,还包含背后一套研制该原型系统的技术流程以及相应的平台、材料、试剂、设备、仪器等,也就是科研基础设施。这些科研基础设施的作用正是“把问题的底层原理搞清楚”,比如,为研制飞机建设的风洞,研制CPU需要的高精度仿真器和模拟器。即使物理、化学、天文等领域的基础研究,现在也离不开各种尖端设备和仪器,像研究核聚变的托卡马克装置、研究天文的望远镜等。

笔者从事的CPU芯片设计,被很多人看作是纯粹的工程技术,认为这里面没有基础研究。但笔者并不认同。

举个例子,苹果最近推出的M1处理器性能甚至超越Intel的桌面处理器,这得益于M1采用了约600项ROB,这完全颠覆了传统CPU架构设计人员的观念,因为以往CPU的ROB一般都不超过200项。也许用反向工程思维,可以很快做出一个也具有600项ROB的CPU架构设计来。但是,苹果为什么这么设计?为什么是600项ROB,而不是400项,或者800项?反向工程只是工程技术,但如果能把“问题的底层原理搞清楚”,那就是CPU架构设计领域的基础研究。

要搞清楚底层原理并不容易,这需要一整套CPU架构设计基础设施的支撑(程序特征分析技术、设计空间探索技术、高精度模拟器、系统仿真技术、验证技术等),还需要对大量程序特征进行分析,需要收集大量原始数据,需要大量细致的量化分析,需要大量的模拟仿真……

某种程度上,相较于原型系统,平台/材料/试剂/设备/仪器等科研基础设施是更重要的输出。只有具备这些,才能不断深入探索各种现象的底层原理,才能支持后续的迭代优化,同时才能持续培养人才。

基础研究与工程开发相互交融

基础研究和工程技术并不是简单的二元对立。相反,在很多领域基础研究和工程开发是交融在一起的。出现这种交融是因为很多研究所需要的科研基础设施,如新平台、新设备、新流程都需要工程投入。即使是探测引力波、希格斯粒子这样的基础研究,也需要工程投入研制仪器设备。一旦有了这类科研基础设施,其他人开展科研就会容易很多。

美国基础研究很强,其中一个原因在于有不少学者在大学和企业研究院里建设这些科研基础设施。比如在CPU芯片设计领域,有GEM5模拟器、CACTI模型、FireSim仿真平台等一系列基础设施,这可以让其他大学的学者更容易开展研究。因此,有一些学者认为基础研究不需要工程,主要还是因为有人已经帮他们把底层的科研基础设施搭建完善,让他们可以更容易地去做优化,更容易发表论文。

美国的很多科技企业内部也会构建一套和学术界总体上打通的科研基础设施(有开源共享的、有内部自研的)。将业务需求和内部数据导入到企业的科研基础设施中,能很容易消化学术界产生的新想法,集成到企业的产品中。因此,打通的基础设施加上人才流通,这是美国学术界—产业界形成“创新想法—得到应用—收集反馈—新的创新想法—得到新的应用”这个闭环的重要原因。

中国的学术界—产业界之间尚未形成这种高效的闭环,大多数企业还没有和学术界打通的科研基础设施。所以对于中国学术界来说,更需要参与科研基础设施的建设,尤其是和企业一起来补科研基础设施的这一课。

基础研究也需要管理与组织

虽然很多基础研究是纯理论探索,几个人的小团队甚至一个人便可开展,但也有很多基础研究需要大团队,需要管理与组织,例如探测希格斯粒子、观测引力波等。

美国国防部高级研究计划局(DARPA)资助了很多颠覆性创新项目。观察DARPA项目的立项与执行过程,我们可以看到一些共性特征:首先会畅想未来,设立激进的目标;科学地把激进目标分解为一系列子任务;制订具体子任务的实施计划,包括目标、时间节点等;子任务最后要集成到一个原型系统中。

“项目主管”会负责上述4个任务,具有绝对的项目决策权,同时也对项目负责,相当于抓总。大量实践证明,这种科研组织管理模式具有很高的效率。

这种模式对基础研究也有效。以清华大学类脑计算研究中心为例,该中心于2014年成立,成员来自清华大学不同院系。他们的研究模式类似DARPA,整个团队围绕“天机”类脑芯片开展全栈研究,并集成到自动驾驶自行车系统中,形成具有很好显示度的科研成果,同时也把清华的类脑计算学科建立了起来。

回到本文开头的问题:AlphaFold算基础研究吗?

根据本文的讨论,我们可以得出如下结论:第一,AlphaFold研发过程中面临很多未知的问题,把“问题的底层原理搞清楚”,需要基础研究;第二,AlphaFold是蛋白质结构预测领域的科研基础设施,它本身就属于蛋白质结构预测领域基础研究的一部分。

(作者系中国科学院计算技术研究所副所长、研究员)

[ 责编:武玥彤]

标签: 问题 底层 原理 搞清

精彩放送

热文