日前,作为2021年浦江创新论坛“支撑城市数字化转型”板块的重要组成部分,新兴技术论坛围绕“科学数据”这一主题,对科学数据的管理、共享和应用服务的创新理念和实践展开了深入探讨。
然而,在一定范围内实现基础科学数据的开放和共享仍面临不少挑战,例如科学数据共享动力不足、科学数据标准化建设等。
“共享数据”成科研潮流
在大数据技术辐射至各行各业时,通过分析大数据来探究人类未知的领域,已成为科研不断发展进步的动力。
中国科学院院士郭华东表示,2016年至2025年间,全球的数据发展趋势将会实现爆炸式增长。而中国大数据量持续增多的同时,也能彰显出在科技、经济等方面不断进展的良好态势。
在进一步细分时,大数据中的科学大数据也呈现出多个基本特征。郭华东分享道,科学大数据的外部特征包含数据内容、数据体量、数据速率、获取手段、分析手段,内部特征有数据分析的高度计算复杂性、数据内容的不可重复性、数据高度的不确定性、数据的高维特性等。
郭华东现已实现利用地球大数据资源分析全球城市不透水面制图、土地消耗率和人口增长率之间的比率以及全球火烧迹地分布及变化。
据了解,地球大数据的共享服务平台已经初具规模。2019年1月15日正式发布上线后,这个服务平台集成了多领域的海量数据,向全球用户提供系统、多元、动态、连续的并具有全球唯一标识规范化的地球大数据,包括卫星数据、生态数据、地面观测数据、大地海洋数据。
疫情后,大数据平台对公共卫生防疫和新药研发都起到了关键作用。人工智能、大数据等技术应用在医疗领域获得多方认可。其中,大数据成为疫情防控决策方面的重要支撑,科学数据的高效管理使得新冠疫苗大大缩短了研发周期。
在更为前沿的领域,如何通过大数据来预测一个人的健康,甚至未来,成为最能普及大众的事。“怎样为大家的健康服务”成为复旦大学类脑智能科学与技术研究院院长冯建峰一直思考的问题。
通过大量的生物医学数据的研究,冯建峰分享了大数据与脑疾病相关的话题。他认为,最本质的算法是关联分析,例如基因和癌症的关系。当然,还能利用算法对抑郁症、帕金森病、阿尔茨海默病等疾病进行诊断。
采集大规模数据、利用大数据做科研、边科研边开展临床服务研究,直至通过医院的数据真正实现健康服务的场景,这就是一条由大数据驱动科研的实施路径。
除了数据、算法、算力三方面,在大数据领域,冯建峰认为最关键的还是人才。复旦大学等高校已经有意识地在大规模培养这方面的人才。
数据共享难题待解
美国有数据表明,85岁以上的人中,约有50%会患阿尔茨海默病。为了治疗这类疾病,美国公开了1万多人的数据,这些包含遗传数据的生物学数据可以提供给科学家进一步展开科学研究。
于是,在考虑到生物安全问题的现实情况下,如何实现国内与国外的数据共享成为值得讨论的重要问题。
国家极地科学数据中心主任徐韧举例称,近五年,极地数据支撑了近70个国家科研项目,其中很多项目的科研需要以往积累的大量数据提供支撑。
中国科学院脑科学与智能技术卓越创新中心副主任孙衍刚目前也已建立了相应的数据共享网站,例如斑马鱼全脑联接图谱的网站。据介绍,这个网站正在建设过程中,将很快对外开放。
孙衍刚告诉第一财经记者,希望将来平台影响力足够大,大家都愿意共享数据到这个平台上。数据平台上还会搭载算法,这样科研团队就能够用通用的工具挖掘出更多发现。尽管是共享的数据和分析工具,但不同团队之间关注点会有所差异,解决方案也会不同。
实际上,对于没有共享数据动力的问题,行业内已有一些共识,即如果要发表比较标准或者某一特定类型数据时,会要求数据共享到相应的数据库里,发表前不公开,文章发表后这类数据必须公开。当然,这类数据共享的前提必须是数据能够标准化。
徐韧认为,为了保证数据的全生命周期管理,团队制定了一系列数据管理的技术规范和标准,包括一些管理的文件等,保证极地数据有效的管理和数据的质量。
“科研数据的开放共享可以在很大程度上节约政府财政开销。此外也有研究表明,到2020年欧盟成员国通过开放数据累计节约成本预计达到了17亿欧元。”中国科学院计算机网络信息中心工程师姜璐璐提出了另一共享数据带来的益处。
姜璐璐分享道,除了数据政策的指导原则之外,对于科学数据如何开放共享、需要遵循怎样的标准的问题,国际上较为主流的是FAIR原则。此外,开放的数据还需要具有好的可发现性、可获取性、可互操作性和可重用性。
中国科学院计算网络信息中心科技云部主任、国际数据委员会CODATA副主席黎建辉表示,关于能力建设,数字化以来做科研的青年科学家们需要有数据的素养。
也有专家提出,国内只有建立成熟的且具备影响力的数据共享平台,才能汇集更多全球数据。
“科学数据的开放共享是时代潮流所向,我们将从开放共享科学数据出发,争做科学数据创新的开拓者,科学数据规则制定的先行者,重大科研数据合作的实践者。”在论坛现场,多家高校、科研院所及创新主体发出了上海科学数据共享的倡议。