劳伦斯伯克利国家实验室(Berkeley Lab)的一组材料科学家——他们通常把时间花在研究热电材料或电池阴极的高性能材料——以创纪录的时间构建了一个文本挖掘工具,帮助全球科学界综合每天生成的关于COVID-19的大量科学文献。
该工具位于covidscholar.org,使用自然语言处理技术不仅快速扫描和搜索数以万计的研究论文,还有助于获得在其他情况下可能不明显的见解和联系。人们希望该工具最终能够实现“自动化科学”。
“在谷歌和其他搜索引擎上,人们搜索他们认为相关的东西,”伯克利实验室的科学家、该项目负责人之一Gerbrand Ceder说。“我们的目标是进行信息提取,这样人们就可以找到没有明显的信息和关系。这就是将应用于这些数据集的机器学习和自然语言处理的整体思路。”
伯克利实验室研究人员(从左上顺时针)Kristin Persson、John Dagdelen、Gerbrand Ceder和Amalie Trewartha领导了covid学者的开发,这是一种用于covid -19相关科学文献的文本挖掘工具。信贷:伯克利实验室
covid学者是为了响应白宫科技政策办公室3月份的行动呼吁而开发的,该呼吁要求人工智能专家开发新的数据和文本挖掘技术,以帮助找到有关COVID-19的关键问题的答案。
伯克利实验室团队在大约一周内就建立了一个COVIDScholar的原型并运行起来。现在一个多月后,它已经收集了超过6.1万篇研究论文——其中约8000篇专门关于COVID-19,其余有关相关主题,如其他病毒和大流行病——每天都有100多名独立用户,全部通过口口相传。
而且一直在增加更多的论文——每天都有200篇新的关于冠状病毒的期刊文章发表。“论文在线发表15分钟内,它就会出现在我们的网站上,”博士后Amalie Trewartha说,他是主要开发者之一。
本周,该团队发布了一个可供公众使用的升级版本——新版本使研究人员能够搜索“相关论文”,并使用基于机器学习的相关性调优对文章进行排序。
任何科学领域的研究,尤其是这一领域的研究,都是令人生畏的。“毫无疑问,作为科学家,我们无法跟上文献的步伐,”伯克利实验室的科学家克里斯汀·佩尔松(Kristin Persson)说,她是该项目的共同负责人。“我们需要帮助,快速找到相关论文,并在论文之间建立相关性,这些相关性从表面上看可能不是在讨论同一件事。”
该团队已经构建了自动脚本来抓取新的论文,包括预打印的论文,清理它们,并使它们可搜索。在最基本的层面上,COVIDScholar扮演的是一个简单的搜索引擎,尽管它是一个高度专业化的搜索引擎。
“谷歌Scholar有数百万篇论文,你可以搜索,”加州大学伯克利分校的研究生和伯克利实验室的研究员John Dagdelen说,他是主要开发人员之一。“然而,当你搜索‘脾脏’或‘脾脏损伤’时——现在有研究表明,脾脏可能会被病毒攻击——你会得到10万篇关于脾脏的论文,但它们与你需要什么来治疗COVID-19并不真正相关。我们有最大的COVID-19单主题文献收藏。”
除了返回基本的搜索结果外,COVIDScholar还将推荐类似的摘要,并自动将论文分类为子类别,如测试或传播动态,允许用户进行专门搜索。
现在,在花了最初几周的时间建立收集、清理和整理数据的基础设施之后,团队正在着手下一阶段的工作。Dagdelen说:“我们已经准备好在‘自动化科学’的自然语言处理方面取得重大进展。”
例如,他们可以训练自己的算法寻找概念之间不被注意的联系。Dagdelen说:“你可以使用从机器学习模型中生成的概念表示,找出文献中没有同时出现的事物之间的相似性,这样你就可以找到应该联系起来但还没有联系起来的事物。”
另一个方面是与伯克利实验室环境基因组学和系统生物学部门以及加州大学伯克利分校创新基因组学研究所的研究人员合作,改进COVIDScholar的算法。Dagdelen说:“我们正在将我们正在做的无监督机器学习与他们一直在做的工作联系起来,组织所有关于疾病和人类表型之间的基因联系的信息,以及我们可以在自己的数据中发现新的联系的可能方法。”
整个工具在国家能源研究科学计算中心(NERSC)的超级计算机上运行,该中心是能源部科学办公室的用户设施,位于伯克利实验室。从生物科学到计算机科学到材料科学,跨学科的协同作用使这个项目成为可能。在线搜索引擎和门户网站由NERSC的Spin云平台提供支持;材料项目每天为用户提供数百万条数据记录的成功运营经验,为covid学者的发展提供了信息。
“这事不可能发生在别的地方,”特蕾沃萨说。“我们取得进展的速度比其他地方要快得多。这就是伯克利实验室的故事。与我们在NERSC的同事合作,在加州大学伯克利分校的生物科学(伯克利实验室区域),我们能够快速迭代我们的想法。”
同样关键的是,该团队已经开发了本质上与材料科学相同的工具,名为MatScholar,该项目由丰田研究所和壳牌公司(Shell)支持。Ceder说:“这一切能这么快完成的主要原因是,这个团队有三年的材料科学自然语言处理经验。”
去年,他们在《自然》(Nature)杂志上发表了一项研究,表明没有经过材料科学训练的算法可以发现新的科学知识。该算法扫描了330万篇已发表的材料科学论文的摘要,然后分析了单词之间的关系;它能够提前数年预测新的热电材料的发现,并提出至今未知的材料作为热电材料的候选者。
除了帮助抗击COVID-19,该团队相信他们还能学到很多关于文本挖掘的知识。Ceder说:“这是一个测试案例,看看一种算法在信息同化方面是否能比我们所有人阅读一堆论文更好更快。”
covid学者由伯克利实验室的实验室指导研究和发展(LDRD)项目支持。他们的材料科学研究工作是这个项目的基础,得到了加州大学伯克利分校能源与生物科学研究所(EBI)、丰田研究所和国家科学基金会的支持。