当涉及到大量未知时,研究小组又进行了一项研究,使用了所有生物体中最了解的(在遗传水平上):果蝇。一个多世纪以来,这些果蝇一直是研究的对象,因为它们容易繁殖,成本低廉,生命周期短,产生大量的幼崽,并且可以通过多种方式进行基因改造。
该团队使用基因编辑技术减少了在人类和果蝇中发现的大约300个低得分基因的使用。弗里曼说:“我们发现这些未知基因中有四分之一是致命的——当它们被敲除时,它们会导致果蝇死亡,但没有人对它们有任何了解。”“另外25%的基因引起了果蝇的表型变化,我们可以通过多种方式检测到这些变化。”这些基因与生育、发育、运动、蛋白质质量控制和抗压力能力有关。弗里曼说:“这么多的基本基因还没有被理解,这令人大开眼界。”这些基因的变异可能对人类健康产生非常大的影响。
所有这些“非经济学”信息都保存在一个数据库中,该团队正在将其提供给其他研究人员,以发现新的生物学。下一步可能是将这些神秘基因和它们创造的神秘蛋白质的数据交给人工智能。
例如,位于英国剑桥附近的欧洲生物信息学研究所(European Bioinformatics Institute)的亚历克斯·贝特曼(Alex Bateman)说,DeepMind的AlphaFold可以对神秘蛋白质的作用提供重要的见解,特别是通过揭示它们如何与其他蛋白质相互作用。低温电子显微镜也是如此,这是一种产生大型复杂分子图像的方法,他说。a已经展示了一种系统的方法,使用机器学习来弄清楚蛋白质在酵母中的作用。
未知是不寻常的,因为它是一个生物数据库,随着我们对它的了解越来越深入,它会缩小。这篇论文表明,在过去的十年中,“我们对人类蛋白质组的未知程度已经从40%提高到20%,”贝特曼说。然而,弗里曼估计,按照目前的进展速度,弄清所有人类蛋白质编码基因的功能可能需要半个多世纪的时间。
如此多的基因仍然被误解的发现反映了所谓的路灯效应,或酒鬼的搜索原则,当人们只搜索最容易看到的东西时,就会出现一种观察偏差。在这种情况下,它导致了弗里曼和门罗所说的“生物研究对先前研究的偏见”。
研究人员也是如此,他们倾向于在相对了解的领域获得研究资金,而不是进入弗里曼所说的荒野。这就是数据库如此重要的原因,门罗解释道——它对抗了学术界的经济学,后者回避了那些理解得很差的东西。“需要一种不同类型的支持来解决这些未知问题,”门罗说。
但是,即使数据库变得可用,研究人员从中挑选,仍然会有一些知识盲点。这项研究的重点是负责蛋白质的基因。在过去的二十年里,基因组中未知的区域也被发现隐藏着小rna的密码,小rna是可以影响其他基因的遗传物质碎片,是正常发育和身体功能的关键调节器。人类基因组中可能潜藏着更多“未知的未知”。
目前,还有很多东西需要研究,弗里曼希望这项工作能鼓励其他人研究基因领域的未知领域:“对于任何想要探索真正新生物学的人来说,未知领域已经足够多了。”