血脑屏障具有促进药物向大脑输送的潜力,为开发针对中枢神经系统疾病的治疗方法开辟了新的途径。中枢神经系统疾病所面临的障碍源于药物制剂穿越血脑屏障(BBB)的艰巨任务。近98%的小分子药物和近100%的大分子药物在成功穿透血脑屏障时遇到困难。这种重要性导致这些肽的识别,可以在医疗保健系统中提供帮助。在这项研究中,我们提出了一个改进的智能计算模型BBB- pep - prediction来识别血脑屏障肽。对获取的基准数据集进行了基于位置和统计矩的特征计算。四种类型的集成,如袋装,助推,堆垛和混合已在方法部分使用。套袋采用随机森林(RF)和额外树(ET),提升采用XGBoost (XGB)和光梯度提升机(LGBM)。叠加使用ET和XGB作为基础学习器,混合使用LGBM和RF作为基础学习器,而逻辑回归(Logistic Regression, LR)作为元学习器进行叠加和混合。利用随机搜索CV对LGBM、XGB和ET三个分类器进行了优化。采用自一致性检验、独立集检验、5折交叉验证和10折交叉验证、折刀检验等4种检验方法。评价指标包括准确性(ACC)、特异性(SPE)、敏感性(SEN)、马修相关系数(MCC)等。分类器的堆叠几乎在每个测试中都显示出最好的结果。独立集检测的叠加结果准确率为0.824,特异度为0.911,灵敏度为0.831,MCC评分为0.663。与先前的基准研究相比,所提出的模型BBB-PEP-Prediction表现出最高的性能。该系统有助于未来的研究和研究界对血脑屏障肽的芯片鉴定。
血脑屏障是防止感染、血细胞和神经毒性血浆成分进入大脑的屏障[1]。血管在向机体各组织器官提供氧气和必需营养物质方面起着至关重要的作用[2]。当涉及到中枢神经系统时,使其血管化的血管具有明显的特征,称为血脑屏障[3]。这一屏障能够对血液和大脑之间的离子、分子和细胞运动进行严格的调节。通过维持对中枢神经系统稳态的精确控制,血脑屏障确保了最佳的神经元功能,并保护神经组织免受有害毒素和病原体的侵害。这种屏障完整性的任何改变都是各种神经系统疾病发生和进展的重要因素[4]。在血液和神经组织之间的关键界面上屏障层的存在在调节相关过程中起着至关重要的作用[2]。
血脑屏障穿透肽(BBPs)能够通过多种机制穿越血脑屏障,而不损害其完整性[5]。血脑屏障保护神经元免受血液中有害化合物的侵害,血脑屏障起着屏障的作用。此外,它对维持中枢神经系统内部环境的平衡至关重要,这是突触和神经元正常运作所必需的。当血脑屏障受损时,血液中的病毒、细胞和神经毒性颗粒等有害物质就会进入大脑。这可能导致炎症和免疫反应,激活一些支持神经退行性变的通路[6]。
研究表明,某些bbp可以促进药物进入大脑,为开发针对中枢神经系统疾病的治疗方法开辟了新的可能性[7]。在中枢神经系统疾病中观察到的僵局是由于药物通过血脑屏障的重大挑战。大约98%的小分子药物和近100%的大分子药物不能成功穿透血脑屏障[8]。
在拟议的研究中,已作出的贡献如下。
1.
将收集到的基准数据集输入到PRIM、RPRIM、AAPIV、RAAPIV和FV等新的特征计算方法中。
2.
采用了Raw、Hahn和central等统计时刻。
3.
四种类型的集成,如袋装,助推,堆叠和混合已被用于建模目的。
4.
Bagging使用RF和ET,而Boosting使用XGB和LGBM。叠加使用ET和XGB作为基础学习器,混合使用LGBM和RF作为基础学习器,而LR作为元学习器用于叠加和混合。
5.
完成了自一致性检验、独立集检验、5倍和10倍交叉验证、折刀检验等4种检验。
6.
评估指标,如准确性,特异性,敏感性和MCC已被用于评估所提出的模型。
对于血脑屏障肽的计算鉴定,目前的研究还很少。Dai等人进行了一项预测血脑屏障肽的研究,其中通过丢弃冗余和不相关的特征来利用特征选择。最后,逻辑回归预测血脑屏障肽[9]。另一项研究通过扩展数据集和使用几个特征描述符做出了贡献。研究者使用了几种机器学习方法,如决策树、随机森林、逻辑回归、KNN和高斯朴素贝叶斯(GNB)、XGB和支持向量分类器(SVC)来识别血脑屏障肽[10]。
通过扩展数据,纳入了Chen等人最新的基准研究。本研究使用CKSAAP和PAAC作为特征向量,使用DT、RF、KNN、AdaBoost、GentleBoost、LogitBoost、linearSVM和rbfSVM进行血脑屏障肽预测[11]。
本节探讨了用于进行研究的数据集,并使用分类器预测血脑屏障穿透肽。第一部分描述了数据采集;第二部分探讨特征生成过程。最后阐述了所采用的分类器方法。
图1显示了用于鉴定血脑屏障穿透肽的结构。计算了基于位置和统计矩的特征,并将其输入到机器学习分类器中进行训练和测试。
图1
本研究采用的建筑
基准数据集收集自Chen等人[11]。实验验证的血脑屏障肽(BBPs)数据集来自不同的研究论文,如Dorpe等人[12],B3Pdb Kumar等人[13],BBPpred Dai等人[9],B3Pred Kumar等人[10]的公共数据集。对于非bbps的收集,使用特定的查询标准从UniProt获得序列,以排除与血脑屏障、脑、Brainpeps、B3Pdb、渗透、渗透性、毒液、毒素、跨膜、运输、转移、膜、神经和溶血相关的肽。然后使用CD-HIT去除冗余序列,序列识别截止率为10% Dai等[9]。最后,不明确残基的肽序列也被排除在外。这个过程产生了425个非bbp。整个数据集由425个正样本和425个负样本组成。利用基于正、负序列的组合数据集生成特征向量。在整个数据集上对三个分类器执行了超参数调优,以显示更好的结果。一旦产生了最优超参数,数据集就被分成77%和23%,分别用于训练集和测试集。
利用位置变异和成分特异性特征提取技术从蛋白质组学和基因组序列中提取特征。这些被广泛认可的技术由以下部分组成。
位置相对关联矩阵(PRIM)
多肽链内氨基酸残基的排列对于揭示蛋白质的隐藏特性具有重要意义。为了揭示由残基放置形成的复杂模式,创建了一个矩阵来捕获所有残基之间的位置相关性[14]。这个矩阵被称为PRIM (Positional Residue Interaction matrix),它被设计成一个20 × 20的网格来估计蛋白质的位置信息[15],考虑到每个多肽链中存在的20个独特的氨基酸残基[16]。
(1)
PRIM矩阵中的每个元素(Rij)表示根据第i个残差相对于第j个残差的相对位置计算的和,表示在该位置存在第i个残差。因此,得到的矩阵包含400个系数。为了降低维度的复杂性,我们计算了统计矩,从而从原始的400系数矩阵中得到了一组30个枚举特征[17]。
反向位置相对关联矩阵
反向位置相对关联矩阵(RPRIM)是一种枚举技术,与上述方法有相似之处,但它更深入地揭示了显示同源特性的序列的隐藏特征。RPRIM是利用原始序列的逆序列来计算的[18]。通过这个过程计算得到的RPRIM矩阵如下所示。
(2)
与PRIM相似,RPRIM矩阵也由400个系数组成,保持相同的维数。然而,通过应用统计矩,RPRIM的维数随后被降为30个系数,就像PRIM的情况一样[15]。
频率矢量(FV)
频率向量是一个有价值的信息来源,它揭示了给定序列中多肽链内残基的分布[19]。它计算蛋白质中单个残基的发生率。FV特性确保了有关蛋白质序列组成和分布的细节被保留。FV表示如下。
(3)
FV是一个有20维的向量,它计算序列中每个氨基酸残基的频率,基于它们的字母序数值。
累计绝对位置入射矢量(AAPIV)
FV捕获蛋白质中每个氨基酸残基的分布细节,并识别与其组成相关的模糊特征。然而,FV不包括氨基酸残基的相对位置信息。为了解决这个问题,引入了AAPIV(氨基酸位置信息向量),它将相对位置信息划分为四个四分之一[20]。这一信息是根据20种天然氨基酸的出现情况计算出来的,如下所示。
(4)
其中AAPIV的第i段计算为
(5)
考虑到一个特定的核苷酸,k代表一个随机选择的位置。在AAPIV中,一个指定的组件,表示为I,累积出现第I个核苷酸的所有位置的总和。
反向累计绝对位置关联矢量(RAAPIV)
RAAPIV与AAPIV有相似之处,关键的区别是它利用原始样本的反向序列来生成输出向量。这种反转可以提取关于位置信息的额外知识,从而发现序列中隐藏的和深刻的特征[21]。向量表示如下。
(6)
特征集由基因组数据的原始时刻、哈恩时刻和中心时刻填充,这些时刻为模型的输入向量提供了基本元素。研究人员已经认识到,蛋白质组学和基因组序列的特征取决于其碱基的组成和相对位置。因此,计算和数学模型专注于捕获基因组序列中核苷酸碱基的相关位置,以增强特征向量[22]。这种对相关定位的关注对于建立可靠和全面的特征集至关重要[23]。
哈恩矩需要二维数据,因此将基因组序列转化为一个维度为k*k的二维矩阵S ',该矩阵包含与矩阵S相同的信息,但以二维格式排列。因此,
(7) (8)
为了降低维数,根据得到的方阵计算统计矩,从而产生固定大小的特征向量[28]。如前所述,本研究采用哈恩、中心和原始时刻来实现这一目的。
下式计算a + b阶的原始力矩。
(9)
这些序列包含嵌入在它们的朋友圈中的重要信息,特别是到第三阶是,,,,,和。为了计算中心矩(),需要先计算质心,它代表数据的中心点[24]。然后根据下面的程序使用这个质心计算中心矩:
(10)
哈恩矩的计算涉及到使用方形网格作为离散输入。这种选择有助于阐明数据的规律性和可逆性,因为原始数据可以使用逆哈恩矩重建。由于Hahn矩的可逆性,原始序列变换后的信息保持不变,并通过特征向量纳入到模型中[15]。哈恩矩的计算由下面提供的方程描述。
(11)
该方程采用Pochhammer符号和Gamma算子,Akmal等人[25]对此进行了详细解释。
由前一个方程得到的哈恩系数通常使用后一个方程中指定的系数进行归一化。
(12)
本节概述了本研究中使用的分类算法。采用了各种集成方法,包括袋装、增压、混合和堆叠。此外,还对算法进行了评估和比较分析,以评估其性能。
装袋
Bagging是一种基于集成的方法,通常用于各种机器学习问题。它以并行方式运行,使用抽样替换将数据集划分为多个子集[26]。在本研究中,在套袋方法中使用了两个分类器。图2说明了打包方法的体系结构。
图2
本研究采用袋装结构
图2说明了用于预测血脑屏障肽的装袋方法的结构框架。
额外的树
ET算法属于bagging算法家族,与随机森林算法有相似之处,但有两个关键区别。在训练过程中,ET模型接收到正序列和负序列,以及它们各自的标签。通过将tweet划分为大小相等的子集,并基于正序列和负序列创建不同的子数据集,生成多个决策树[27]。每个决策树都由固定数量的分裂节点构建。对于给定的测试tweet,每个弱学习器模型预测它的类,投票数最高的类预测决定测试样本的分类。为了提高精度,采用了ET的超参数优化方法。
表1显示了优化后的超参数值。随机搜索CV被用来寻找最优参数。
表1 ET超参数优化
随机森林
RF已被用于各种计算蛋白质组学和遗传学问题[28]。RF利用自举策略进行样本分布,是装袋家族的一员。该模型最初使用带替换的采样来构建正样本和负样本的子数据集[29]。序列在每个子集中均匀分布。带有用于训练目的的标签的特征向量和由随机选择的最佳分割节点组成的决策树作为模型的信息源。所有弱学习器都接收一个测试实例,并通过多数投票决定类别预测。
提高
另一个使用迭代学习过程的集成策略是提升。与bagging不同,数据集不会被分解成更小的子数据集;相反,所有的学习者都以一种连续的方式工作。每个分类器在提高算法的数据教育,同时考虑较早的弱学习者的输出。在每个历元之后,权重再次分散。在后续的学习器中,只考虑不正确分类的观测值,并且在指定的epoch数内给予不正确分类的样本较高的权重。所有测试样本的阳性或阴性分类都是通过重复这个过程来完成的[30]。下一节将解释每种增强算法的描述。
图3显示了用于血脑屏障肽识别的增强集合的结构。
图3
提高建筑
XGBoost
XGB增强算法构建决策树,这些决策树沿着树的深度分成几个部分,并使用这些决策树在数据集上进行训练和评估。算法中的树数由默认的弱学习器数指定。使用提供的数据制作第一棵树,并使用测试数据对模型进行评估。错误识别的观察结果被赋予了很大的权重,并被传递给之后较弱的学习者。在这种情况下,树完全是由错误识别的样本形成的[31]。模型以这种方式完成其性能。
LGBM
在模型执行之后,光梯度增强机按叶划分决策树。LGBM选择性能最好且误差最小的叶子。对于顺序过程中被错误识别的事件给予很大的权重,并且将第一个弱学习器的输出转移到第二个弱学习器[32]。直到模型产生最佳结果或完成了最大次数的迭代,这个过程才会重复。
通过随机搜索CV获得的提升分类器的调优超参数值如表2所示。
表2用于提升分类器的超参数调优
叠加
使用多个异构分类器而不是bagging和boosting的堆叠方法也利用了两层概念[33]。在第一层中,使用了基础学习器ET和XGB。在使用交叉验证的整个数据集上,两个分类器都经过了训练并产生了掠食。将新构建的二维数据集进一步分为训练集和测试集。使用基于level 0预测的训练数据对元分类器LR进行训练,并在测试数据上进行测试。
图4展示了用于预测血脑屏障肽的堆叠集成体系结构。
图4
叠加结构
逻辑回归
用于监督学习的现代机器学习算法被称为LR,已被用于解决许多芯片蛋白质组学难题。为了得到每个样本的预测分数,权重和输入相乘。每个预期分数都受到s型函数的影响,该函数产生的值在0到1之间[29]。因此,构造一个决策边界来分隔两个类。当一个测试样本似乎被分类时,如果应用s型曲线后得到的值大于0.5,则将其置于正类,如果小于0.5,则将其置于负类。阈值设置为0.5。
(13)
其中z是
(14)
方程14阐述了sigmoid激活函数的线性部分,其中w 's表示初始化的权重,x 's表示来自数据的输入。
混合
混合是一种集成方法,它结合了几个异构分类器[34]。包含训练和测试数据的验证数据集以及混合方法与叠加方法相反。使用从第一层的训练集中提取的验证数据,将训练数据和测试数据分开。使用使用的模型RF和LGBM对测试集和验证集进行预测,并在训练数据集上进行训练。从验证集获得的预测与初始验证集相结合,在第二层创建一个新的数据集。最近创建的数据集在分为第一层的测试数据上进行测试,并使用元分类器LR进行训练。
用于鉴别血脑屏障肽的混合系综结构如图5所示。
图5
混合架构
建议的模型使用多种测量方法进行评估,包括ACC评分、SPE、SEN和MCC。ACC分数表示在所有样本中,两个类别中被正确预测的样本总数[35]。为了量化模型准确性中可能出现的负面情况,使用了SPE[36]。SEN表明该模型能够很好地定位正值的出现[37]。尽管数据不平衡,但MCC是一个可靠的指标,因为它考虑了这两个类别[38]。如果模型成功地检测到阳性和阴性样本,它将产生一个勤勉的MCC评分。对于每一个讨论的度量,给出了公式。
(15) (16) (17) (18)
真阳性表示被预测器准确识别的属于阳性类别的多肽。假阴性是指多肽属于阳性类,但被预测器识别为阴性。假阳性,另一方面,它表示阴性样本,但被预测器识别为阳性样本。真阴性对应于由预测器正确识别的属于阴性类的样本。
摘要。
介绍
材料与方法
结果与讨论
结论
数据和材料的可用性
参考文献。
致谢。
作者信息
道德声明
# # # # #
ccDownload: /内容/ pdf / 10.1186 / s13321 - 023 - 00773 - 1. - pdf