跳到主要内容

将g蛋白偶联受体分类为激动剂或拮抗剂的机器学习模型

摘要

背景

G蛋白偶联受体(gpcr)通过调节G蛋白感知细胞外信号并将其传递到细胞内机制。GPCR功能障碍与多种信号相关疾病有关,包括癌症和糖尿病;至少有三分之一的上市药物以gpcr为靶点。因此,表征它们的信号和调控机制对开发有效药物至关重要。

结果

在这项研究中,我们开发了一个机器学习模型来识别GPCR激动剂和拮抗剂。我们设计了两步预测模型:第一步模型识别与gpcr结合的配体,第二步模型将配体分类为激动剂或拮抗剂。利用从两个药物数据库中的4590个配体中计算出的5270个分子描述符中选择的990个子集特征,我们的模型对gpcr的非配体、激动剂和拮抗剂进行了分类,并实现了ROC曲线下面积(AUC)为0.795,灵敏度为0.716,特异性为0.744,准确性为0.733。此外,我们验证了70%(63个中的44个)fda批准的gpcr靶向药物被正确分类到各自的组中。

结论

研究配体与gpcr相互作用的识别对药物作用机制的表征具有重要意义。我们的gpcr -配体相互作用预测模型可用于制药科学,用于有效的虚拟筛选假定的gpcr结合激动剂和拮抗剂。

背景

G蛋白偶联受体(gpcr)属于膜蛋白家族,通过调节G蛋白感知胞外信号并将其传递到胞内区域。GPCRs参与由激素和神经递质触发的多种信号通路,参与细胞生长、分化、视觉、嗅觉、味觉等系统[1].当配体与GPCR结合时,受体发生构象变化,可以激活(称为激动剂)或抑制(称为拮抗剂)信号转导途径[2].市场上大约三分之一的药物以gpcr为靶标[23.]并用于治疗各种人类疾病,包括心脏功能障碍、哮喘和偏头痛[4].2017年,Hauser等人报道,在所有美国FDA(食品和药物管理局)批准的药物中,约有34%(475种药物)作用于GPCR靶点,并且临床试验中的大多数药物靶向新型GPCR靶点[5].

由于受体药理学的最新技术进步,GPCR药物发现的新途径已经出现,与信号转导作为涉及异源三聚体G蛋白的线性事件链的传统观点不同。然而,长期以来,GPCR药物发现一直集中在鉴定靶向GPCR及其配体结合位点的新化合物上。需要对现有和新发现的配体的激动剂和拮抗剂性质进行分类,以优化药物疗效,并制定适当的治疗策略,选择性地激活或阻断相关途径。

使用支持向量机(SVM)学习算法,以4884个化学描述符作为输入,Bushdid等人[6]虚拟筛选了258种化合物,并确定了人类g蛋白偶联气味受体(OR) 51E1、人类受体OR1A1和OR2W1以及小鼠受体MOR256-3的激动剂。预测的新型激动剂被确定为命中率为39-50%。通过体外实验验证了两种新发现的OR51E1激动剂的功能。此外,为了预测配体及其在人类嗅觉受体OR1G1中的作用,Jabeen和Ranganathan [7]为74种激动剂和74种拮抗剂的数据集建立了基于13个相关特征的分类模型(SVM、随机森林、naïve贝叶斯和神经网络)。ROC曲线下面积(AUC)为0.652 ~ 0.827。使用超过20万种化合物,表现最好的分类器naïve bayes模型预测了37种化合物作为OR1G1的激动剂,概率得分> 80%。

在这项研究中,我们开发了一个基于配体的机器学习模型来识别新的人类GPCR激动剂和拮抗剂,而不考虑GPCR的类型。利用现有的知识库,根据已知活性配体的相似性/差异性来预测配体的活性,我们设计了两步机器学习模型,首先识别与gpcr结合的配体,然后将配体分类为激动剂或拮抗剂。GPCR配体信息来自国际基础与临床药理学联合会(IUPHAR)/英国药理学学会(BPS)药理学指南数据库(GtoPdb) [8]和情境导向关联(CODA) [9]数据库用于训练两个随机森林(RF)模型,这两个模型将独立但连续地将查询成分分类为gpcr的非配体、激动剂和拮抗剂。两步综合模型的最佳性能参数为AUC = 0.795,准确度= 0.733,灵敏度= 0.716,特异度= 0.744。因此,我们的模型使我们能够理解gpcr -配体相互作用的分子机制。该模型可用于制药科学中筛选新药和治疗剂。

结果与讨论

数据收集和预处理

在14,659个最初可用的人类配体-靶标相互作用中,分析了4590个配体-靶标对。我们分别获得了1058和1150个配体作为激动剂(以下称为gpcr -激动剂)和拮抗剂(以下称为gpcr -拮抗剂);其余2382个配体被归类为gpcr的非配体(以下简称gpcr -非靶标)。

为了消除潜在的冗余配体,配体以其ECFP4(键直径4的扩展连通性指纹)指纹聚类,将配体的结构特征编码为向量[10],使用凝聚的分层聚类方法。该算法根据子聚类的相似度(本研究在0.8以上)进行迭代合并[11])考虑到集群的互联性和紧密性[12].训练和测试数据集只使用每个簇中具有代表性的配体。因此,选择758种gpcr激动剂、950种gpcr拮抗剂和2206种gpcr非靶点进行进一步分析。

分子描述符计算和特征选择

我们使用Dragon软件计算了5270个分子描述符,并将它们用于特征选择。使用Boruta该算法执行真实预测特征与随机(所谓的阴影)变量的比较,990个选择的预测特征(附加文件)1)作为机器学习分类器的输入(图2)。1一个)。

图1
图1

整体工作流程一个特征选择过程和B两步二类射频模型

机器学习模型构建与评估

我们设计了两步二类分类器,因为与多类分类器相比,它们的准确率估计更高[13].第一个模型(t -模型)预测gpcr -靶标或gpcr -非靶标;第二个模型(a -模型)预测gpcr激动剂或gpcr拮抗剂(图2)。1B).具体来说,当输入一个查询分子时,t模型预测该分子是否是GPCR配体。如果不是,则将其归类为gpcr非靶分子。如果被归类为GPCR靶点,a -模型预测它是作为GPCR激动剂还是拮抗剂。

对于t模型,训练数据集中使用了1708个gpcr靶点(来自758个gpcr激动剂和950个gpcr拮抗剂)和2206个gpcr非靶点。由于没有统计模型能达到100%的准确性,一些gpcr -非靶标分类分子可能与gpcr相互作用;因此,我们使用所有可用的数据来最小化数据不平衡[1415].对于a模型,我们在训练数据集中使用了758种gpcr激动剂和950种gpcr拮抗剂。

使用RF分类器分别建立t模型和a模型,并使用留一交叉验证(LOO-CV)方法进行评估。t模型和a模型的AUC分别为0.787和0.823。最终的综合两步模型的AUC为0.795(准确度= 0.733,灵敏度= 0.716,特异性= 0.744)(表1)1)。

表1两步二元类模型的性能参数

用fda批准的GPCR药物进行模型验证

为了在不同的实验条件下验证我们的模型,我们使用了fda批准的gpcr靶向药物。收集了134种药物的数据,其中63种具有配体结合类型和SMILES(简化分子输入线输入系统)描述符的药物数据用于模型验证程序。

我们的t模型预测63种药物中有52种(82.5%)可以与gpcr相互作用。根据a模型,52种gpcr靶向药物中有44种(84.6%)被正确归类为激动剂或拮抗剂。因此,fda批准的63种gpcr靶向药物中有44种(69.8%)被正确地分为各自的组(gpcr激动剂、gpcr拮抗剂、gpcr非靶向药物)2)。除了正数据,我们的t模型也在负数据上进行了测试。为此,我们从DrugBank数据库中收集了14594种gpcr非靶标药物中的1278种。在排除了Dragon软件没有计算描述符的配体后,我们保留了982种药物作为gpcr非靶标药物。我们的t模型正确预测了982种gpcr非靶标药物中的808种(82.3%)2)。虽然我们的研究考虑了相对较小的样本量,但我们的结果清楚地表明,集成的两步RF模型具有较高且平衡的预测精度。未来的研究应考虑虚拟筛选与更大样本量数据集和更复杂的信号通路相关模型的实际兼容性。

表2使用fda批准的GPCR药物进行模型评价

结论

由于gpcr参与多种细胞信号转导,因此在药物研究中起着至关重要的作用,它们一直被认为是药物发现的主要靶点。然而,与其他细胞蛋白不同,GPCR结构-功能和配体鉴定的实验筛选既昂贵又耗时。基于机器学习的方法最近在基于gpcr的虚拟药物发现中得到了普及。在这项研究中,我们开发了计算机模型,以相当高的准确性预测gpcr激动剂和gpcr拮抗剂。这项工作的关键贡献有两个方面:第一是提出了一个GPCR类型独立的分类模型,可以将GPCR激动剂和拮抗剂一起分类,而不考虑GPCR类型;第二是使用超过14,000个公开可用的配体-靶标相互作用数据,可以使模型更加准确,并可用于未来的类似研究。虽然我们的预测模型需要进一步的测试,但它们可以应用于药物发现技术,从数百万未标记的化合物中预测假定的gpcr结合配体。

方法

数据采集

我们从GtoPdb获得了与配体-活性-靶点关系相关的药理学数据集(https://www.guidetopharmacology.org) [8],包括1700多个药物靶点和9000多个相关配体的数据,以及CODA网络数据库[9],包括药物-药物靶标与相关分子、表型和解剖变量的关联。在14,659种人类配体-靶标相互作用中,本研究分析了4590种配体-靶标对,包括配体结合型(例如,激动剂和拮抗剂)和SMILES描述符。

我们整理了一份fda批准的gpcr靶向药物清单[516]并筛选药物银行数据库[17]查找与这些药物相关的配体结合类型和SMILES描述符。

ECFP4指纹使用Dragon软件(版本7.0.10)计算[18]和谷本指数[19]用来确定配体之间的相似性。

特征选择

Dragon软件(版本7.0.10)[18]被用来计算化学物质的化学和物理性质(分子描述符),从它们的smile作为输入。这些化学信息学性质包括一维描述符(如分子的原子类型和结构片段的数量)和二维描述符(如结构特征、logP和连通性指数)[1820.].

我们应用了Boruta软件包(7.0.0版本)[21],以获得描述符的最佳子集。为了筛选每个类的主要特性,FSelector包[22在R软件中使用。

机器学习模型和性能评估

我们应用了一个RF机器学习模型,使用R randomForest包中的randomForest函数[23].对于主要的两个参数,拆分每个树节点的随机解释变量的数量,mtry,树木的数量,ntree,分别设置为特征数和100个。

为了验证所构建的RF模型,我们使用lo - cv进行方法选择[24].得到性能测量值(真正,TP;真负,TN;假阳性,FP;假阴性,FN)的集成两步模型,微平均计算[25]被使用。

缩写

AUC:

ROC曲线下面积

个基点:

英国药理学学会

结尾部分:

情境导向的联想

ECFP4:

扩展连接指纹键直径4

食品药品监督管理局:

食品药品监督管理局

GPCRs:

g蛋白偶联受体

GtoPdb:

药理学数据库指南

IUPHAR:

国际基础和临床药理学联合会

LOO-CV:

分析交叉验证

射频:

随机森林

微笑:

简化分子输入线输入系统

参考文献

  1. 李建军,李建军,李建军,等。g蛋白偶联受体的结构与功能。自然。2009;459(7245):356 - 63。

    文章中科院谷歌学者

  2. 王东。G蛋白偶联受体(GPCR)信号在调节T细胞免疫中的重要作用。免疫药物与免疫毒物,2018;40(3):187-92。

    文章中科院谷歌学者

  3. 李建军,李建军,李建军,李建军,李建军,等。GPCR基因在人类基因组中的应用。新型药物发现,2013;12(1):25-34。

    文章中科院谷歌学者

  4. 文克塔克瑞斯南,陈建军,陈建军,陈建军,陈建军。蛋白质偶联受体的分子特征分析。自然。2013;494(7436):185 - 94。

    文章中科院谷歌学者

  5. 王晓明,王晓明,王晓明,等。GPCR药物发现的新进展:新的靶点和适应症。医药学报,2017;16(12):829-42。

    文章中科院谷歌学者

  6. 陈建军,陈建军,陈建军,等。气味受体受体的化学特性研究。物理学报,2018;9(9):2235-40。

    文章中科院谷歌学者

  7. 李建军,李建军,李建军,等。机器学习在GPCR生物活性配体发现中的应用。生物医学工程学报,2019;5(5):566 - 576。

    文章中科院谷歌学者

  8. Harding SD, Sharman JL, Faccenda E, Southan C, Pawson AJ, Ireland S, Gray AJG, Bruce L, Alexander SPH, Anderton S,等。2018年IUPHAR/BPS药理学指南:更新和扩展以包含新的免疫药理学指南。中国生物医学工程学报,2018;46(1):1091 - 1096。

    文章中科院谷歌学者

  9. 刘辉,郑杰,尹松,权明,裴顺,任松,李俊,金松,姜勇,李丹。CODA:基于多层面情境导向关联的药物效应分析。科学通报,2017;7(1):719。

    文章谷歌学者

  10. Bajusz D, Rácz A, hsamuberger K. 3.14 -化学数据格式,指纹,以及用于数据库分析和搜索的其他分子描述。编辑:Chackalamannil S, Rotella D, Ward SE。综合药物化学3。牛津大学:爱思唯尔;2017.p . 329 - 78。

    谷歌学者

  11. Kogej T, Blomberg N, Greasley PJ, Mundt S, Vainio MJ, Schamberger J, Schmidt G, h ser J.大型制药筛选库:更多相同或独特的图书馆?阿斯利康-拜耳制药公司案《今日毒品发现》,2013;18(19):1014-24。

    文章谷歌学者

  12. 韩军,康伯明,裴军。聚类分析的基本概念与方法。编辑:韩杰,Kamber M,裴杰,编辑。数据挖掘(第三版)。波士顿:摩根·考夫曼;2012.p . 443 - 95。

    谷歌学者

  13. 王晓东,王晓东,王晓东,等。雄激素受体激动剂、拮抗剂和结合剂的分类。环境科学学报,2011;26:128313。

    文章中科院谷歌学者

  14. 李磊,Koh CC, Reker D, Brown JB,王辉,李国强,刘海华,戴辉,范海明,陈磊,等。基于弓形药理学空间和贝叶斯加性回归树的蛋白质-配体相互作用预测。科学代表2019。https://doi.org/10.1038/s41598-019-43125-6

    文章PubMed公共医学中心谷歌学者

  15. 林文杰,陈建军。高维数据的类不平衡分类器。生物通报,2013,14(1):13-26。

    文章谷歌学者

  16. 斯里拉姆·K, Insel PA。G蛋白偶联受体作为已批准药物的靶点:有多少靶点和多少药物?中国生物医学工程学报,2018;39(4):391 - 391。

    文章中科院谷歌学者

  17. wisart DS, Feunang YD, Guo AC, Lo EJ, Marcu A, Grant JR, Sajed T, Johnson D, Li C, Sayeeda Z,等。DrugBank 5.0: 2018年DrugBank数据库的重大更新。中国生物医学工程学报,2018;46(1):1074 - 82。

    文章中科院谷歌学者

  18. Mauri A, Consonni V, Pavan M, Todeschini R.。DRAGON软件:一种简单的分子描述符计算方法。数学与计算。2006;56:237-48。

    中科院谷歌学者

  19. 为什么谷本指数是基于指纹的相似度计算的合适选择?化学学报,2015;7(1):20。

    文章谷歌学者

  20. 洪辉,谢强,葛伟,钱峰,方慧,石磊,苏忠,Perkins R,佟伟。mol2,基于二维结构的化学信息学和毒物信息学分子描述子。化学学报,2008;48(7):1337-44。

    文章中科院谷歌学者

  21. Kursa M, Rudnicki W. boruta包的功能选择。[J] .计算机工程学报,2010;36(1):1 - 13。

    文章谷歌学者

  22. Piotr Romanski LK, Patrick Schratz。FSelector:选择属性。R包版本033 2021:https://CRAN.R-project.org/package=FSelector

  23. 刘建军,刘建军。基于随机森林的分类回归方法。科学通报,2002;2(3):18-22。

    谷歌学者

  24. Fushiki T.基于K-fold交叉验证的预测误差估计。统计计算,2011;21(2):137-46。

    文章谷歌学者

  25. 张建军,张建军,张建军。多标签数据挖掘。编辑:Maimon O, Rokach L。数据挖掘和知识发现手册。波士顿:施普林格;2010.p . 667 - 85。

    谷歌学者

下载参考

致谢

作者对审稿人提出的建设性意见和建议表示感谢。

关于本品

本文已作为BMC生物信息学第23卷增刊9,2022年的一部分发表:第15届生物医学信息学数据和文本挖掘国际会议论文集(DTMBIO 2021)。该补充的全部内容可在网上获得https://bmcbioinformatics.biomedcentral.com/articles/supplements/volume23-supplement-9

资金

本研究由科学、信息通信技术和未来规划部生物协同研究项目(NRF-2015M3A9C4075820 to cp)通过国家研究基金提供研究资助;韩国教育部基础科学研究计划(NRF) (NRF- 2022r1a2c1010731资助C.P., NRF- 2021r1a6a3a13046324资助J.O.);“基于信息通信技术的渔业资源管理研究中心”(2021,批准号20180384),海洋水产部资助。资金来源在研究设计中没有作用;数据的收集、分析或解释;或者在手稿的写作中。本刊经费由海洋水产部“基于信息通信技术的渔业资源管理研究中心”(2021年,批准号20180384)资助。

作者信息

作者及单位

作者

贡献

HTC, DN, CP和JO设计了研究并撰写了论文。CP、DN和HTC对研究的协调做出了贡献。JO进行了研究并分析了数据。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到Hyi-thaek CeongDokyun NaChungoo公园

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们没有竞争利益。

额外的信息

出版商的注意

伟德体育在线施普林格·自然对已出版的地图和机构关系中的管辖权要求保持中立。

补充信息

附加文件1

:采用Boruta算法选取990个特征。

附加文件2

:使用来自DrugBank和UniProt数据库的gpcr -非靶标药物进行模型评价。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,该协议允许以任何媒介或格式使用、共享、改编、分发和复制,只要您适当地注明原作者和来源,提供知识共享许可协议的链接,并注明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可协议中,除非在材料的署名中另有说明。如果材料未包含在文章的知识共享许可中,并且您的预期用途不被法律法规允许或超过允许的用途,您将需要直接获得版权所有者的许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/。创作共用公共领域免责声明(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非在数据的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

哦,杰,琼,赫。D。et al。将g蛋白偶联受体分类为激动剂或拮抗剂的机器学习模型。BMC生物信息学23(增刊9),346(2022)。https://doi.org/10.1186/s12859-022-04877-7

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12859-022-04877-7

关键字

  • G-protein-coupled受体
  • GPCR-ligand交互
  • GPCR激动剂和拮抗剂
  • 机器学习
  • 两步随机森林分类
Baidu
map