Linker Library:基于几何特征的骨架跃迁片段库.pdf
《Linker Library:基于几何特征的骨架跃迁片段库.pdf》由会员分享,可在线阅读,更多相关《Linker Library:基于几何特征的骨架跃迁片段库.pdf(8页珍藏版)》请在咨信网上搜索。
1、文章编号:1006-3080(2023)04-0546-08DOI:10.14135/ki.1006-3080.20220418002Linker Library:基于几何特征的骨架跃迁片段库李璐,廖奕晨,沈子豪,李洪林,李诗良(华东理工大学药学院,上海市新药设计重点实验室,上海 200237)摘要:骨架跃迁是目前应用最广泛的药物设计策略之一,但是现有骨架跃迁方法产生的化合物大多为已报道的先导化合物的衍生物或类似物,化学结构缺乏新颖性。针对现有骨架跃迁方法的局限性,提出了一种保持药效团与骨架之间的相对距离和角度不变的骨架跃迁策略,构建一个包含骨架几何特征的 linker 片段库:LinkerL
2、ibrary。该片段库可以根据骨架中心到连接点之间距离和角度,推荐结构新颖且可保持官能团相对位置的片段,有助于指导化合物的骨架跃迁并加速药物发现进程。关键词:骨架跃迁;几何特征;片段库;LinkerLibrary;药物设计中图分类号:TP392文献标志码:A新药研发过程一直以来都处于高投入、高风险、低产出的困境,一个创新药物从研发初期到成功上市,需要有 510 种同类型的药物进入临床试验;同时,为了保证进入临床试验的药物数量足够,临床前期需要得到 250 个左右的先导化合物,而这些先导化合物要通过生物测试从 500010000 个候选化合物中筛选获得1。因此,新药研发从概念的形成到成功上市,研
3、发周期通常长达 615a,研发成本投入高达6.526 亿 USD,且投入的费用有逐年攀升的趋势2。为了提高新药的产出率,各大制药公司都致力于开发药物设计的新方法和新技术3,其中,骨架跃迁是目前药物设计中应用最广泛的策略之一。骨架跃迁的概念最早在 1999 年由 Schneider 等4提出,它是将一个药物的核心骨架替换为新的、功能相似的基团,形成结构新颖且具有较好生物活性的新化合物5。骨架跃迁在药物设计中的主要目的包括增加与靶蛋白的相互作用、调节药物分子的理化性质、增加代谢稳定性、降低毒性、避免副作用和突破现有专利的保护等6-10。目前有多种计算方法可以实现骨架跃迁,包括基于 3D 形状相似性
4、搜索、基于分子指纹相似性搜索、药效团匹配和片段替换。其中基于片段替换的骨架跃迁可以分为 3 类:第 1 类,基于断裂键矢量,CAVEAT 是最典型的基于断裂键的连接方向进行片段替换11的方法;Rescore 除了考虑连接点的矢量外附加考虑了药效团特征12;SHOP 则进一步优化了连接点矢量的特征分布13;第 2 类,基于电子等排体,DiscoveryStudio 中的 ReplaceFragment 模块和 Open-Eye 中的 BROOD 模块都是基于生物电子等排体指导骨架跃迁14-16;CressetSPARK 在考虑静电相似性的同时会结合形状相似性17;第 3 类,基于 ADMET性质
5、,ADMETopt 是基于 15 种 ADMET 性质推荐符合条件的骨架18;GastroPlus 中 MedchemStudio 模块通过 ADMET 性质筛选,可以同时用于指导骨架跃迁或 R 取代基优化19。但是上述策略产生的先导化合物大多为已经报道的先导化合物的衍生物或类似物,化学结构缺乏新颖性。因此,亟待解决的问题是挣脱现有骨架相似性的束缚,从一种新的角度出发实现骨架跃迁。先导化合物由药效团和骨架组成,药效团结合在骨架上形成结构完整的分子,其中药效团是药物分子产生特定生物活性所必须的结构;若替换骨架,仍然能够收稿日期:2022-04-18基金项目:国家自然科学基金面上项目(821736
6、90)作者简介:李璐(1994),女,湖北咸宁人,硕士生,主要研究方向为计算机辅助药物设计。E-mail:lilu_dws_通信联系人:李诗良,E-mail:引用本文:李璐,廖奕晨,沈子豪,等.LinkerLibrary:基于几何特征的骨架跃迁片段库 J.华东理工大学学报(自然科学版),2023,49(4):546-553.Citation:LILu,LIAOYichen,SHENZihao,et al.LinkerLibrary:FragmentLibraryforScaffoldHoppingBasedonGeometricFeaturesJ.JournalofEastChinaUnive
7、rsityofScienceandTechnology,2023,49(4):546-553.华东理工大学学报(自然科学版)Vol.49No.4546JournalofEastChinaUniversityofScienceandTechnology2023-08保持药物分子中各个药效团之间的距离和角度不变,理论上就能保持药物分子的生物活性。本文将以药效团和骨架之间的距离和角度为切入点,构建一个基于几何特征的 linker 片段库 LinkerLibrary,以期指导先导化合物的骨架跃迁。1实验部分 1.1 实验设计LinkerLibrary 用 Python3.7 语言编写,以 RDKit作
8、为化学支持库。LinkerLibrary 使用的化合物来自剑 桥 结 构 数 据 库(Cambridge Structural Database,CSD),经 过 化 合 物 过 滤、RECAP(RetrosyntheticCombinatorialAnalysisProcedure)拆分、片段过滤、几何特征提取、容差处理后得到一个包含几何特征的LinkerLibrary。提问分子经过处理后可以从 LinkerLibrary 中搜索得到指导骨架跃迁的全部片段。总体流程如图 1 所示。1.2 片段库构建1.2.1数据来源CSD 是目前世界上应用最广泛的数据库之一,该数据库收录了化合物的三维结构信
9、息20。与运用计算机模拟化合物生成大量构象相比,以 CSD 作为化合物的来源,优势在于其构象是真实存在的,且理论上是自然状态下的最优构象。因此,选择 CSD 的化合物作为数据来源,不仅能够降低数据的冗余同时可以获得化合物真实的坐标信息,这对于提取药效团与骨架之间的距离和角度作为描述符,具有非常重要的参考意义。在 CSD中利用包括三维结构确定、不乱序、有机化合物、无错误以及非离子等在内的过滤条件进行筛选,得到了 844703 个符合要求的有机化合物晶体。1.2.2片段生成RDKit 是最常用的开源化学信息学工具之一,如图 2 所示,本文利用 RECAP 中的11 种逆合成规则将化合物拆分成片段2
10、1。将 CSD 中的 844703 个化合物通过上述 11 种逆合成规则生成了 6188442 个片段,不同连接点的片段分布如图 3 所示。由于片段库是用于骨架跃迁,需要的是大于或等于两个连接点的 linker 片段,因此单连接点的取代基片段不在本文考虑范围之内;其中含有 2 个连接点的片段为 1473058 个,3 个连接点的片段为 109638 个,4 个连接点的片段为 4324 个,5 个及更多连接点的片段仅为 244 个。由于连接点数目越多,对应的片段数目越少,且几何特征同时匹配的可能性越低,因此本文构建的LinkerLibrary 中仅考虑连接点为 24 的片段,合计1587020
11、个。1.2.3坐标采集由于经过逆合成规则生成的 linker片段的连接点三维信息丢失,linker 片段显示为三维结构时所有连接点将汇聚于一点(0,0,0)。为解决上述问题,本文依次对比 linker 片段和原始分子的原子坐标,将分子中的对应原子坐标赋予连接点,还原了linker 片段的 3D 构象。图 4(a)所 示 为 逆 合 成 规 则 打 断 后 生 成 的CSDLinkersCoordinate acquisitionGeometric featureextractionTolerance processing(Distance tolerance=0.31010 mAngle to
12、lerance=5)No ions,no errors,only organic,non-disordered,3D coordinates determined844 703 CompoundsFragment libraryRECAPRECAPFragments with 24 connection pointsLinker libraryQuery moleculeFragmentsCoordinate acquisitionGeometric feature extractionTolerance processingQuery linkersMatched linkers图1Link
13、erLibrary 的流程图Fig.1FlowchartofLinkerLibrary第4期李璐,等:LinkerLibrary:基于几何特征的骨架跃迁片段库547linker 片段,linker 片段的连接点以“*”表示,分别对应图 4(b)所示分子中的 N 原子和 O 原子。由于连接点的坐标丢失导致 linker 片段的 3D 构象如图 4(c)所示,连接点坐标聚于一点,将原始分子的原子坐标赋予“*”后,linker 片段恢复 3D 构象,如图 4(d)所示。赋值过程为:(1)linker 片段“*”有且仅有一个相邻 C 原子;(2)linker 片段“*”相邻 C 原子有 3 个相邻原子
14、,其中必定有一个原子为“*”;(3)在原始分子中,读取 linker 片段“*”相邻 C 原子的 3 个相邻原子坐标,将 N 原子的坐标赋予“*”。根据 linker 片段的 SMILES 文件,可获取如下信息:(1)片段连接点数目 n(SMILES 文件“*”数目即为连接点数目);(2)片段连接点坐标*(X,Y,Z)(SMILES 文件“*”坐标即为连接点坐标)。根据上述信息可进一步计算每个片段的中心坐标 O(X,Y,Z),如式(1)所示:O(X,Y,Z)=Ni=1(Xi+Yi+Zi)N(1)O(X,Y,Z)XiYiZiNi=1(Xi+Yi+Zi)其中:为片段中心坐标,、均为坐标值,N 为片
15、段原子总数;为片段原子坐标之和。1.2.4特征提取基于几何特征的片段库,选取的几何特征描述符分别是距离和角度。如图 5 所示,距离为连接点到中心的距离,如 OA、OB、OC;角度为两个连接点与中心形成的夹角,如AOB、BOC、AOC。AOCB图5几何特征描述符Fig.5GeometricfeaturesdescriptorsD12采用欧式距离作为距离计算方法,即直角坐标系中两点之间的直线距离()。如式(2)所示。D12=(X1X2)2+(Y1Y2)2+(Z1Z2)2(2)采用余弦定理计算夹角余弦值,并计算得到相应的角度。如式(3)和式(4)所示。cosAOB=OA2+OB2AB22OAOB(3
16、)AOB=180cosAOB(4)本文设计的特征描述符为固定长度的字符串,其中包含了片段的连接点数目、距离和角度信息。特征描述符中包含的原始几何特征,是指导骨架跃迁的主要依据。1.2.5容差处理本文设计的 LinkerLibrary 是基于几何特征相似原理的骨架跃迁片段库,允许匹配片段之间的距离和角度存在小范围的偏差:当所有的距离和角度均小于设定容差时,即可获得几何特征相似的片段;反之,当存在距离或角度大于容差时,则无法进行骨架跃迁。距离和角度的容差处理过程NOOONNNOONNNNNONN SOO(a)Amide(b)Ester(c)Amine(d)Urea(e)Ether(f)Olefin
17、(g)Quartemarynitrogen(h)Aromatic nitrogenalphatic carbon(i)Lactam nitrogenalphatic carton(j)Aromatic carbonaromatic carbon(k)Sulphonamide图2RECAP 中定义的 11 种拆分规则21Fig.2ElevendefaultbondcleavagetypesintheRECAP21Numbers of connection pointsNumbers107106105104103102101123454 601 1781 473 058109 6384 32424
18、4图3不同数目连接点片段分布Fig.3Fragmentdistributionofdifferentnumberofconnectionpoints(a)OOOOOOOOOO*HN(b)(c)(d)图4连接点“*”坐标生成的过程Fig.4Process of the generating coordinates of connectionpoint*548华东理工大学学报(自然科学版)第49卷如式(5)所示。FR=nTp,Tp2 FInTpTp2(n+1)Tp,FInTpTp2or FInTp Tp2(5)其中:FI表示片段实际的几何特征值;Tp表示几何特征的容差值;n 为 FI与 Tp的取整
19、;FR表示取容差之后的几何特征值。经过多次调试参数后,将距离的容差值设置为 0.31010m,角度的容差值设置为 5。将每个片段的连接点数目、距离和角度生成一组 25 个数字组成的等长字符串,则每一个片段便会对应一个包含几何特征的 25 位字符串,如图 6 所示。经过容差处理后,每一个字符串可能会对应多个片段,这些片段即为具有相似几何特征的片段。图6几何特征字符串Fig.6Stringofthegeometricfeaturesdescriptors1.2.6数据储存为了提高检索速度,本文采用字典的键-值对储存,该储存包含几何特征的字符串,键必须是唯一的,而值不需要唯一。字典,是一种特殊的哈希
20、表,优点是不需要装箱和拆箱操作,是根据关键码值直接进行访问的数据结构,可以加快查找速度。在数据储存过程中,构建了两个字典 Dictionary1 和 Dictionary2,对应的键-值对信息如图 7 所示,其中 Dictionary2 的 Key2 对应 Dictionary1 的 Value1。Dictionary1 的键为 25 个数字组成的几何特征字符串,值是从 0 开始的数字,将经过容差处理的几何特征字符串依次存入;Dictionary2 的值为一个元组,其中写入的每一个几何特征字符串对应原始的几何特征信息。当几何特征字符串在 Dictionary1 中已经存在时,则将其对应的 li
21、nker 片段信息追加到Dictionary2 的值中,Dictionary2 中的值会记录每一个几何特征字符串所对应的多个片段信息。将生成的 1587020 个 linker 片段依次按照上述过程存入字典中,即为本文构建的种类丰富、数量庞大的 LinkerLibrary,可以根据几何特征指导骨架跃迁。1.3 片段搜索构建的 LinkerLibrary 记录了 1587020 个片段的几何特征信息,用户给出一个提问分子,经过处理后得到目标骨架,在片段库中进行几何特征比对,可以得到指导骨架跃迁的所有片段。1.3.1提问分子处理(1)提问分子利用逆合成规则 RECAP 生成碎片,得到目标 link
22、er 片段;(2)通过原始分子中的原子坐标,获取 linker 片段的连接点坐标,并计算片段的中心坐标;(3)获取 linker 片段的中心与连接点之间的距离和夹角;(4)对距离和夹角分别取容差,生成一个由Dictionary 1Key 1Value 1Dictionary 2Key 2Value 2208108100000000000000000020450450000000000000000002030030000000000000000000.210.210FragAFragBFragCFragDFragEFragGFragHFragIFragF图7片段几何特征信息的储存Fig.7Sto
23、rageofthefragmentgeometricfeatureinformation第4期李璐,等:LinkerLibrary:基于几何特征的骨架跃迁片段库54925 个数字组成的几何特征字符串。1.3.2提问片段搜索在 LinkerLibrary 中,数据被储存 在 相 互 关 联 的 Dictionary 1 和 Dictionary 2 中,Dictionary1 储存了片段的几何特征字符串,Dictionary2 则记录了每一个几何特征字符串对应的多个片段信息。在 Dictionary1 中查找提问片段的几何特征字符串对应的值 Value1;通过 Value1,在 Dictiona
24、ry2 中对应的 Key2 检索出与几何特征对应的所有片段,即为与提问片段具有相似几何特征、可指导骨架跃迁的片段。2结果与讨论 2.1 在亨廷顿病潜在治疗靶标 MAPK11 的选择性抑制剂发现方面的应用Skepinone-L 是亨廷顿病的潜在治疗靶标MAPK11的选择性抑制剂22,该化合物具有二芳基环庚酮的母核,可作为高活性 MAPK11 选择性抑制剂发现研究的良好起点。然而,对先导化合物 Skepinone-L 的专利进行调研的结果表明其专利保护非常全面,采用常规的骨架跃迁手段,如杂环替换、等电子替换、开环闭环以及相似性替换较难突破。因此,本文采用 LinkerLibrary 为 Skepi
25、none-L 的骨架跃迁提供新思路。利用逆合成规则将 Skepinone-L 拆分成具有两个连接点的二芳基环庚酮结构。以二芳基环庚酮作为提问片段,经过特征描述符提取和容差处理后,得到一个包含二芳基环庚酮几何特征信息的字符串;利用字符串在 LinkerLibrary 中进行检索,结果表明片段库包含 348 个与二芳基环庚酮具有相似几何特征的片段,如图 8 所示。将二芳基环庚酮(蓝紫色)与上述 348 个片段进行两两叠合比较,通过视觉分析挑选出叠合效果较好的 10 个片段,其结构可以分为4 类:(1)与二芳基环庚酮形状比较相似的三连环结构 4;(2)五元环连五元环 2、六元环连五元环 10、六元环
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Linker Library:基于几何特征的骨架跃迁片段库 Library 基于 几何 特征 骨架 跃迁 片段
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。