数据结构论坛

首页 » 分类 » 问答 » 同源建模法预测蛋白质结构入门指南
TUhjnbcbe - 2021/9/9 22:42:00

本期文章共字,阅读时间约6分钟

01什么是同源建模?

同源建模也称为比较建模,根据与已知结构的序列同源性预测蛋白质结构。它基于“如果两个蛋白质具有足够高的序列相似性,它们很可能具有非常相似的三维结构”的原理。因此,它依赖于一种或多种可能类似于查询序列结构的已知蛋白质结构的鉴定,以及依赖于将查询序列中的残基映射到模板序列中的残基的比对的产生。因此,如果蛋白质序列之一具有已知结构,则可以以高置信度将该结构复制到未知蛋白质。

同源建模进一步有助于:

具有更高稳定性或新功能的蛋白质的合理设计

分析蛋白质功能、相互作用、抗原行为

基于结构的药物设计

由于从X射线晶体学和蛋白质NMR等方法中获取每种感兴趣蛋白质的实验结构既困难又耗时,因此同源性建模可以提供有用的结构模型,用于生成关于蛋白质功能的假设并指导进一步的实验工作。

02同源建模软件

1.SYBYL

SYBYL是一款用于药物小分子与生物大分子科学领域分子模拟软件。可以模拟的内容包括药物小分子的建模、构象分析、三维定量构效关係研究、药效团建模、虚拟筛选、生物大分子的同源模建、活性位点分析、数据库搜索等。sybyl是常用的同源模建软件。

2.Modeller

Modeller,是一款著名的蛋白质三维结构同源模建、比较建模软件。Modeller可根据用户提供的序列和已知的同源蛋白结构,自动生成不含氢原子的模型。通过满足空间约束,Modeller实现了蛋白质的比较建模。Modeller功能强大、可以调整的参数非常多,缺点就是对新手来说并不是特别友好。Modeller有Windows和Linux版本。

3.SWISS-MODEL

Swiss-model是一个基于ExPASyweb的同源模建服务器,其目的是为了让全世界所有生命科学研究人员都能接触蛋白质建模。Swiss-model共为用户提供了3种操作模式,分别为Automaticmode、Alignmentmode和Projectmode。

4.DiscoveryStudio

DiscoveryStudio是一款用于生命科学领域的分子建模、模拟软件。DiscoveryStudio实现的功能有:蛋白质的表征(包括蛋白-蛋白相互作用)、同源建模、分子力学计算和分子动力学模拟、基于结构药物设计工具(包括配体-蛋白质相互作用、全新药物设计和分子对接)、基于小分子的药物设计工具(包括定量构效关系、药效团、数据库筛选、ADMET)和组合库的设计与分析等。

5.MOE

MOE可应用于许多领域,如生物信息学中的同源序列标志、对比;化学信息学中的药效团定位、三位结构查询、构象数据库、结构相似性与差异性表征;高通量研究中的高通量筛选分析、二叉树构效关系研究、组合化学分子库合成;分子设计中的分子对接、碎片分析、活性位点探测;蛋白质模拟中的同源建模、力学分析、突变进化;分子模拟中的动力学研究、分子表面研究、力场和静电势分析。

03SWISS-MODEL软件的使用

在SWISS-MODEL中,默认建模工作流程包括以下主要步骤:输入数据、模板搜索、模板选择、模型构建和模型质量评估。

首先我们从NCBI数据库中获取蛋白质的结构序列,为了贴合本篇文章主题,关于数据库的使用将会在其他篇中介绍。

进入SWISS-MODEL网站后,点击“StratModelling”开始

然后将氨基酸序列粘贴到框中,也可以通过单击"UploadTargetSequenceFile"上传目标序列。这里我使用的是鼠伤寒沙门氏菌GyrA的氨基酸序列。序列如下:

tr

A0A0D6FCL4

A0A0D6FCL4_SALTMDNAgyrasesubunitAOS=SalmonellatyphimuriumOX=GN=gyrAPE=3SV=1

MSDLAREITPVNIEEELKSSYLDYAMSVIVGRALPDVRDGLKPVHRRVLYAMNVLGNDWN

KAYKKSARVVGDVIGKYHPHGDSAVYDTIVRMAQPFSLRYMLVDGQGNFGSIDGDSAAAM

RYTEIRLAKIAHELMADLEKETVDFVDNYDGTEKIPDVMPTKIPNLLVNGSSGIAVGMAT

NIPPHNLTEVINGCLAYIDNEDISIEGLMEHIPGPDFPTAAIINGRRGIEEAYRTGRGKV

YIRARAEVEADAKTGRETIIVHEIPYQVNKARLIEKIAELVKDKRVEGISALRDESDKDG

MRIVIEVKRDAVGEVVLNNLYSQTQLQVSFGINMVALHHGQPKIMNLKDIISAFVRHRRE

VVTRRTIFELRKARDRAHILEALAIALANIDPIIELIRRAPTPAEAKAALISRPWDLGNV

AAMLERAGDDAARPEWLEPEFGVRDGQYYLTEQQAQAILDLRLQKLTGLEHEKLLDEYKE

LLEQIAELLHILGSADRLMEVIREEMELIRDQFGDERRTEITANSADINIEDLISQEDVV

VTLSHQGYVKYQPLTDYEAQRRGGKGKSAARIKEEDFIDRLLVANTHDTILCFSSRGRLY

WMKVYQLPEASRGARGRPIVNLLPLEANERITAILPVREYEEGVNVFMATASGTVKKTAL

TEFSRPRSAGIIAVNLNDGDELIGVDLTSGSDEVMLFSAAGKVVRFKEDAVRAMGRTATG

VRGIKLAGDDKVVSLIIPRGEGAILTVTQNGYGKRTAADEYPTKSRATQGVISIKVTERN

GSVVGAVQVDDCDQIMMITDAGTLVRTRVSEISVVGRNTQGVILIRTAEDENVVGLQRVA

EPVDDEELDAIDGSVAEGDEDIAPEAESDDDVADDADE

然后点击“Buildmodel"进行同源建模,在这里需要告诉大家,如果目标序列与模板序列一致度极高,那么同源建模法是最准确的方法。如果一致度能达到30%,那么模型的准确度就可以达到80%,模型可以用于寻找功能位点,以及推测功能关系等。如果一致度能达到50%,那么模型的准确度就可以达到95%,可以根据模型设计定点突变实验,设计晶体结构自转,辅助完成真实结构的测定。如果一致度能达到70%以上,我们可以认为预测模型完全代表真实结果,可以用来分子筛选,分子对接,药物设计结构功能研究。特殊情况,虽然序列一致度达到很高水平,但是结构却并不相同。(这种情况比较少见,但需要注意)。

显示结果,选择"Model02",因为它具有最高(96.57%)的sequenceidentity以及相当大的coverage。

在这里给大家介绍两种评分标准,GMQE(全球模型质量估计)是一种结合目标-模板对齐方式和模板搜索方法的属性的质量估计。所得的GMQE分数表示为0到1之间的数字,反映了使用该对齐方式和模板构建的模型的预期准确性以及目标的覆盖范围。数字越高表示可靠性越高。

QMEAN该模型的得分可与相似大小的实验结构所期望的得分相媲美。0值附近的QMEAN得分表明模型结构与相似大小的实验结构之间具有良好的一致性。分数为-4.0或以下表示模型的质量较低。

大家可能对下面这个图心存疑惑,这是拉氏图(又名Ramachandran图)是一种使蛋白质结构中,主链氨基酸残基的二面角ψ和φ可视化的图。同时也可以反映出该蛋白质的构象是否合理。图中白色区域就是构象不合理的区域。

04总结

SWISS-MODEL这样既有友好的网页界面又是全自动的服务器,不需要复杂的软件包或者下载巨大的数据库,就能生成可靠的模型。但是它还是有一些不足的地方:1.当用A序列来对B建模时,如果A序列长度短于B。则这个网站不能自动对A进行补齐。2.此网站不能对相似度低于30%的蛋白质进行建模。关于这些问题,笔者将会在后续的进阶篇进行讲解,敬请期待。

参考资料:1.XiongJ.().EssentialBioinformatics.TexasAMUniversity.CambridgeUniversityPress.

2.ArthurMLesk().Introductiontobioinformatics.OxfordUniversityPress.Oxford,UnitedKingdom

往期文章推荐:1、从CADD到AI,新药的发现最终会交给机器吗?2、人工智能在药物设计、性质预测以及合成中的应用进展3、人工智能+药物研发卡脖子问题剖析:助力新一轮新药市场角逐4、突破研发瓶颈,是什么限制了AI制药的发展进程5、JDDT深度报道药物研发的三种方法:虚拟筛选、分子对接和QSAR6、人工智能在药物设计、性质预测以及合成中的应用进展7、MG-BERT:利用无监督原子表征学习进行分子性质预测8、JCI

深度学习整合分子和相互作用数据用于蛋白质—化合物相互作用预测9、AI提质加速新冠肺炎药物研发,Zafirlukast获MedicineinDrugDiscovery重点报道10、组织病理学中的深度学习:雄关漫道真如铁,而今迈步从头越

版权信息

本文系AIDDPro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDDPro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDDPro(请添加

1
查看完整版本: 同源建模法预测蛋白质结构入门指南