团队主持人指导博士后和硕士研究生在Cell子刊上发表AI药物发现重要研究成果
发布时间:2023-02-15   浏览次数:177

  团队主持人胡勇教授(通讯作者)指导团队包括博士后罗启超(共同通讯作者,现为合肥医科大学副教授)、硕士生顾钰良(第一作者)等人将历时数年的原创性成果成功发表于Cell综合子刊iScience。胡勇教授领导的大数据所是大学直属研究院所中人数最少的二级机构,在近年领导和指导博士生、博士后、甚至硕士生以第一作者在Nature、JAMA、Cell系列期刊持续发表全球领先水平的研究。

  本次发表的研究成果以硕士研究生为第一作者,研究题为“Protein–ligand binding affinity prediction with edge awareness and supervised attention”。iScience是世界顶级科学期刊Cell的综合性子刊,主要发表涵盖生命、信息交叉、物质和地球科学等领域发展的重要前沿科技研究。


(研究框架概览)

  本研究从2020年开始展开,共历时2年,主要解决人工智能辅助药物研发这一领域关键难题。蛋白-配体结合亲和力预测是药物研发早期阶段最为关键的任务之一,其预测的准确度直接决定药物研发的成功率,是药物研发所有后期阶段的基石。本研究围绕充分利用结构数据的特征信息和蛋白-配体相互作用的先验知识,建立高效准确的亲和力预测模型。当前基于深度学习的方法忽略了蛋白质和配体结构数据的边信息,并且基础的注意力机制难以捕获蛋白质和配体结构小数据集中的蛋白-配体结合相互作用知识,导致预测的准确度有限。本研究贡献包括:第一,提出基于超边图卷积和多监督注意力模块的原创性算法框架SEGSA_DTA(Super Edge GCN-based and Supervised Attention-based Drug–Target Affinity prediction model),有效地融合节点和边的特征信息,生成更全面的特征表示,同时缓解结构数据不足和注意力机制分布学习低效的问题。第二,结果显示SEGSA_DTA在基准数据集以及其他多个数据集上均取得了先进水平,充分说明了该框架相对于目前深度学习方法的普遍优势。第三,SEGSA_DTA具有良好的模型可解释性,结合SHAP方法为指导基于结构的先导化合物优化提供了一个新的定量分析解决方案,服务于药物研发。第四,SEGSA_DTA可用于加速新冠药物的发现,SEGSA_DTA通过针对新冠病毒主蛋白酶SARS-CoV-2 Mpro的药物重定位,提供了一批可能的潜在治疗药物,其中部分药物已被报道具有潜在的抑制活性。

  大数据团队在新一代人工智能方面有超过10年的积累,在迁移学习、个性化建模、因果学习、联邦学习、增强学习、智能集成决策领域有深入研究,形成团队自主创新的新一代人工智能算法体系。本研究是基于新一代人工智能技术积累与医疗领域大数据关键问题相结合的跨领域大科学大交叉研究。团队的愿景是“做正确事,成为AI赋能领先者”。

  本研究得到了国家自然科学基金重大研究计划重点支持项目、广东省科技计划重大科技专项、广东省大数据精准健康工程技术研究中心等项目的支持。

  论文链接:https://www.cell.com/iscience/fulltext/S2589-0042(22)02165-4