手机小程序小程序开发 力闻 | Foldseek: 卵白结构比对参预10秒的时间

序文

AlphaFold2、RosettaFold等模子的出现,让卵白质结构瞻望的精度普及到了原子级别。通过这些智商不错生成数百万、数千万乃至数亿的卵白质结构。当今欧洲生物信息学探讨所仍是领有逾越2.14亿个由AlphaFold2瞻望的结构;ESM Atlas包含了超6.17亿个由ESMFold瞻望的宏基因组结构。数据库规模的急剧彭胀对卵白质结构的搜索提议了挑战,若何快速准确地搜索分析卵白质的结构,成为了更进击的探讨课题。

最泛泛的卵白质搜索是基于序列雷同性搜索,其想法是找到同源序列,从中推断出查询序列的特色,如功能、结构、共进化。尽管基于序列的同源性推断取得了奏效,可是照旧存在一些问题,如仅从序列检测远距离进化干系仍然是一个具有挑战性的问题。与之相对的,在3D空间检测卵白质结构之间的雷同性不错科罚该问题,这为识别同源卵白质提供了更高的聪惠度。念念法很好,可是随之而来的是搜索速率的适度。为了普及结构对皆的速率和聪惠度,科学家付出了数十年的发奋,可是面临现阶段的结构数据库照旧显得速率太慢。主要原因有两方面,其一是序列搜索用具收受了快速且聪惠的预过滤算法普及速率,而结构对比用具莫得近似算法;其二,结构雷同性口舌局部的,窜改局部对皆风光会影响其他部分,大多数结构对皆智商通过迭代或当场优化来科罚对皆优化问题。

假定咱们作念一个对比,用TM-align在1亿个卵白质结构数据可进行单个查询结构的搜索,在一个CPU内核上需要一个月的技能,不错猜想用一个1000个内核的集群进行all-versus-all的比拟则需要10000年;而搜索序列则快了4-5个数目级,用MMseqs2对1亿个序列进行all-versus-all比拟,在疏导集群上仅需一周傍边。由此不错出身一个念念法,将卵白质结构搜索的问题转机为“序列”搜索问题,通过序列搜索用具进行搜索。要科罚的关节问题是若何将卵白质结构中的氨基酸三维信息进行再行编码,生成一套新的“结构”字母表。

近期,Michel van Kempen等东谈主在Nature Biotechnology上发表了题为《Fast and accurate protein structure search with Foldseek》的著述,提议了一种名为3Di的新式字母表,用于面貌三级结构相互作用。字母表中提到的20种字母,面貌了每个氨基酸和其空间上最接近的氨基酸的几何构象。该智商将结构编码为3Di字母表上的序列,从而将结构比对转机为为3Di序列的比对。

图片

这项使命来自Martin Steinegger的实际室,早年他就作陪Johannes Söding进行集成、聚类和纵情宏基因组测序数据的狡计智商的探讨。当今,Steinegger实际室主要探讨搜索、聚类和拼装序列数据的算法,宏基因组分析,卵白质功能和结构瞻望等。早在2017年,Martin Steinegger和他的雇主Johannes Söding一谈提议了MMseqs2智商,这是一种高效的卵白质序列搜索智商,其入手速率比BLAST快10000倍;2018年,又发表了对于在线性技能内聚类大都卵白质序列集的Linclust智商,入手技能与输入集的大小成线性干系;2019年,发表了HH-suite3用于快速良友同源性检测和深度卵白质纵情的使命。因此,Steinegger实际室在卵白质序列结构的搜索和比对上有着深厚的积攒。

AI构架贯通

下图展示了Foldseek的使命经过,小程序开发公司在规划结构中搜索查询结构。第一步,将查询结构和规划结构突破化为3Di字母表上的序列。为了检测候选的结构,使用预窥察的3Di替换矩阵,将MMseqs2的k-mer和无gap比对预过滤器诳骗于3Di序列搜索;第二步,获取高分的hit,默许情况下使用连合了3Di和氨基酸替换分数的Smith-Waterman局部对比;大要使用TM-align(Foldseek-TM)进行全局对皆。

图片

图1. Foldseek 使命经过

在Foldseek使命经过中,学习3Di字母表终点关节,过程如图1(b)所示。3Di的每个字母面貌了氨基酸和其最近氨基酸之间的三级结构的相互作用。为了面貌两个氨基酸相互作用的几何,从两个骨架片断(蓝色和红色)的六个Cα坐标中提真金不怕火七个角度、两个氨基酸之间的欧式距离以及两个序列距离特征。这10个特征将用于界说3Di字母表的20种字母气象。通过对特征进行编码息争码,窥察一个VQ-VAE模子,该模子被修改为学习最猛进化保守的字母气象。对于结构搜索,编码器会瞻望每个氨基酸最好匹配的3Di字母。

实际部分,Foldseek与六种卵白质结构对皆用具、无对皆结构搜索用具(Geometricus)以及序列搜索用具(MMseqs2)进行了比拟。论断是Foldseek以快数千倍的速率达到与结构瞄准器雷同的聪惠度。

图片

图2. 实际对比

图2(a)是在单域结构的SCOPe40数据库上进行同源检测的聪惠度累积散布,TP是兼并个superfamily的匹配项,FP是指不同的折叠,聪惠度是指到第一个FP的ROC弧线下的面积。图2(b)是SCOPe40中superfamily的准确率和调回率弧线。图2(c)是在AMD EPYC 7702P 64核 CPU上对SCOPe40的11211个卵白质结构进行all-versus-all搜索时, family, superfamily和fold的第一个FP的平均明锐度与总的用时的干系。以上对比实际发现,Foldseek对FP明锐度高,精准度高,同期速率还快。图2(d)是从AlphaFoldDB中当场中式100个查询结构在该数据库中进行搜索,每个氨基酸查询笼罩率与在第一个FP匹配之前TP匹配数目。图2(e)是比拟对皆质地,在100个查询中每个查询的前5个匹配的平均值,Sensitivity = TP residues in alignment / query length; Precision = TP residues / alignment length。图2(f)是每个HOMSTRAD眷属在 Foldseek 和 Dali 之间的比对证地的比拟。F1分数是聪惠度和精度之间的长入平均值。Foldseek比MMseqs2、CLE-SW 和 TM-align 更准确、更聪惠,与 Dali 的准确度雷同,比 CE 低 13%的准确率,但聪惠度高15%。从速率上,Foldseek与MMseqs2差距收缩到一个数目级以内,远优于其他结构对皆智商。

使用体验

Foldseek公开了收集作事器版块(https://search.foldseek.com/),用于多个数据库搜索。

1、搜索页面不错上传查询序列,同期采选搜索的数据库。

图片

2、点击搜索,恭候几秒即可复返搜索成果,通过右侧栏不错回溯之前的搜索历史。

图片

软件开发

力评

该项探讨将卵白质结构搜索的速率普及到了一个新的高度,并设立了一套新的卵白质结构字母表,不错说是卵白质结构面貌的一种新式话语序列,有助于阅兵卵白质同源性推断,在新式算法的加合手下,挖掘PDB或AI生成卵白数据的结构信息的风光已迎来变革。

照片中,年轻的梅西与一个可爱的婴儿合影,那个半岁的婴儿就是亚马尔。

CONTACT US

本站仅提供存储作事,悉数本体均由用户发布,如发现存害或侵权本体,请点击举报。

Powered by 手机小程序小程序开发 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024 云迈科技 版权所有