根据一篇在《Science》杂志上发表的最新研究,伦敦大学学院(University College London)的研究团队,由David T. Jones和Christine A. Orengo等人领衔,对AlphaFold Protein Structure Database(AFDB)数据集进行了系统的重挖掘和分类。这个数据集包含了超过2.14亿种蛋白的结构域信息。
与基于序列的方法相比,如[2]和[3],该研究显著提升了对于远源结构域以及全新结构域的解析能力。研究人员成功发现了上千种对称和非对称的折叠/结构域类型,以及上万种结构域超家族之间的相互作用。[4]和[5]中详细描述了这一重大发现。
基于这一方法,研究人员构建了一个名为“结构域百科全书”(TED)的数据库,该数据库将有助于人们更深入地理解结构域的结构、功能以及演化过程。[4]
这一系统性的重挖掘和分类工作对于AFDB中的蛋白结构域具有重要价值,特别是在解析新型折叠/结构域方面表现出了卓越的能力。[4]这一研究成果的发表时间为2024年11月1日。
关于新发现的结构域,目前尚不清楚其中有多大比例是由预测错误造成的。为了进一步验证其准确性,后续研究需要进行分层(按长度、新颖程度等)随机抽样实验。[待验证部分]
参考文献:
[1] Varadi等人于2024年发表的研究,“AlphaFold蛋白结构数据库在2024年的进展:为超过214万个蛋白序列提供结构覆盖。”
[其他文献提及的内容]包括A. Bateman的“Pfam蛋白家族数据库”以及其他两篇有关基因组分析的重要文献。
查看更多细节和原始文献内容请访问官方链接: