SMART(Simple Modular Architecture Research Tool)是用于蛋白质结构域的鉴定和注释以及蛋白质结构域分析的网络资源。 1997年首次发表,目前已经更新到SMART版本8,其包含1300多个蛋白质结构域的手工注释模型,自2015年更新文章以来增加了大约100个新的模型。目前用的基础蛋白质数据库与UniProt(2),Ensembl(3)和STRING(4)是同步,使得注释域和其他蛋白质特征的总数增加了一倍,达到2亿以上。在第二十年,SMART分析结果页面再次精简,信息来源已经更新,速速也得到了显著的提升。
更新的外部信息来源
![SMART蛋白质结构域注释的20年(附用法)](https://www.yanyin.tech/cms/manage/file/59.jpg)
蛋白质orthology数据从蛋数据库版本4.5(19)解析,并涵盖从> 3500种约750万蛋白质。 SMART的注释页面显示所有直系同源组的详细列表,包括注释的蛋白质及其描述和分类类别。提供与eggNOG的交叉连接,详细概述每个直系同源组以及相关的比对和系统发生树。
自上一次SMART发布以来显示的翻译后蛋白质修饰数据已经与PTMcode数据库(20)的最新版本2同步。 SMART显示在特定蛋白质中注释的各种翻译后修饰的总数,以及PTMcode中的详细注释页面的链接,其中用户可以探索蛋白质内的修饰及其可能的功能关联以及与其直接相互作用的伙伴。
扩大的蛋白质相互作用数据
随着基础蛋白质数据库的更新,我们还将蛋白质相互作用数据与STRING数据库10.5版本(4)同步。现在可以提供推定的相互作用伙伴的更新的图形表示,用于> 950万个蛋白质。
更新的分类树数据导出
SMART中的域架构分析功能允许用户简单访问包含特定域组合的蛋白质。这些也可以使用与蛋白质结构域相关的GO术语的组合来产生,并且限于各种分类学类别。除了标准的SMART蛋白质示意图,这些数据也可以输出到FASTA文件或系统发育树上。系统发育树出口已被完全重写,并与交互式生命树(iTOL)(21)版本3兼容,这些树和它们相关的蛋白质域数据集可以进一步注释(B)。此外,用于树生成的后端分类信息与最新的NCBI分类数据库同步。
后台优化和扩展搜索引擎
SMART的后端是一个由PostgreSQL引擎驱动的关系数据库管理系统(RDBMS),它存储了整个Uniprot(2)所有SMART域的注释,蛋白质注释和序列,分类信息和预先计算的蛋白质分析, ,Ensembl(3)和STRING(4)蛋白质组。除了对所有SMART和Pfam结构域的预测外,还包括各种蛋白质内在特征,如信号肽,跨膜和卷曲螺旋区域。由于注释特征数量的不断增长,我们定期重组我们的后端数据库,并优化服务器代码的各个部分,以使用户体验令人满意。此外,为序列注释搜索和数据库查询提供支持的服务器硬件已经被更多的RAM和CPU所取代并大大扩展,大大提高了用户提交的蛋白质的处理速度,并降低了整体响应时间。
SMART的全文搜索引擎允许用户根据他们的注释和其他相关文本快速识别域或蛋白质。当前版本引入了一个更新的搜索后端,提供访问与每个蛋白质/域相关的更广泛的文本信息,同时提供更高的搜索速度。
结论
自20多年前SMART首次发布以来,我们的目标是提供一个有用的生物网络资源,其特征在于高质量的基础数据和强大的,简单的用户界面,即使在资金水平非常低的情况下(过去10年平均不到1个FTE)。因此,我们有信心,我们能够继续适度扩大我们的