CDK中的开源ECFP / FCFP圆形指纹

CDD保管库更新标识
2014年5月10日

CDD保险库现在允许您构建预测模型。由于我们相信协作和可重复的结果,我们正在释放核心算法,即此功能作为开源软件。化学指纹详述如下,我们也发布了我们的 修改后贝叶斯模型。发送电子邮件至 [电子邮件 protected] if you’d想尝试在CDD Vault中使用模型。


由Alex Clark;这篇文章的部分原来出现在 化学信息学2.0.

截至目前,最新版本的流行开源 化学开发套件 (CDK)有自己的实施高度重视的ECFP和FCFP类化学结构指纹(有时称为 或者 摩根 指纹)。虽然这类指纹的一般配方已经有一段时间,并且各种不同的工具包中有许多实现,但这一个以多种方式区分自己:它已经尽可能地实现了对的描述 原始定义 (不访问留出留出的商业秘密);它包括对女性中心的解决;它是可自由的,作为开源Java代码;并且,最后但并非最不重要的是,该算法被设计为作为便携式的便携式,在特定编程语言或化工学性工具包上没有主要依赖性。

CDD拱顶建立预测模型

行动中的新指纹:在CDD金库中构建预测模型。

对CDK的这一贡献是由协作药物发现所取出的,并且您真正通过的实施。它用于CDD库中的新预测建模功能,以及用于结核病研究的免费TB移动应用。

因为CDK版本(可用于我们的 GitHub Fork.,或者最新&在Java中编写的最伟大的主要CDK分支机构生产与在iOS应用中使用的Objective-C中编码的版本相同的指纹,这意味着可以使用基于Java的桌面应用程序或WebService来创建模型,并由移动应用程序应用于客户端。这就是TB移动应用程序如何提供相似性排序,可视聚类和目标活动预测,所有这些都通过将预先计算的参考数据与动态计算的用户提供的数据混合来提供所有。

如果您不熟悉术语ECP6和FCFP6,请简而言之:针对直径为6的所有子图检查化学结构(即从单个节点开始,并执行3个宽度第一迭代) 。这些图中的每一个都被分配了一个 哈希码 基于原子的性质,债券,以及适用的,人行道。这些哈希代码通过多个冗余消除步骤进行,最终转换为32位整数的列表。药物状分子通常具有数十个至数百个这些独特的散列码。在结构上非常相似的分子倾向于共同共同共同的大量这些指标,并且通常使用Tanimoto系数进行比较。对于ECFP类指纹,原子属性有些文字(例如原子序数,电荷,氢气数等),而对于FCFP级(“F”代表 功能)原子特性被扫描出与配体结合(例如氢供体/受体,极性,芳香性等)相关的性质,这意味着不同的原子通常以相同的值开始(例如,可能认为-NH和-NH和-NH)相同的)。

有许多不同类型的基于图形的指纹,可用作各种结构比较的替代选择。 ECFP和FCFP类别已成功使用了许多研究,特别是对于贝叶斯模型建筑。这些指纹构造的方式提供了良好的平衡,当用于各种相似性比较时,使凭经质良好的比例,这使得它们成为药物发现的流行选择。

多个软件供应商已经实现了自己的循环描述符样式,但存在问题:原版发明基于在文献中发布的算法,但遗憾的是留下了将无法实现其他人实现的关键细节一个字符兼容的版本。如果您正在使用单个供应商的软件进行所有建模,但如果您想混合和匹配,即使输入分子是相同的,如果输入分子是相同的,则不能将由一个包生成的指纹与另一个包生成的指纹进行比较并且实现遵循相同的基本配方:数字将是完全不同的。

因为CDK项目以前没有自己的实施,所以我们填满了这个特殊的洞。在Java运行时环境中使用软件的任何人都可以访问它,而无需支付任何人或要求许可。我们已经掌握了大量的弯头油脂,以确保这些指纹通过各种验证测试,并以与其他实施相当的富集率。但是也许更重要的是,该算法已经非常刻意地以相对容易描述的方式构建,并且基于高度自我的代码。定义如隐含的氢计数,芳香性,环形块和手性是简约的,定义明确,并且保证永远不会改变。这意味着如果生成结构的指纹列表,则可以将它们存储在数据库中,并将它们永远使用它们;您不需要向它们版本进行版本,并确保每当一个依赖关系更改时会重建(这是具有许多软件包的主要头痛)。并且因为实现是相当的平台不可知论,可以将单一源文件逐行翻译成不同的开发环境。在实践中,您可以使用CDK实现来生成示例结果,以确保移植的版本相同运行。如前所述,这已经完成并正在使用 TB手机 app.

我们打算在不久的将来明确记录科学文献中的算法,以补充自由的源代码,但您将不得不等待。与此同时,如果你觉得勇敢,寻找文件 圆fingerprint.java. 在CDK源,在指纹层次结构下。

这也是我第一次积极与CDK CodeBase合作。该项目似乎在主要的大修中,所以看看另一端发生的事情会很有趣。除了一个重要的新类别指纹,这是!