CDK开源ECFP / FCFP圆形手指打印

CDD保管库更新标识
2014年5月10日

CDD保险库现在建立预测模型。由于我们相信协作和可重复的结果,因此该函数的核心算法被公布为开源软件。化学指纹详述如下,也固定贝叶斯模型我发表了。如果要使用CDD Vault的模型,[电子邮件 protected]请给我发电子邮件。


其中一些文章是化学信息学2.0出版于

目前,流行的开源化学开发套件最新版本的(CDK)是一种高度值的ECFP和FCFP类化学结构指纹(圆形指纹摩根指纹还有一个独特的实现)。此类指纹的常见配方可提供一段时间,并且有几种具有不同不同工具包的实现,但该指纹由几个点区分。

CDD拱顶预测模型的构建

新的指纹是有效的:CDD拱顶的预测模型构建

通过协同药物发现,对这一CDK的贡献是由您的诚意完成的。这用于CDD Vault的新预测建模和用于结核病研究的免费TB流动应用程序。

用java编写的cdk版本GitHub Fork.使用基于Java的桌面应用程序和Web服务来生成与iOS应用程序的Objective-C相同的指纹,或者在最新的CDK分支中使用。这意味着可以使用移动应用程序创建和应用于客户端的模型。因此,TB移动应用程序可以通过混合先前计算的参考数据和动态计算的用户提供的数据来提供相似性排序,视觉聚类和目标活动预测。您将。

将简要描述对直径为6尺寸的所有子图(即,从一个节点开始三次,3次,以直径为直径6的所有子图(即从一个节点开始)执行重复宽度这些图中的每一个都基于适用时的原子,耦合和性能的特性哈希码被分配。在几个冗余删除步骤后,这些哈希代码将转换为32位整数的列表。药物状分子通常具有几十到数百个这些独特的哈希码。在结构上非常相似的分子是共同分享许多这些指标的常见,因此它们通常使用谷系统系数。在ECFP类指纹中,原子的特性略有文字(例如,原子序数,电荷,氢数等),但FCFP类(“F”是功能另外,将原子的特性换掉与配体结合相关的特性(例如,氢供体/受体,极性,芳香性等),并且不同的原子通常以相同的值开始(例如,-OH和 - NH可能被认为是相同的。

基于图形的指纹具有许多不同类型的不同类型,可用作各种类型的结构比较的替代选择。 ECFP和FCFP类别是很多研究,特别是对于贝叶斯模型建设。这些指纹的施工方法是经验良好的,并且当用于不同类型的相似性比较时,提供了良好的平衡,提供良好的平衡,并成为药物发现的流行选择。

多个软件供应商实施自己的样式循环描述符,但存在问题:原版本发明基于文献中发布的算法,但不幸的是,字面上兼容我留下了重要的细节,以确保无法实现任何其他版本。如果您正在使用单个供应商使用软件的所有建模,但如果要混合和匹配,则输入分子是相同的,即使它们遵循相同的基本配方,指纹也是如此由一个包生成不能与另一个包生成的指纹进行比较:数字将是完全不同的。

由于CDK项目之前没有自己的实施,我们填满了这个特定的洞。任何在Java运行时环境中使用软件的人都可以访问任何未经支付金钱和访问的人,而无需询问权限。我们已经努力确认这些指纹通过各种验证测试,并以与其他实施相当的富集率进行。但是,也许更重要的是,这种算法非常有意地以相对简单的方式构建来用文字解释,并且基于非常自融的代码。定义如隐式氢,芳族,环形块和手性是最小化的并且是很好的定义并确保不会改变。这意味着如果生成一个结构的指纹列表,则可以将其保存在数据库中并永远使用。此外,由于实现不依赖于平台,因此可以在不同的开发环境中翻译一个源文件。实际上,您可以使用CDK实现来生成示例结果并验证移植版本是否以相同的方式工作。如上所述,这已经完成了,TB移动应用程序它用于

在不久的将来,该算法计划明确地将该算法记录到科学文献中,以补充自由可用的源代码,但有必要等到那之前。在此之前,如果有勇气,它位于CDK源的指纹层次结构下circularfingerprint.java.寻找一个名为的文件。

这也是我第一次积极在基于CDK代码的情况下工作。项目就像一个大型的大修,所以看看将从另一端出来的东西也很有趣。除了关键的新类指纹之外!