Bioassay Express:寻找散文(和他们做事)

2016年10月4日

CDD Bioassay Express软件允许您通过机器可读的文本中的人类可以清晰可清晰地转换生物测定。该技术已在超过3500 mLPCN试验“最佳的Pubchem”中进行了测试。您可以遵守广泛共享的“探针”化合物周围的新想法和模式,以进一步验证方法的效用。通过共同的试用模板,我们已经尝试了有关影响生物测定的最重要参数的良好主观呼叫,维持最少数量的类别。但是,应该指出的是,底层技术可以与任何模板,术语和本体(例如,您的)一起使用。我们决定将这种新技术集中在生物测定中。与我们抛光和专业的CDD金库平台相比,Bioassay Express仍然是一个相对较新的技术,但它显然有效。请发送电子邮件至弗兰克科尔([电子邮件 protected])如果要使用自己的协议测试此技术(在防火墙后面,在Bioassay Express中的在线,或与CDD Vault潜在集成)使用此技术。


由Alex Clark和Barry Bunin;从最初出现的帖子中取出 化学信息学2.0

Bioassay Express:寻找散文(和他们做事)

该项目 生物测定表达。 它以一个好的步伐推出:已添加或改进了几个重要的功能以找到试验并检查它们,以便执行一些复杂的分析和构建模型。这是我们拥有的事实的动机 固化韧皮。 在试验之前(〜3,500),这是一个足够的原因,开始真正努力了解我们所能的东西 真的是这些专业高质量的注释数据。

作为那些没有遵循历史发展的人的简要概括,生物测定项目的一般思想 表示 正是如果幸运的话,使用平面文本描述用于评估小分子的生物测定方案;并以数字化文档格式,如果您有更多运气。这并不有多大的帮助机器的算法,以及那个 生物测定本体论 (BAO),促进了使用语义网络术语,使这些实验与开放式数据的世界兼容。这种词汇的潜力的实现一直很慢,所以我们已经发明了一个方案数据的结构,以将我们的“语法”作为附加层(使用我们的 常见的测试模板 最初,与其他人遵循)。这已经实施和部署,并以批注页面开始,旨在最多地选择相关的语义注释 快速简单 posible.

为了改进和调试注释过程,我们已从存储在中存储的生物测定协议的集合中提取了子集 Pubchem. ,我们已经达到了几千人,以及我们能够获得可用的信息,可用本体的状态以及我们对如何使用它们的理解。虽然我们仍然有一些质量控制这些试验(可以方便地消耗),但我们已经把我们放在一个良好的位置:我们拥有一系列读写机器的注释,远远超出任何关于散文的信息。所以下一步是利用每篇文章的事实 Pubchem. 它还与化合物和测量有关(例如 它已被描述在上面)。通过配对结构,活动和测试协议的活动和细节,我们可以开始询问一些非常有趣的问题。

提出有关数据问题的最佳方法是将易于使用的查询混合,以有效的方式来查看结果,这最近是优先级。目前,基于您想要找到的内容的广泛概念,有两种主要形式的试验: 搜索 并探索这页纸 搜索 它提供了一种寻找类似于给定限制的试验的方法,并且可以类似地用于搜索分子结构的相似性。这页纸 探索 另一方面,它更具交互式,并且允许用户定义一系列层,每个层减少了数据库,以交互方式显示结果。

在以下示例中,为分配类别定义了单个标准 目标 ,其中包括与层次结构下的任何嵌套术语注释的所有试验 GPCR。 :

 bae_find01。

 bae_find02。

随着术语激活或取消激活,符合要求的测试列表是更新的:

 bae_find03。

此功能已有一段时间,但最近已经进行了一对修改。其中一个是额外的列,显示了许多化合物与每个测试有关,这是一个相当重要的细节,因为源的含量倾向于包括大量高性能的主要试验,以及许多二次试验各种类型的产量低得多。这些通常适用于非常不同类型的研究,并且使用该接口通常可以使用适当的注释字段进行过滤(测试活动的阶段),但单击左侧的复选框也可以明确地选择它们。

以下限定测试列表是更特别是新的显示功能:属性网格:

 bae_find04。

您可能必须单击图像并展开一点,因为网格中有很多信息。

本屏幕的目的是展示 什么 它真的被选中在结果集中。您的文本第一行的试验列表描述非常好,但对于许多目的,必须获得概述 术语 存储在每个结果中的真实。因此,该网格显示了列形式的测定结果,并且由于行使用所有术语的层次结构(仅限于至少一个结果中出现的那些,因此它会太大)。如果使用该术语,每个单元都具有全蓝色方形方形 明确 或者如果这个术语是那个那个祖先的狭窄矩形。

如果您认为每个术语作为离散肯定,那么此视图本质上显示了指纹 文章。 对于每个结果。关于指纹等术语的想法非常类似于基于结构的指纹,这是允许许多功能(搜索,分组,贝叶斯模型的搜索,分组,只有几个问题的核心概念。我们已经证明了类似于指纹的注释(功能 搜索 ),我们正在研究使用此内容作为条目构建模型的方法。例如,通过混合测试迹线和结构来创建贝叶斯模型以预测活动,以及寻求预测/反向的寻求模式;或释放最后的技术 深度学习 试图最大限度地提高这些模型的准确性。

为了促进一些更初步的探索,还有一个额外的交换机,其目的不是完全明显的, 询问 :

 bae_find05。

激活此项时,将显示用于选择试用列表的术语(作为咨询本身的术语或识别号列表以实现相同效果的术语,以反映哪个试验已被证明)。这目前与API(未记录的时间)组合,允许远程从数据库中删除测试和化合物,以可以输入异国情调的建模工具的格式。

通过按下按钮,还可以看到与所选测试相关的实际化合物 显示化合物:

 bae_find06。

此工作流程已描述 最近贴文 :它是一种有效的方法来查找和加入SAR数据进行兴趣测试,便于将集作为SD文件放电以供以后使用。

最终结果是导航的工具,选择和获取我们委托的测试中的数据+分子和沉积的活动的测量正在形成,并且变得非常强大。我们正在积极使用它们,为我们自己的探索,实验和合作,但也适用于有兴趣利用工具和数据的人。要了解更多,请随时与弗兰克科尔联系,探索未来的可能性 ([电子邮件 protected] )。