生物测定表达(有点展开)

2016年8月4日

CDD的BioAssay Express软件允许您将人类可读的生物大作曲转换为机器可读,标记为文本。该技术已在3000多个“Pubchem”MLPCN测定中进行了测试。可以在广泛共享的“探针”化合物周围看到新的见解和模式,以进一步验证方法的效用。通过共同的分析模板,我们试图对影响生物测定的最重要参数进行良好的主观呼叫,同时保持最少数量的类别。但是,值得强调的是,底层技术可以与任何模板,术语和本体(即你的人)一起使用。作为一个焦点,我们将这项新技术集中在生物测定上。与我们抛光的专业CDD金库平台相比,Bioassay Express仍然是一个相对较新的技术,但显然它确实有效。对于那些对合作或评估感兴趣的人,请发送电子邮件 [电子邮件 protected] 如果您想尝试使用自己的协议(防火墙后面,在Bioassay Express的Online,或与CDD Vault潜在集成)使用此技术。


由Alex Clark和Barry Bunin;从最初出现的帖子中取出 化学信息学2.0

是时候开始写作了 生物测定表达 项目,因为它在开放的技术上已经开发出来。这是在过去半年左右占据了大部分亚历克斯的时间,并且它有可能对药物发现过程做出重要贡献。

第一个背景。 2014年, 合作药物发现 开发了一种使用自然语言处理和机器学习的方法来指导人类策展人快速,并使用语义术语从中快速正确注释他们的文本测定 生物测定本体论。概念证明工作得很好,我们 发表了结果。当我们计划达到真正的实际服务的水平时,我们很快意识到最麻烦的速率限制步骤是弄明白的 如何 将可用的语义术语应用于测定(即创建良好的培训数据):这不是一个琐碎的问题,没有人曾经搞过,所以我们花了很多时间设计一个模式,以指定如何使用可用的专门术语来描述的模式来描述我们专注于的生物测定协议。你可以参考文献 详细账户.

通过这些初步算法,数据结构和词汇表,我们已准备好开始下一步:选择大量的生物测定协议,方便可用。此类数据的开始位置当然是 Pubchem.,它提供超过一百万的测定协议。虽然大多数这些都是有限的用于我们的目的,但是选择从分子库计划中的测定是相对简单的,这几乎都是非常详细的,并且具有很多细节。有成千上万的是,这使得一个受人尊敬的训练集。

随着分析自己编译,我们的下一个任务是创建一个Web界面,以便我们可以尽可能多地策划这些测定的语义注释,以及所有的炼制我们的模式 如何 and 什么 注释。当前界面看起来像这样:

生物测定表达

 

在过去的审美设计看起来更糟,并将在未来看起来更好,但基本的想法通过:在左边是文本,这已经从 Pubchem.,它由原始科学家提交的。在右边是一些类别(来自我们的源自 常见的测定模板),大多数有至少一个指定的术语。虽然上面显示的屏幕截图显示为短文本标签,但它们内部表示为URI,并且每个链接到明确定义的本体中,具有自己的层次结构和语义含义层(根据链​​接数据的一般原则)。

使用该项时更容易查看术语  view dialog:

生物测定表达

上面的屏幕截图有很多很多,但关键信息是所有术语都在层次结构中表示,并且每个标签都具有比仅文本更多的信息更多。

一旦我们进行了初步的注释界面,我们的下一个任务就是组装生物学家团队,分享他们的专业知识 使用 注释系统,其提供了多种用途:生成有价值的培训数据,迭代地改善架构,以及测试软件。快进到现在,我们积累了接近三千的专家策疗测定(你可以看看 当前数字 anytime).

我们在我们的文献出版物中详细讨论了我们将这么多努力投入代表具有语义术语的生物测定协议的原因,但长话短说是表示分析的最佳实践是用纯文本记录它们,所以最好的案例方案是您将能够访问半页左右的摘要说明。如果您想比较两个测定,并且您是该领域的专家,并且您有10-15分钟仔细阅读它们,您不需要我们正在努力的项目中的任何帮助。但如果你想比较 许多 测定,或者如果您想使用精确的术语搜索数据库,您的选择是不令人满意的:搜索通常是通过关键字搜索完成的,并且任何更高级别的分析都是通过直接计算机学习从文本中学习完成的。但是,使用适当的语义注释,您可以搜索 确切地 你想要的,零误报,零误报。

为了证明这一点,我们有一个初步的 搜索页面:

生物测定表达

此作品的方式基本上使用所有提供的语义术语(使用与注释页面非常相似的接口)为 指纹,以与比较两个分子(例如,使用结构衍生的指纹来计算Tanimoto相似度指标)的方式。这允许任何人从数据库中拔出测定列表,按最相似的 - 首先排序。

这只是一个演示如何使用注释来定位/选择测定,而不是粗鲁的方法(如关键字搜索),但我们正在研究各种其他技术,以允许人们通过测定和磨练的数据库捕猎在他们想要的那些(如果这听起来很有趣,请点击 探索分析 page).

该项目正在迅速发展,主要用户现在只是我们的生物学家团队,他们正在推动它(并且比其更远)推动它。我们在一开始的选择之一是在开放中操作项目。这部分原理(我们非常合作),也是便利:我们是一个地理上分布的团队,以及将软件部署到大陆另一面的人的最简单方法是将它倾销在公众上网站没有安全。这就是你会发现的 http://www.bioassayexpress.com:目前该网站是完全只读的,这意味着您不必登录,您也无法打破任何东西。如果您想尝试一下,完全可以使用自己的测定和下载注释结果。

除了网站本身的开放性,我们对我们正在生成的策划数据非常非专利。我们利用了这一点 Pubchem. 服务开始,我们正在添加的所有价值都可以使用任何想要它的人(有一个公共API:它是名义上不言自我解释的,对任何真正的Übergeek)。项目源代码的一部分基于我们为生物带来模板创建的开源项目(参见 GitHub.)但是,驱动网站本身的主要项目是专有的。这是一个营业的营业,以及许多研发项目正在进行中 合作药物发现,有一种二元主义,低级工具是免费的,对每个人开放,而高级工具,将所有东西带到最大的便利性费用。

 


이블로그는cdd金库커뮤니티의구성원이작성합니다。 CDD Vault는는개인및외부생물학적및화학화학화학관리를모두안전하게하게하는하는하는하는 된약물발견정보학 플랫폼입니다。 화학등록, 구조활동관계, 화학물질재고, 전자랩노트북 기능 등 핵심 기능을 제공합니다!

CDD금고:약물발견정보학전체프로젝트이포용합니다!