Bioassay Express(BAE),制作非结构化协议数据的新工具结构化:用于测定信息学的用例

2017年8月1日

1.介绍

药物发现生物测定协议被记录在各种各样的科学英语风格中,描述了这些实验的生物学意义。因此,传统上,该信息不能通过计算和“大数据”技术直接直接利用以提取其固有值。这 生物测定表达(BAE) 平台提供两个主要的工具集来解决这一挑战 - 专利的半自动标记工具和新型分析&可视化工具。

以下是主要用例 专利的半自动标记工具新的分析& Visualization tools 具有以下特定益处:

2.1)测定与元数据的注释,

2.2)改善分析,

2.3)促进合作。

2. BAE使用面积

2.1。使用元数据进行分析注释:启用数据挖掘

目的

  • 编码标准,语义/计算机可读术语–元数据 - 基于您的测定协议描述
  • 标记,保护,并使您组织今天坐在的科学信息的财富
  • 为后续科学分析,协作,商业货币化活动做好准备。

好处

  • 对您的组织分析的计算机分析来解锁当前无法解除的数十年数据
  • 每个测定辅助一次 - 永久增益

时间值

  • 1-2季度项目

2.1.1。历史(‘Legacy’) Assay Migration & Curation

在Curlew Research的营销访谈中,大多数公司描述了他们对应用于其积压的生物测量的控制术语以及正在注册的新的或修饰的测定来描述他们的挑战。在某些情况下,他们的遗留测定图书馆超过了20,000个议定书。以下是由Curlew Research采访的前10名药店的高级Informaticians的一些报价:

  • “如果描述没有很好的描述,在生物测定世界中–公司知识可以消失“
  • “通过更好的测定注释,您可以自信地重用数据并避免重新测试”

CDD. has unique, patented BioAssay Express technologies and battle proven services (applied to 3500 “最好的Pubchem MLPCN测定作为强大的POC和独特的公开注释的数据资源)。接触 [电子邮件 protected]m for BAE quotes.

2.1.2。新测定注册

2017年初营销公司Curlew Research采访的十大大型制药公司确定了迫切需要升级其内部生物测定登记系统,包括编码控制术语,以利用元数据并从内部筛选活动中获得更多价值–但他们正在努力决定如何有效地完成这项任务。此处,这里是来自大型制药的顶级信息管理人员的直接引号(当然是匿名的),突出显示疼痛的严重程度,在没有生物测定的快递技术的帮助下标志着这些数据:

  • “让科学家们在没有威胁的情况下注册他们的测定,如果他们没有遵守“。
  • “如果我们要弄清楚我们正在运行的更复杂的测定,我们将需要更多元数据”
  • “一致的测定元数据会释放大量未开发的益处和价值“

2.1.3。将注释的分析转换为文本(计划为BAE 2.0)

我们的“BAE 2.0”的路线图,包括将模板从汇总信息扩展到详细步骤,还包括开发此“注释 - 文本”功能。目标是以标准化格式生成方法部分(例如,对于科学出版物,用于在线数据沉积的编码描述符或分析项目工作流程模式),通过将注释转回自然语言文本(英文),具有受控术语和适当的(可选)格式。

2.2。改善分析

好处

  • 提高人员提出小说问题,以前不可能执行查询
  • 改善 在Silico. 模型在SAR广告系列中保存时间和资源
  • 潜在的实验工件的标记命中(AKA频繁的Hitters')节省了时间和资源
  • 易于搜索和查找类似,测定避免了不必要的测定复制并促进重现性

2.2.1。让所有测定容易发现

简而言之,具有用语义术语注释的分析协议允许组织的所有成员从已经积累的庞大的机构知识中访问,使用和学习。

2.2.2。构建更好的SAR模型

一旦组织使用了BAE策择工具生产一组良好的注释测定,BAE分析和可视化工具就可以进行新的方式来分析结构 - 活动关系(SAR)。搜索测定涉及指定一组注释并开始搜索,该搜索检索在减少相似性顺序中排名的测定列表。

本体类似性搜索模式

一个人可以向细节深入,并将相关的测定视为X轴上的测定的网格(参见右侧的示例)和Y轴上的测定属性(注释项)。再次,几位报价高级科学家在大制药捕获带回家为什么这是关键:

  • “更好的决定是最明智的决策;您越了解该测定的信息越多,您的决定就越多“
  • “拥有更多关于测定的数据使您可以提出不同的问题”

2.2.3。频繁休息分析

最近的ACS编辑(Aldrich et al. 测定干涉化合物的狂喜和痛苦. ACS中央科学 2017. 3:143)突出源于实验伪影的初始筛选次数的高速率(80-100%)。它清楚地在一个组织中’识别这种伪像的兴趣(或‘frequent hitters’)尽可能早在药物发现过程中,以避免在这些死亡结束时支出有价值的资源。 Astrazeneca(Zander)出版的一项研究 等等。 使用生物测定本体分析高吞吐量筛选数据. j生物摩尔屏 2015. 20:402)证明通过分析用生物测定本体论(BAO)术语的测定来检测这种伪像的益处。

BAE分析工具可用于通过几种方法直接和快速识别频繁的击球剂。对于每个月延迟识别频繁击球手,不仅有重大资源浪费在此类伪影上,而且资源通常不会专注于具有最大潜力的化合物。保守估计潜在的储蓄影响是每月的每月省份的1个FTE月份。

2.2.4。减少重复并增强可重复性

我们有多次听到评论'除非我自己这样做,除非我自己做的,往往更容易重复一个比试图在我们的数据库中找到它。拜耳报告称,只有25%的公布的临床前研究可以验证,发表的调查结果和公司自己的结果不一致导致〜2/3项目中的延迟或取消(Prinz 等等。 相信它是否有:我们可以依赖于潜在药物目标的公布数据? 自然rev.药盘。 2011. 10:712)。 amgen报道,科学发现只能在53个地标研究中只有11%(Begley& Ellis, 药物开发:提高临床前癌症研究标准. 自然 2012. 483:531)。最近报告的复制努力(Elife 2017; 6:E23693由劳拉和约翰阿诺德基金会获得的2000万美元的授予资金,其中五种癌症生物学研究2被发现2,失败,两个是不可诠释的。临床前研究的不可持久性能普及。

改善再现性的好处包括:

  1. 标记密切相关的测定之间的差异
  2. 结果相关差异的结果差异
  3. 提高不同实验室进行的实验的再现性
  4. 识别分歧的根本原因

2.3。促进合作

好处

  • 只需将数据集结合在两个不同的机构(例如,与CRO或其他公司内部的内部内部&A)
  • 可以将公开注释的数据导入并与私人内容混合

2.3.1。外部比较

在将这些外部数据与内部生成数据集成和比较时,将更大的早期药物发现管道的趋势提出了新的挑战。作为来自前10名Pharma的高级Cheminomatician告诉市场研究公司Curlew Research,“我们现在最大的挑战之一是分析内部和外部之间的差距”.

BAE使研究人员能够在所有注释的测定中智能化和有效地搜索。

2.3.2。用于协同,公共/私人研究的测定信息学

早期药物发现周围的公私伙伴关系有所增加,特别是被忽视的疾病(例如,TB Alliance,用于疟疾的药物(MMV),CARB-X)。这些合作需要在站点,国家和学科之间分享数据和资源的最佳实践,以增强发现和减少重复。

CDD.’S核心产品,CDD Vault已被许多这些全球联盟使用,以管理他们的筛选数据,因此CDD是良好的,并积极鼓励这些群体,采用BAE采用测定注释。通过公共存储库,如Pubchem和Chembl也敏锐地兴趣使用CDD来扩大沉积的分析的语义注释,有明显的动力建设。早期的BAE采用者将受益于能够将这些公共或协作数据纳入他们的分析,但它们可能在这一新领域发挥主导作用‘assay informatics’.

2.3.3。并购(m&A)

任何Pharma M的一个知名挑战&a正在整合较小的公司’将数据分析到更大(或相等的)组织中’S数据管理系统。尽管要尽职努力建立了分析数据的价值和可靠性(因此证明了数百万美元的投资),但这些努力在隔离中评估这些数据,不要考虑到整合的可行性或物流。来自双方的科学家通常需要查找,阅读和评估测定协议,并痛苦地与信息学专家合作,以真正了解具有上下文的数据。

相比之下,如果Pharma公司使用BAE进行内部测定,则它们已经建立了一个明确的过程,用于捕获临界测定元数据。合并/收购后,他们可以立即使用BAE分配注释,进口化合物,读数和注释。对于遗留测定,CDD可以通过提供1次策策服务来帮助加速这一过程。

使用BAE帮助整合所获取的数据资产不仅可以保存组织时间(任务可以在几天内完成而不是几个月到几年),并增强现在可发现的药物发现资产的价值。


此博客由CDD Vault社区成员创作。 CDD Vault是一个托管的 药物发现信息学 安全地管理私人和外部生物和化学数据的平台。它提供核心功能,包括 化学注册, 结构活动关系, 化学库存, 和 电子实验室笔记本 capabilities.

CDD. Vault: Drug Discovery Informatics your whole project team will embrace