聚焦托马斯桑德博士从Idorsia Pharmaceuticals采访

2018年7月24日

Thomas Sander在Idorsia Pharmaceuticals Ltd.的药物发现信息部门领导,并领导了DataWarrior和OpenMoleCule平台后面的团队。

托马斯桑德博士Idorsia Pharmaceuticals

DataWarrior.. * 创建了OpenMoleCule.org套件,为合成和药用化学家提供了化学信息工具的功利级平台。 Sander博士善意同意在瑞士巴塞尔的Idorsia总部给我们这次采访。

向CDD提出问题是Neil Chapman和Mariana Vaschetto。

1.托马斯在我们开始谈论DataWarrior之前告诉我一些关于你迄今为止的职业生涯。

通过教育,我是有机化学家。在我在学校的第七年期间,我们开始拥有化学课,很快我已经下定决心学习化学。四年后,仍在学校,我有机会进入当地大学’S Tectronix图形计算机。我非常感兴趣的计算机世界,并开始学习一些编程。我很快我拥有自己的简单8位电脑,这些刚刚开始对像我这样的人来说。两年后,我开始在马尔堡学习化学,并且在未来几年中,我从未对计算机编程失去兴趣。后来,当我在有机化学文凭上努力,一个朋友和我创立了一家国际象棋数据库软件公司。在未来三年内,我的注意力分为化学和软件开发。在为有机化学完成我的博士学论文后,我想结合软件工程和化学。我离开了公司,并在美国沃尔瑟姆的Brandeis University的J.B.Hendrickson教授与美国沃尔瑟姆大学的教授一起度过了一年。我开发了一个快速和交互式的反应搜索系统。然后,在1993年,我加入了一个小型团队,在巴塞尔罗氏开发了药物发现的软件。五年后,我离开罗氏并加入了最近创立的初创公司,以建立药物发现信息环境。当约翰逊接管了actelion时&约翰逊,在2017年,actelion’前药物发现部门以及一些临床开发和服务人员分开作为新的,合理的资金,公司:Imorsia Pharmaceuticals。

2.您在Idorsia Pharmaceuticals中的角色是什么?

目前,我领导着‘Scientific Computing’药物发现中的小组,开发算法和软件,以利用与药物发现相关的内部和外部数据的财富。

3. Idorsia Pharmaceuticals是一家相对较新的公司,基本上从2017年上半年与契约药物分裂。告诉我一些关于这个问题的事情,如果它在您的小组内更改了软件开发。

在actelion,我们一直是12人的团队,其中9人正在积极开发科学软件,这些软件涵盖了大多数药物发现过程。粗略地,该软件落入了多个类别,设备管理,生物样品管理,复合管理,化学和生物数据采集,电子笔记本,分析,高通量筛选,自动图像分析,化学和生物信息学,数据可视化等等,我们也维护了驾驶软件景观的大多数数据库和应用程序服务器。在去合并的身体之后 ’S药物发现部门继续在施用之前运作。但是,对于我们的团队有一个轻微的变化:为了释放我们的一些资源,专注于更科学的方面,我们致力于对全球IT部门的同事进行日常申请开发和维护的责任。这涉及我们的一半生产性系统。

你能告诉我关于DataWarrior的背景吗?为什么它开发了,它是如何发展的?

当行为仍然是一家年轻的公司时,在2002年开始,数据争吵者的故事。我们建立了一个甲骨文的药物发现数据库,其中包含了实验内部数据,包括化学结构,批量信息,研究项目,生物测定和结果。我们还安装了夜间运行的流程,将所有科学项目提取所有相关化学结构和生物学结果进入项目特定的Chemfinder数据库。这些允许的项目成员将结构特征与分析结果相关联。但是,我们错过了适当的数据可视化功能与化学信息学算法相结合。为了提供此类功能,我们首先将Spotfire视为潜在的解决方案。然而,当时的禁止定价,它对窗口的限制以及将其与化学信息学功能扩展的技术困难最终将我们推向了不同的方法。我们决定在Java编程语言中开发自己的解决方案。在四周内,我们有一个带有缩放,笛卡尔2D和3D视图的原型,结构网格视图和字母表单元上的行滤波器以及化学结构。这可以如此迅速地完成,因为我们已经在Java中开发了一个化学信息学工具包,其提供子结构和基于描述符的类似性搜索。 3D-View是在JMOL 3D-Graphics引擎上构建的。

5. DataWarrior可免费下载。什么推动了没有成本提供的决定?

DataWarrior.. is closely connected to the underlying cheminformatics toolkit, which we earlier had released as the open-source project ‘OpenChemLib’。这种释放受到短期和长期原因的动机。我们与我们工具包的大学进行了各种合作’S源代码提供了化学信息学基础,开源平台通常是学术伙伴的前提。一个例子是所有维基百科分子上的化学结构搜索,涉及彼得ERTL(诺华),Luc Patiny(EPFL)和我们自己的关节活动。

我认为更重要的长期目标。在过去的二十年中,建立了几十几个开源化学信息平台,并从不断发展的社区的支持下获得了势头。在某些开放平台将在我们的专有平台上分离任何行为内部开发活动,这只是时间问题。然后,我们将被迫更换我们的过时的发动机。有效地,这意味着更换基于原始平台上的任何化学软件。为了防止这样的场景,我们唯一的希望可以使用我们的工具包建立多种标准之一,并将外部人员进入船只。由于我们已经迟到了,当我们发布OpenChemlib时,我们需要一种宣传它的方法。我们认为DataWarrior是我们广告其底层化学信息工具包的最佳选择。

还有另一个答案。我们是一家制药公司而不是软件公司。它只是我们的业务,提供专业支持并运行软件销售队伍。另外,是个人的一部分’科学药物发现社区,我们被要求发表并提高公司的声誉。对于软件工程师发布意味着发布源代码。 Idorsia在内部建立了许多科学应用,以便出版开源项目获得此消息,并有助于吸引顶级科学软件工程师。

6. DataWarrior是一个非常流行的程序,它能够与多个数据库接口,包括CDD Vault。告诉我一些关于接口的界面。

DataWarrior.. ’通过各个服务器引擎的纯HTTP访问来解决对ChemBL数据库和晶体造影开放数据库(COD)的访问。包括子结构和相似性查询的所有查询选项都被编码为文本字符串并发送到服务器。这两个服务器都是基于纯Java基于Java的HTTP服务器,内置于SimpleFramework之上,它提供了一个多线程通信引擎作为瘦jar文件。两个服务器都将其整个数据库保留在内存中,并处理分发到服务器硬件的所有内核的任何结构搜索请求。当返回化学结构时,它们被编码为OpenChemlib ID代码,最大限度地减少网络流量。检索维基百科化合物更简单。每天一次,服务器会生成Wikipedia已知的所有化学结构的完整新列表。 DataWarrior然后将整个列表下载为ID代码。用于访问ChemBl,Cod和Wikipedia的源代码是数据争吵源代码的一部分,此功能是公共数据载体安装的一部分。
CDD保险库访问 以不同的方式完成。为了简化用于访问任何字母数字或结构数据库的其他模块的开发,数据址臂具有插件界面。独立于DataWarrior源代码此界面允许开发打开一个对话框以定义字母数字和结构查询条件的插件。然后可以将它们发送到某种数据库,然后可以将返回的结果进行处理以填充新的数据载体表。构成插件的所有Java代码都被编译为独立的JAR文件并放入数据载体安装的插件文件夹中。当DataWarrior启动时,它会检查此文件夹中的文件,并为每个插件显示一个菜单项。当用户选择该项目时,DataWarrior将控件放在插件中,直到它创建并填充新的DataWarrior窗口。 CDD Vault插件使用此机制来检索和显示CDD查询的结果。 CDD Vault插件是GitHub上的开源项目,由CDD员工维护。

7.数据战士的现状是什么,有计划进一步加强它吗?

当然。我完全致力于扩展数据竞争功能以满足即将到来的需求。一些想法包括访问商业化学品数据库,Bioisostere替换功能,具有力现场最小化和综合性可行性的考虑,更好的反应支持,更灵活的分支和变量的宏观支持。不幸的是,我们的资源非常有限,所以我们需要妥协。在过去,我经常不得不推迟更大的想法,以实施小问题或简化现有功能。

8.您是否有计划开发额外的外部软件程序?

事实上,我们维护了另外两个开源软件项目,“Orbit Image Analysis” and “Spirit Biobank”。此外,我们考虑在下一代测序领域发布新项目。

9.您的软件可以询问有趣的科学问题的类型是什么?他们提供了什么历史洞察力?软件可以将来适用于哪些新类型的问题?

我认为这个问题是指我们的内部内置的药物发现软件。要诚实,我相信对药物发现过程的最大影响是制作许多简单和一些更复杂的工具,只需顺利工作流程。例如,一个小型工具,用于保留NMR上的时隙,一种化学品库存,可自动在SAP系统中置于SAP系统中的订单,化学笔记本具有嵌入式NMR观察者的化学笔记本和与化学品库存的无缝连接。软件平台的价值不仅取决于哪些功能可用,而且还依赖于使用这些功能的容易以及它们集成的程度。例如,在浏览生物学测定结果时,结果相关 IC50 鼠标右键应提供曲线或HCS图像或相同实验中的所有化合物。 DataWarrior.’S宏功能也被证明非常有用,IT专家用户可以定义复杂的工作流,在更新的数据中可以反复运行的复杂工作流程。

但是你要求我们软件更令人兴奋的科学特征,可能是大数据和机器学习领域的特色。例如,我们运行一个在内存中大约一亿个化合物的服务器,可以在几秒钟内进行子结构或相似性。我们还将其用于使用Pharmacophore搜索的虚拟筛选。我们在PubMed摘要进行自然语言处理,以了解基因疾病关系。我们进一步将基因与据报道的化合物相关联,这些化合物在各个靶标中有活性。我们还使用高级映像平台来处理,导航,分类和处理图像内容。我们使用计算网格来查找药物搜索,图像处理和配体 - 蛋白对接。对于未来,我们只是在定义优先事项的过程中。对综合规划有浓厚的兴趣,Bioisostere替代,并且可能在增强现实中,以支持配体和目标结构周围的讨论。

10. CheminFormatics中有哪些出色的技术挑战,如果解决的问题会对药物发现产生最大影响?

如果一个可靠地可以预测直接从其化学结构的生物活性,毒性和药理性质,当然,这将彻底改变药物发现过程。然而,尽管对机器学习具有巨大的炒作,但我个人不’相信我们将看到这一领域的快速进步。我们不’T具有很大的培训数据,化学结构不是这些方法的适当输入格式,我们仍然有限地了解所涉及的生化过程。

对我来说,逾期挑战是改善分子建模的潜在概念。 30年内,基于分子力学的力领域的力域并没有发生多大变化,而计算性能大约升高一百万。 Adrian Roitberg或Anatole Von Lilienfeld的最新文件似乎表明应该使用机器学习技术来计算分子水平的分子能量和力。这些方法承诺达到与量子机械方法相当的准确性,但它们几乎与常规力场一样快。如果我们可以解决水的影响,我们将进一步前进。

*DataWarrior.. is a free cheminformatics program for data visualization and analysis. It combines dynamic graphical views and interactive row filtering with chemical intelligence. Scatter plots, box plots, bar charts and pie charts are used to visualize numerical and categorical data, and demonstrate trends across multiple scaffolds and compound substitution patterns.

DataWarrior.. is currently used in over one hundred countries with a user base that is growing by approximately one thousand users per month

有关更多细节或下载DataWarrior Go www.openmolecules.org..

请拜访 我们的博客文章 对于数据载体和CDD Vault集成。


此博客由CDD Vault社区成员创作。 CDD Vault是一个托管的 药物发现信息学 安全地管理私人和外部生物和化学数据的平台。它提供核心功能,包括 化学注册, 结构活动关系, 化学库存, 和 电子实验室笔记本 capabilities.

CDD保险库:药物发现信息学您的整个项目团队将拥抱!