现代化学数据库的起源

2017年5月23日

  - 从奈杰尔R. A. Beeley,Ph.D.,CDD倡导者的桌面 -

今天的化学数据库与几个历史线条有密不可分的连接,并非所有这些都是化学的,在现代计算世界存在之前很长一段时间。了解这些起源提供了对现代化学数据库的更深入了解,并在这里给我们带来的路径产生了透视。

化学数据库起源化学结构

图书馆线程于1876年开始,独立于任何化学特定因素,杜威十进制分类,随着卡索引(1)的使用以及毫无疑问地考虑了如何最好地组织和编目数据。它在剩余的图书馆设施中幸存下来,仍有书籍和论文。该科学全部位于500分组(540:化学,570:生物学)(2)。此时,化学家已经发布了包含有关大量分子的信息的论文和策划和管理该信息发生的重要性。 Beilstein的Handbuch der Organischen Chemie(3)在1881年开始生命,在1970年代后期成为计算,今天是一个称为Reaxys的完全搜索包。化学摘要服务(CAS)于1907年开始(4),在1970年代也成为计算,今天包括两个完全可搜索的包,SCIFINDER和STN。 Derwent World Patents指数(DWPI)于1963年开始为Farmdoc开始生活,恰逢全球制药研究的扩张,当时唯一考虑如何处理经常出现的结构的唯一思考的组织在化学专利文献中,所谓的“Markush”化学结构,以可搜索的方式。美国专利1506316是第一次发布的专利,包括相关化学结构的属性,随后在本专利的发明者之后命名为“Markush”结构,尤金是Markush(6)。 DWPI的历史表明了对手动抽象和记录保存的遗产兼容的重要性,因为这些组织从造纸世界转移到计算世界。因此,在1987年,他们的原始抽象方法必须与“Markush TopFrag”软件互补,以自动将用户绘制的变量结构转换为正确的化学代码搜索策略(7)。为了更好地利用关系数据库的开发,Derwent于1988年推出了完全搜索的DWPIM,但不包括任何历史数据。因此,两种数据库共存,直到2005年作为主动专利文件的来源,基于时间(8)的最低专利寿命。 CAS还在1988年(9)中介绍了名为Marpat的Markush结构的自己的计算数据库。还应该指出,跟踪数据并在计算时代之前与文献保持持续艰巨的任务,涉及CAS,Beilstein,数百名发布的期刊和手工填充卡索引,科学家花费并不罕见在图书馆比实际做实验更多的时间,甚至没有包括支持支持的专业图书馆搜索人员的军队,专利专利和命名专家等。

我们如此熟悉的骨骼化学式螺纹开始与kekulé(10)开始,他对苯结构的理论描绘,其次是威尔赫姆·瓦夫曼引入分子模型,尽管是结构(11)的2D表示。然后Van't Hoff和Le Bel(12)独立建议的有机分子表示可以是三维的。分子模型开始呈现其现代外观,并且将有机分子描绘为纸上的“鸡丝”,可以绘制的纸上的“鸡丝”开始。今天,Iapac有规则和公约,用于绘制化学结构(13)。

Sylvia ernst.

年轻和热情的同事(现在,Sylvia Ernst,现在使用CDD,位于中心),手动巩固贝尔斯坦的预计时代的化学反应数据(Sylvia Ernst的照片提供)。

化学结构的计算机表示是重要的螺纹。鉴于传统纸质数据库组织的不同背景和目标,以及他们的佩尼昂的做自己的事情(CAS和Iupac仍然使用不同的命名惯例到这一天)(14)化学结构的计算描述方法存在差异。晶体描记者是第一个参与的。结晶学的理论原理已在1800年代后的(15)中描述,但不能降低实践直到合适波长的电磁辐射源,以X射线的形式变得可用。 1913年,威廉·劳伦斯布拉格(25岁的物理学中最年轻的诺贝尔劳特(25岁)通过使用X射线晶体学(16)求解氯化钠和金刚石的结构来介绍现代时代的晶体学时代。晶体坐标和源自X射线晶体实验的相关笛卡尔坐标成为重要的数据集,在三维空间中代表了化学结构。蛋白质晶体计数器在此扩张。晶体结构在阴极射线管(17)上显示蛋白质结构的第一次尝试,1969年(18)的蛋白质数据库的第一次迭代和1970年代早期的ORTEP绘图仪均使用过笛卡尔坐标。分子力学专家加入了使用IBM打孔卡开始对输入和输出的分子进行理论计算的晶体计量器组,其中笛卡尔坐标(20)。笛卡尔坐标还具有以下优点,即在图表理论中埋藏的标准数学解决方案,允许将一组坐标与另一组(21)进行比较。因此,当MDL在70年代后期爆发现场时,他们的标准Molfile看起来像一组二维笛卡尔坐标,其中一个连接表和其他简要说明,如在内部包含的原子类型和连接。今天,这已经进化为仍然广泛使用的SD文件格式,以获得化合物的集合和库(22)。

但一切都不好。这些笛卡尔坐标的这些文件不容易搜索,而不是缩放到数百万化合物,而且,此外,不容易适应甲骨文等关系数据库技术,这些技术在通用可搜索数据库中迅速成为金标准。在20世纪80年代在药物研发中召回的美国人员将记住,MDL的MACCS系统在处理除化学结构之外的任何类型的数据时,请记住。因此,新的表现形式的新表现形式的到达,或者在线/字符串符号符号线的形式复兴。这些开始于1949年的Wisswesser线(WLN)(23)。它是ICI Ltd的弩数据库系统的基础,在20世纪60年代后期(24),也是用于开发CAOCI(商业上可获得的有机化学品中间体)数据库的工具,BIOVIAS'ACD文件开发的数据文件(25) 。 WLN仍被Bark信息服务广泛使用。它起源于研究人员没有意识到“用户友好”一词,这对化学家并不直观。 1988年(26)中,大卫Wienener的化学家友好的微笑谱系中越来越多,大约同一时间,组合化学正在进行,实际合成和测试全套“MARKUSH”结构的前景变得真实(27)。微笑中的变体在后来出现并包括智能智慧(28),三零公司的SLN(29),以及贝尔斯坦的ROSDAL(30)。甚至Iupac于2006年与英寸(31)进入了比赛。开放笑容成立于2007年,也许是对inchi(32)的回应。

所有这些行/字符串符号都提供了与其他数据来源集成化学数据库的工具,但实际上并没有完成作业。最终线程是引入Oracle盒式盒(33),它为生成结构化查询语言(SQL)提供了很多所需的界面,以询问以线路符号格式和其他字母数字数据(如测试结果)询问的化学结构,并且它是可允许的对写作合适的“墨盒”软件的人。同样重要的是要注意,各种线路符号提供了简单的方法来执行子结构和相似性(Tanimoto系数)搜索(34)以及为诸如可旋转键的数量(脂蛋白基的规则重要的方法)以及5 )(35)。

这是一个持续的过程,即使在今天,也是相当大的进展。有用数据库的现代架构是一系列计算层。在顶部是一个图形用户界面,通常是基于Web的,这允许输入用于搜索查询的化学结构和子结构,以及具有布尔逻辑的一些元素的传统文本和数字查询。然后,存在一层软件,它将结构和文本查询转换为适用于关系数据库询问的内容,通常以构造的查询语言(SQL)的形式,用于Oracle或MySQL。然后以关系方式查询数据库,返回答案由软件的中间层再次处理,又提供给科学家的化学结构和文本答案,所有部分都在一秒钟的一小部分中。

虽然历史追踪化学数据库的起源是令人着迷的,但是有关如何工作的细节,练习药物研发科学家今天需要很少需要知道这一点,并且可以专注于询问数据库问题并使用软件和数据库瞬间返回回答CDD Vault(36)等管理服务,而不是在纸质文件和图书馆中埋藏的花费,正如前几代的研究人员一样。对生产力的影响真正令人惊叹。综合途径的研究,合成和测试的化合物数,结果和SARS分析,可专利性,数据策划,报告写作以及FDA文件的编制都可以在一小部分中进行,而且相比之下,支持人员越来越少。 “化学信息学”(37)之前的世界。

参考:

1)      //en.wikipedia.org/wiki/Dewey_Decimal_Classification
2)      //en.wikipedia.org/wiki/List_of_Dewey_Decimal_classes
3)      //en.m.wikipedia.org/wiki/Beilstein_database
4)      //www.cas.org/
//en.m.wikipedia.org/wiki/Chemical_Abstracts_Service
5)      //en.m.wikipedia.org/wiki/Derwent_World_Patents_Index
6)      //en.m.wikipedia.org/wiki/Markush_structure
US 1506316(1924)“吡唑龙 制造相同的染料和过程“。 Eugene一个Markush.
7)      http://www.stn-international.com/uploads/tx_ptgsarelatedfiles/piug1.pdf
完整的Markush结构搜索:使命不可能? (2001)
8)      http://www.stn-international.de/uploads/tx_ptgsarelatedfiles/DCR_and_DWPIM_seminar_20160519_01.pdf
在STN使用DCR和DWPIM寻找综合的DWP主义结构(2016)
9)      http://www.cas.org/content/markush
10)   //en.wikipedia.org/wiki/August_Kekul%C3%A9
11)   //en.wikipedia.org/wiki/August_Wilhelm_von_Hofmann#Molecular_models
12)   //en.wikipedia.org/wiki/Jacobus_Henricus_van_%27t_Hoff
//en.wikipedia.org/wiki/Joseph_Achille_Le_Bel
//en.wikipedia.org/wiki/Le_Bel%E2%80%93van%27t_Hoff_rule
13)Jonathan Brecher(2006)“立体化配置的图形表示 (IUPAC建议2006)“ 纯粹的应用。化学。, 78 (10): 1897–1970
14)   //en.wikipedia.org/wiki/IUPAC_nomenclature_of_organic_chemistry
化学摘要化学物质的命名与索引(2007)
15)   //en.wikipedia.org/wiki/X-ray_crystallography
16)   //en.wikipedia.org/wiki/William_Lawrence_Bragg
1)通常属性(1966)Eric Francoeur(2002)“Cyrus Levinthal,Kluge和互动分子图形的起源. 努力 26 (4) 127-1312002
18)   //en.wikipedia.org/wiki/Protein_Data_Bank#History
19)   //en.wikipedia.org/wiki/Molecular_graphics
20)   //en.wikipedia.org/wiki/Cartesian_coordinate_system
21)   //en.wikipedia.org/wiki/Graph_theory
22)   //en.wikipedia.org/wiki/Chemical_table_file#SDF
23)William J. Wiswesser(1982)。 “WLN如何在1949年开始,它如何在1999年“。 J.Chem。 INF。计算。 SCI。 22 (2): 88–93
24)   //en.wikipedia.org/wiki/Wiswesser_line_notation
25)   //en.wikipedia.org/wiki/Accelrys
26)   //en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system
Weininger D(1988)。 “微笑,化学语言和信息系统。 1.介绍方法和编码规则“。 化学信息与建模. 28 (1): 31–6.
27)   //en.wikipedia.org/wiki/Combinatorial_chemistry
28)   http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html
29)   //en.wikipedia.org/wiki/SYBYL_line_notation
30)   //books.google.com/books?id=ZV_yCAAAQBAJ&pg=PA179
31)   //en.wikipedia.org/wiki/International_Chemical_Identifier
32)   http://opensmiles.org/
33)   //en.wikipedia.org/wiki/SQL
//docs.oracle.com/cd/B19306_01/appdev.102/b14289/dciwhatis.htm
34)   //en.wikipedia.org/wiki/Jaccard_index
35)   //en.wikipedia.org/wiki/Lipinski’s_rule_of_five
36)   //www.selacapo.net
37)   //en.wikipedia.org/wiki/Cheminformatics
F K Brown(1998)。 “第35章。 Chemoinformatics:它是什么以及它如何影响药物发现“。 药物化学的年度报告 33:375-384

进一步阅读:
1)通过David Wild介绍化学信息学(2013)。可从亚马逊获得$ 9.95的Kindle电子书
//www.amazon.com/Introducing-Cheminformatics-David-Wild-ebook/dp/B00G5TS7B4/