现代化学数据库的起源

2017年5月23日

  - 来自Nigel表R. A. Beleley,Ph.D.,CDD Defender -

目前的化学数据库与几个历史线有关,并非所有的化学物质都是在现代计算世界存在之前开始的。了解这些起源使您能够更好地了解现代化学数据库,并提供在这里给我们带来的道路的视角。

化学数据库起源化学结构

图书馆的导电线程于1876年开始,无论任何特定的化学因素如何,杜威的十进制分类,随着卡索引(1)的使用,这肯定会使其他人以最好的方式进行组织和编目数据的最佳方式。在今天的图书馆仍然存活,仍然保留书籍和论文。该科学全部位于500群(540:化学,570:生物学)(2)中。当时,化学家与大量分子的信息公布,其中几个已经发生了保留和管理该信息的重要性。 Beilstein(3)的Handbuch der Constorchen Chemie于1881年开始发表,成为70年底的计算机程序,目前它是一个称为Reaxys的完整搜索包。化学摘要服务(CAS)于1907年创建(4),它也成为70年代的计算机系统,目前包括两个允许搜索,SCIFINDED和STN的包装。 Derwent World Patents指数(DWPI)于1963年(5)年开始作为Farmdoc之旅,恰逢全球制药研究的扩张,当时他是他唯一想到如何处理它们经常处理的结构类型的唯一组织以化学专利文献出现,所谓的化学结构“Markush”,以咨询方式。美国专利1506316是第一批颁发的专利,其中包括相关化学结构的性别,随后称为“MARKUSH”结构,以纪念本专利的发明人,以蒙茂(6)。 DWPI的历史说明了它与从这些组织从纸张世界到一个计算世界的摘要和手动记录的遗产兼容的重要性。因此,在1987年,其原始摘要方法必须与“Markush Topfrag”软件互补,以在化学代码(7)的正确搜索策略中自动转换用户绘制的可变结构。为了更好地利用关系数据库的进步,Derwent于1988年推出了DWPIM,可以进行完整的搜索,但这不包括任何历史数据。因此,这两个数据库将根据当时的17年专利的最低寿命为直到2005年作为积极专利文献的来源(8)。 CAS还在1988年(9)中介绍了称为Marpat的Markush结构的自己的计算数据库。还应该注意的是,数据追踪和在计算时代的文献的维护是一个艰苦的任务,涉及CAS,北士斯坦,数百名发布的杂志和手毛牌牌指数,而且它并不少见科学家在图书馆度过了更多的时间,而不是通过图书馆,专利专利和命名专家等专业搜索人员的军队,员工作为支持。

我们如此熟悉的骨骼化学式的螺纹开始于Kekulé(10)及其苯结构的理论代表,其次是Wilhelm Van Hoffman,其引入了分子模型,尽管作为结构的2D表示( 11)。之后,Van't Hoff和Le Bel(12)独立建议,有机分子的表示可能是三维的。分子模型开始采用其现代外观,以及有机分子的表示作为纸上的“鸡丝”,可以通过手工绘制起来。如今,IUPAC的规则和惯例绘制化学结构(13)。

 Sylvia ernst。

年轻人和热情的同事(现在在CDD上,在CDD,位于中心),手动保留了贝尔斯坦的预测时代的化学反应中的数据(Sylvia Ernst的照片提供)。

化学结构的计算机表示是重要的导电螺纹。鉴于传统组织的纸质数据库的起源和目标的多样性,以及他们对此的倾向(CAS和IUPAC继续使用不同的命名约定为今天)(14),计算方法存在差异化学结构的表示。晶体描记者是第一个参与的。在19世纪末(15)结束时描述了晶体学的理论原则,但在1913年威廉劳伦斯布拉格(最年轻的物理诺贝尔奖在历史上,通过X射线晶体学(16)通过分辨氯化钠和金刚石的结构来引入现代时代的晶体学时代。晶体的坐标和来自X射线晶体实验的相关笛卡尔坐标成为重要的数据集,其代表了三维空间中的化学结构。蛋白质晶体计数器扩大了这个想法。晶体的第一次尝试显示了阴极射线管(17)中的蛋白质结构,该蛋白质数据库于1969年(18)和70年代初期(19)的Ortep示踪剂,它们使用了笛卡尔坐标。分子机械师专家加入了使用穿孔IBM卡开始的晶体管科群体,以对分子进行理论计算,其中输入和输出是笛卡尔坐标(20)。笛卡尔坐标还具有以下优点,即在允许将一组坐标与另一组(21)比较的图表中掩埋的标准数学解决方案。因此,令人惊讶的是,当MDL在70年底闯入现场时,其标准致法类似于一组二维笛卡尔坐标,其中具有连接表和其他简要说明,例如原子的类型和其他简要说明连接是什么包含的?目前,这种格式已经进化为SD文件格式,仍然广泛使用,用于化合物的集合和文库(22)。

但并非一切都很好。这些笛卡尔坐标牌并不容易搜索,对数百万化合物并不可扩展,此外,它们并不容易适应甲骨文等关系数据库技术,这些技术在通用搜索数据的基础上迅速成为金标准。 。我们记得在80年代在制药部门工作的人我们记得糟糕的MDL MACCS系统如何处理没有化学结构的任何类型的数据。因此,新的陈述的到来,或者在线/链条形式的不那么新的复兴。这些开始于1949年(23)的Wisswesser Lines(WLN)的符号。它是在60年代末端开发的ICI LTD弩数据库系统的基础,也是用于开发CAOCI数据库(市售有机化学中间体)的工具,从中开始生物缺陷ACD制定了文件(25)。 WLN仍被Bark信息服务广泛使用。它起源于研究人员不知道这个词的时间"user friendly"它对化学家来说并不直观。微笑链,更容易用于化学物质,从1988年(26)到达David Wieninger的手中到达,或多或少同时作为组合化学开始和合成和测试成套结构的前景"Markush"它是真的(27)。微笑的变体稍后到达,包括Smarts(28),Tripos Inc.的SLN(29)和Rosdal de Beilstein(30)。即使是IUPAC也在2006年与英寸(31)进入了比赛。 2007年,创建了开放笑容,或许是响应inchi(32)。

所有这些行/链符号都提供了将化学数据库与其他数据源集成的工具,但没有真正完成工作。最后一个导线是引入Oracle盒(33),它提供了必要的接口来生成结构化查询语言(SQL),以询问以线路符号格式和其他字母数字数据所持的化学结构(如结果)考试,并借给他们写一个合适的“盒式”软件的人。同样重要的是要注意,各种线路符号提供了执行子结构和相似性搜索(Tanimoto系数)(34)的简单方法,以及分配关键参数的方法,例如旋转链路的数量(对于规则很重要) 5脂素)(35)。

这是一个持续的过程,即使在今天,也是相当大的进展。有用数据库的现代体系结构包括一系列计算机层。在顶部有一个图形用户界面,通常基于Web,这允许引入用于搜索查询的化学结构和子结构,以及与布尔逻辑的一些元素的传统数字和文本咨询。接下来,有软件层将结构和文本咨询转换为适合于关系数据库咨询的内容,通常以结构化查询语言(SQL)的形式,用于Oracle或MySQL。然后,数据库是推荐的,并且返回答案由中间软件的中间层再次处理,反过来,提供给科学家所示的化学结构和文本响应,所有部分都在一小部分中。

虽然化学数据库的起源历史令人着迷,但有关其操作的细节,活动的研发科学家不需要了解这一点,并且可以专注于向数据基础向问题提出问题并立即得到答案,使用CDD Vault(36)等软件和数据库管理服务,而不是在纸质文件和库中埋藏的花费,例如前几代研究人员。对生产力的影响非常令人惊叹。对合成途径的研究,合成和测试化合物的数量,结果分析和SAR,可专利性,数据的保护,报告的起草和FDA文件的编制可以在一个中进行一段时间和在与世界之前相比的支持人员减少了更少的支持人员"quimioinformática" (37).

参考:

1)      //en.wikipedia.org/wiki/Dewey_Decimal_Classification
2)      //en.wikipedia.org/wiki/List_of_Dewey_Decimal_classes
3)      //en.m.wikipedia.org/wiki/Beilstein_database
4)      //www.cas.org/
//en.m.wikipedia.org/wiki/Chemical_Abstracts_Service
5)      //en.m.wikipedia.org/wiki/Derwent_World_Patents_Index
6)      //en.m.wikipedia.org/wiki/Markush_structure
US 1506316(1924)“ 吡唑酮。 制造相同的染料和过程 “。 尤金来标记
7)      http://www.stn-international.com/uploads/tx_ptgsarelatedfiles/piug1.pdf
完整的Markush结构搜索:使命不可能? (2001)
8)      http://www.stn-international.de/uploads/tx_ptgsarelatedfiles/DCR_and_DWPIM_seminar_20160519_01.pdf
在STN使用DCR和DWPIM寻找综合的DWP主义结构(2016)
9)      http://www.cas.org/content/markush
10)   //en.wikipedia.org/wiki/August_Kekul%C3%A9
11)   //en.wikipedia.org/wiki/August_Wilhelm_von_Hofmann#Molecular_models
12)   //en.wikipedia.org/wiki/Jacobus_Henricus_van_%27t_Hoff
//en.wikipedia.org/wiki/Joseph_Achille_Le_Bel
//en.wikipedia.org/wiki/Le_Bel%E2%80%93van%27t_Hoff_rule
13)Jonathan Brecher(2006)“立体化配置的图形表示 (IUPAC建议2006)“ 纯粹的应用。 化学。 , 78 (10): 1897–1970
14)   //en.wikipedia.org/wiki/IUPAC_nomenclature_of_organic_chemistry
化学摘要化学物质的命名与索引(2007)
15)   //en.wikipedia.org/wiki/X-ray_crystallography
16)   //en.wikipedia.org/wiki/William_Lawrence_Bragg
17)基因归因于Leventhal和Langridge(1966)Eric Francoeur(2002)“Cyrus Levinthal,Kluge和互动分子图形的起源. 努力。 26 (4) 127-1312002
18)   //en.wikipedia.org/wiki/Protein_Data_Bank#History
19)   //en.wikipedia.org/wiki/Molecular_graphics
20)   //en.wikipedia.org/wiki/Cartesian_coordinate_system
21)   //en.wikipedia.org/wiki/Graph_theory
22)   //en.wikipedia.org/wiki/Chemical_table_file#SDF
23)William J. Wiswesser(1982)。 “WLN如何在1949年开始,它如何在1999年“。 J. Chem。INF。计算。 SCI. 22 (2): 88–93
24)   //en.wikipedia.org/wiki/Wiswesser_line_notation
25)   //en.wikipedia.org/wiki/Accelrys
26)   //en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system
Weininger D(1988)。 “ 微笑,化学语言和信息系统。 1.介绍方法和编码规则“。 化学信息与建模. 28 (1): 31–6.
27)   //en.wikipedia.org/wiki/Combinatorial_chemistry
28)   http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html
29)   //en.wikipedia.org/wiki/SYBYL_line_notation
30)   //books.google.com/books?id=ZV_yCAAAQBAJ&pg=PA179
31)   //en.wikipedia.org/wiki/International_Chemical_Identifier
32)   http://opensmiles.org/
33)   //en.wikipedia.org/wiki/SQL
//docs.oracle.com/cd/B19306_01/appdev.102/b14289/dciwhatis.htm
34)   //en.wikipedia.org/wiki/Jaccard_index
35)   //en.wikipedia.org/wiki/Lipinski’s_rule_of_five
36)   //www.selacapo.net
37)   //en.wikipedia.org/wiki/Cheminformatics
F K Brown(1998)。 “ 第35章。 Chemoinformatics:它是什么以及它如何影响药物发现 “。 药物化学的年度报告 33 :375-384。

互补读数:
1)通过David Wild介绍化学信息学(2013)。可在亚马逊可用作为Kindle的电子书,9.95美元
//www.amazon.com/Introducing-Cheminformatics-David-Wild-ebook/dp/B00G5TS7B4/