毒品发现深入学习

2017年5月9日

–从彼得林的桌子,CDD倡导者–

机器学习

机器学习是关于设计和运行计算机程序,可通过体验自动改善。一个学习机应该响应输入数据做正确的事情,它应该有能力改进和做得更好,因为它收集了关于其响应有多好的反馈。在正式研究中,我们说机器有一个 任务 (t)由某些人执行 表现 (P),随着方案收益而得到改善 经验 (E).

以下是某些任务的示例:

    • 在国际象棋游戏中做出正确的举措,以获胜为目标。
    • 猜猜客户可能购买哪些物品。
    • 预测明天的天气。
    • 控制臂和行走机器人的腿部运动。
    • 预测设想的药物分子的代谢命运。
    • 确定哪些电子邮件是垃圾邮件。

任务本质上可能非常不同,但常见的主题是应响应于不同的输入数据而不同地且适当地执行任务。输入数据可以是棋盘位置,或者它可以是客户之前购买和历史浏览行为的记录。任务的执行始终涉及产出数据的生产,其本身可以是具有兴趣的结果,或者它可能是朝向最终结果的进一步行动的处方。学习过程试图调整任务的执行方式以获得更好的性能,这意味着随着机器获得经验,预计某个输入的结果将改变和改进。

深层浅机器学习

如果计算机以一步方式执行其任务,其中输入数据被转换为直接在直接过程中输出数据,则据说学习机具有浅架构。如果任务执行是逐步的,那么第一进程的输出是第二进程的输入,那么我们说我们有一个深刻的架构。

作为浅学习机的示例,考虑一种基于基于垃圾邮件的垃圾邮件检测规则来学习垃圾邮件检测规则。也许机器了解到“紧急”,“惊人”,“免费”,“免费”和更多的是指示垃圾邮件。基于这些单词的存在的分数总结是一个浅的简单过程,因为构建总和是单一的逻辑步骤。

作为深度学习机的示例,考虑一个具有任务的图像分析系统来检测和分类数字照片中的对象。该机器以像素格式得到其输入,并且需要确定图片中某处的一个或多个像素组代表某个对象,例如狗或汽车。在单个步骤中无法直接从像素直接从像素到分类对象。同一对象可以根据它对相机的近距离接近图像上占用不同的空间,并且像素图案将取决于所拍摄照片的角度。物体可以被其他对象部分遮挡,并且图像中的外观取决于阴影。同样的物体类型也可以采用不同的尺寸和颜色。

解决问题要求在第一步找到轮廓的步骤中处理输入数据,第二步使用轮廓包围的2D形状,第三步在尚更高的级别上工作,直到我们到达目标类别。机器需要学习如何井执行每个阶梯,以便在整体对象识别任务中获得良好。这是深入的学习。

深度是学习机架构的质量,我们可以拥有更多或更少的东西,但浅层和深度之间没有明确的限制。这是因为过程和步骤可以以不同的方式定义。

功能转换

如上所述,深度学习机器处理输入数据的原始特征,例如像素,并将它们转换为更高阶的特征,该特征在更好的结束问题的域中具有更好的富有态度的功能,例如3D对象。这些转换称为 功能转换,机器将在内部工作多个级别.

学习机的设计者需要提前知道需要种类的特征转换来解决一定问题。机器可以,如果它具有足够数量的训练示例,则解决特征转换对于执行其任务是有效的。

特征可能与人类概念不符,并且我们可能无法以推理术语解释机器如何在某种结果到达。

总之,特征转型解释了为什么深度学习是有效的。深度学习机设计师需要了解如何允许特征学习和功能转换,但他或她不需要提前有任何想法,以提前涉及中间功能的性质。

生物学

有趣的是,有证据表明在处理和作用于可视数据时,大脑使用逐步过程和特征转换形式。 (1)

神经信号从眼睛到大脑的区域,称为主要视觉皮质。源自视网膜中的相邻区域的信号将刺激视觉皮质的第一层中的相邻细胞。似乎主皮质涉及低级功能,例如不同亮度和颜色的区域之间的边缘。随后将来自视觉皮质的信号进一步发送到对象被识别的区域,以及从那里到其他职责的区域,例如运动分析。

这可能是数据科学家的好奇事实,并且一些早期机器学习研究已经受到神经科学的结果的启发。但是,今天的大多数发展都是基于计算机科学和统计学习的结果和理论,并且只有任何意图可以模仿大脑如何工作和学习。

称为机器学习技术之一 人工神经网络 要不就 神经网络。 这种技术被称为所以因为一个图解其工作的图表看起来像网络化生物神经元的卡通绘图。同样,通常没有意图模拟生物学过程。

前馈神经网络

有许多类型的学习机器和许多版本的每个版本。我们将简要介绍一个名为Feedforward神经网络的类型的基本示例。 (2)存在许多在alphago(3)等方案中使用的高级阐述,以及最新版本的谷歌翻译(4)。

以下是馈送网络的图示。圈子代表 人工神经元。在底部是一层输入神经元,顶部是一层输出神经元。介于之间的神经元层 层。浅网络有很少的隐藏层,深度网络有很多。隐藏的神经元被称为,因为它们是学习机器的内部,外面的世界不会看到它们。该图示出了一个只有十三个神经元的举例,而实际程序通常具有数千个神经元。隐藏层中的神经元数可以变化。

请记住,该机器将执行任务(T),其中一些性能(P)应该随着它获得经验而改善(e)。我们可以使用数量的数字来编码输入和输出,因此对于机器,任务始终响应输入数字的输出编号的生产。

尝试任务时,机器将处于馈送前进阶段。输入数据被分配给输入神经元,这意味着每个神经元被分配数值。如果输入数据来自黑白图像,那么我们需要尽可能多的输入神经元,因为我们在图像中有像素。每个输入神经元在第一隐藏层中连接到多个神经元。连接意味着在前面期间,下部神经元的值将乘以a 重量 因子(W)特定于连接,产品将在连接的较高端添加到神经元中。一个称为的数学函数 激活功能 然后将其应用于总和以形成神经元的新值。这会逐个图层,直到数字已在输出层上添加。随着学习持续开启,将调整连接特定权重。在开始学习之前,权重通常将被设置为随机值,这意味着我们第一次尝试某些任务时我们将获得随机结果和无用性能。

也许我们已经决定第一个输出神经元应该为输入图像中有一个猫的概率代码。高输出值将意味着高猫概率,以及 反之亦然。该机器将在向前馈送后记录实际和正确的结果之间的差异。然后它进入权重更新阶段。一种称为BackPropagation的某种算法用于更新网络的权重,使得如果应该再次发出相同的任务,则错误会少。顾名思义,BackPropagation从输出层工作,然后通过隐藏的图层重新工作。只要资源允许,或直到性能不再增加,就会使用新任务进行学习。通常,相同的任务集被许多次重复使用,然后我们将每个任务循环术语进行培训 时代。基于微积分结果的反向衰减算法被提出为1986年斯坦福数学心理学家大卫拉特的神经网络的培训方法。(5)

从开始开始,网络可能具有超过几个层,但培训深网络倾向于消耗更多计算机资源并需要更多的培训数据。这解释了为什么深入学习随着时间的推移变得相对更重要。在过去的几年里,深度网络的普及浪涌不仅因为更强大的硬件,而且因为 有更多的大数据集已经可用。粗略的拇指规则,需要在可接受的性能下需要约5000个训练示例。 (2)

其他深机器

机器学习最具传奇应用之一是IBM深蓝色的国际象棋电脑。这是在1997年在1997年击败Grandmaster Garry Kasparov而闻名,那时是世界冠军。 Deep Blue的名称与多层网络无关,并且由于其他原因被选中。 (6)蓝色是IBM品牌标识的主要颜色,深深来自前任国际象棋计算机的名字深思熟虑。深思熟虑的机器从喜剧科幻系列的计算机中获得了名字 搭便车’GALAXY指南, 由道格拉斯亚当斯写的。 (7)深思地想到小说系列的目的是将答案造成了关于生命,宇宙和一切的大问题。在思考问题后七百万年深入思考最终提供了答案,即四十二。

深度弗里茨和深初级是其他以同一静脉命名的其他国际象棋电脑。

谈到计算机和棋盘游戏时,今天的大部分注意力都是在战略游戏中,这比国际象棋更复杂,因为每个移动更多替代方案。 Go Mack Machines只能击败人类的祖母。 2016年计算机程序AlphaGo击败了9-Dan Master Lee Sedol时,突破了。 alphago确实使用了深度神经网络。 (3)

毒品发现深入学习

药物的所需效果是其与体内某些生物靶分子的相互作用的结果。分子间势力将药物和靶分子结合在一起,并在此后的事件对疾病或病症产生影响。因此,药物发现项目寻找可以足够强烈束缚到目标分子的化合物。但是一种药物也可以与身体中的非靶分子结合,这可能导致必须避免的不希望的且可能的危险副作用。药物’S从肠道吸收以及其新陈代谢和排泄也取决于分子间力。

不幸的是,我们无法检查计算机中的潜在药物分子以预测它将如何与身体中的相关分子相互作用。一个原因是我们缺乏用于预测分子间力的良好方法。

今天大多数候选药物在诊所的人类试图时失败了。这使得整体药物制造过程非常昂贵,如果我们有更好的预测方法,可以节省大部分资源。

QSAR.

药物发现是一个迭代过程,存在试验和错误的要素。新化合物是根据已经制造的化合物的测试数据设计的。一个人试图找到 结构和活动之间的模式或者结构和任何其他属性,在被称为a中 定量结构 - 活性分析, 缩写QSAR。 QSAR分析试图模拟药物 - 目标相互作用如何依赖于药物结构,但它以间接方式确实这样做,而不会试图明确地模拟分子间力背后的物理现象。

QSAR.模型可以或多或少是本地或全球性的。全球模型在多种化合物上培训,可以为各种化合物产生有意义的估计。全球模型的数据集往往很大。本地模型培训在复合类别的特殊兴趣,它可以在该课堂内生产估计。本地模型通常比类似化合物集合的全球模型更好地表现出大得多,因此它们用于铅优化项目,工作专注于某些类别的结构。

当数据集非常大时,深度神经网络显示出优势。例如,2012年计算化学竞争中的获奖条目正在使用包括深神经网络的方法的集合。 (8)竞争中的数据集距离约为2000至50000个化合物,为每种化合物提供了数千个描述符。这项工作中的最佳结果来自网络中的四个隐藏层,在这些层中的每一个中具有1000至4000神经元。模型的平均R线统计为0.49,这意味着这些计算机模型可以解释数据方差的一半。

另一个神经网络QSAR研究在同一时间预测来自多种测定的化合物活性。 (9)该研究于19个数据集,从帕奇姆范围为大约2000至14000种化合物。结果比来自替代方法的结果更好,但改变神经网络隐藏层的数量没有显着效果。

药物发现项目显然希望能够在合成和检查尽可能少的化合物后识别候选药物,因此对该背景的主要兴趣是基于小数据集的良好模型。当数据集很小时,将更多层添加到QSAR神经网络中很可能不会有利,主要输入包括任何传统类型的分子描述符。

码头

很多努力都陷入了发展所谓的 对接计划 这是一种算法,目的是预测假想分子如何与某些感兴趣的目标结合。对接程序可用于筛选虚拟化合物的集合,以获得更高比例的化合物实际上是好粘合剂的子集。

对接程序需要检查靶和配体分子之间的许多可能的相对取向,并估计每个这种姿势的结合强度。所谓的 得分功能 用于估计结合强度。 CRUX再次是我们今天不能可靠地预测两种分子之间的相互作用如何。

处理分子相互作用的大多数程序将在内部使用分子的粘性和球型表示。该模型还将使用表达景点,排斥,灵活性等因素。但能够模拟药物与目标分子之间的相互作用,任何精度水平仍然是远处的目标。在生物环境中的分子移动,振动,并被其他影响结合的其他分子包围。直接模型物理现实的程序潜在的分子相互作用需要使用高水平的理论,并且考虑许多相对姿势和振动模式,这些相对姿势和振动模式如此大的计算变得不可行。

经典的棍子和球形表示仍然非常有用,对化学中许多现象的预测和解释非常有用,但它看起来像计算化学家需要在分子间力模型中进行工作的其他功能。主要化学输入当然仍然是通常的格式,但必须允许学习机找到合适的功能转换。

最近一个使用深度学习对接的机器学习研究的示例是Pereira和同事。 (10)其学习机使用的主要特征包括化合物的每个原子的上下文数据。上下文数据是距离,原子类型,原子部分收费和氨基酸。

合成方法

我们可以期待机器学习进度的另一个领域是逆转分析。分子通常很难合成,并且药物发现中的大部分资源都进入了合成努力。甚至可以难以升起到目标化合物的单个合成途径。逆转分析是对可能的合成路线的系统检查,以落后方式搜索,以搜索从更简单的化合物中进行最终化合物的方式搜索,然后看看如何源自更简单的化合物。

同样,培训数据的可用性和收集数据的合作努力将是进步的关键。一个有趣和具有挑战性的方面是,合成化学记录几乎从未完全完整,因为有多少反应结果数据可以分析和解释多少。学习系统需要擅长处理不完整的数据。

接下来会发生什么?

数据集

具有化学结构和活动数据的越来越多的数据集是 向公众发布,现在有自由的数据库提供质量 数量。 (11)这对计算社区来说是一种需要质量数据的重要性,以便能够开发新技术。基准数据集的一般可用性将继续增加,这将引发药物发现中机器学习方法的加速发展。发布在非披露的专有数据集上基准测试的计算方法似乎越来越奇怪。

制药公司必须仔细保护他们的知识产权,因此在分享数据方面具有非常严格的政策。担心数据将最终在错误的手中一直是药物行业是云计算的晚期提升者的原因。但制药现正越来越多地称为他们的计算基础设施。云的服务提供者当然会意识到客户的安全问题,并不仅仅与技术服务质量竞争,还具有安全性和可信度。使用云服务将继续增加。

软件

存在的机器学习的许多开源框架以及许多用于云计算的生态系统已成为与例如财务预测或客户行为一起使用的数据科学家的标准工具。它仍有待观察到了&D Informaticians将通过特定于药物设计领域的工具集成机器学习的标准工具。 R.的成员&D信息学员工已经预计对机器学习以及来自这些领域的人员,例如化学信息管理员,生物信息管理员,计算化学家和r&D IT人员,将继续学到更多关于深度学习和利用其可能性的更多信息。

QSAR.的化学数据当然只是另一种形式的数据,例如用于对象识别的图像数据,语言解释器的音频数据,或国际象棋或去玩机的游戏位置。也许对QSAR的特定于是,与其他设置的数据相比,现实生活数据集通常很小,其中通常可以使用更多的样本数量级。深度学习需要大型数据集。也许可以在某种程度上培训深度网络,以便在大型数据集上找到强大的特征转换,并在较小的特殊兴趣数据集上进一步培训之前进行一般数据。

评分功能

用于快速估计分子间力量(评分函数)的良好技术是特别兴趣的领域。它举例说明了一个技术领域,在那里有关未来进展的预测多十年的过度乐观。使用深度学习方法可能证明是前进的方向。

参考

  1. //en.wikipedia.org/wiki/Visual_system
  2. 我,我.; Bengo,Y.&Courville,A.(2016),'深度学习',麻省理工学院压力机。
  3. 银,d .;黄,一个。 Maddison,C. J .; guez,a .; sifre,l .; van den driessche,g .; Schrittwieser,j; antonoglou,我;; Panneershelvam,v。;; lanctot,m .; Dieleman,S .; Grewe,D .; NHAM,J。; kalchbrenner,n .; Sutskever,I .; LillicRap,T。 leach,m ;; Kavukcuoglu,K。; Graepel,T.& Hassabis, D.: ‘掌握与深度神经网络和树搜索的游戏。 自然529(2016),NR。 7587,484-489
  4. 吴,y .; Schuster,m;陈,Z .; le,q.v .; Norouzi,M ;; macherey,w ;;克里坤,米.; Cao,Y;高,q .; Macherey,K .; klingner,j。; Shah,A .;约翰逊,米;刘,x ;; Łukasz凯撒; Gouws,s。凯托,y; Kudo,T .;哈泽瓦,H。史蒂文斯,k; Kurian,G .; Patil,n;王,w ;;年轻,c .; j。史密斯; riesa,j .; Rudnick,A。 vinyals,o ;; corrado,g .;休斯,M。& Dean, J.: ‘谷歌’S神经机翻译系统:弥合人与机器翻译之间的差距。 arxiv(1609.08144V2)。
  5. Rumelhart,D.e .; Hinton,G.E;威廉姆斯,r. j:'通过返回传播错误学习表示。 自然 323(1986),NR。 6088,S. 533-536
  6. Hsu,f .:'深蓝色后面:建造击败世界国际象棋冠军的电脑': 普林斯顿大学出版社。,2002年
  7. //en.wikipedia.org/wiki/Deep_Thought_(chess_computer)
  8. 马,j; Sheridan,R. P .; Liaw,a .; DAHL,G. E.&Svetnik,V.(2015),‘深神经网络作为定量结构活动关系的方法‘, J.Chem。 INF。模型。 55(2), 263–274.
  9. Dahl,G。,E .; jaitly,n。&Salakhutdinov,R。(2014), ‘用于QSAR预测的多任务神经网络‘, arxiv(1406.1231)。
  10. Pereira,J. C。; Caffarena,E. R.&Dos Santos,C. N.(2016),‘深入学习的基于对接的虚拟筛选‘, J.Chem。 INF。模型。 56(12), 2495–2506.
  11. Bento,A. P ;; Gaulton,a .;一个.;贝利斯,L. J .;钱伯斯,j;戴维斯,米;克鲁格,F.A .;光,y .; Mak,L .;麦格林,S。诺多卡,米;; papadatos,g .; Santos,R.&Overington,J. P.:'Chembl生物活性数据库:更新'。在: 核酸研究 42(2013),NR。 D1,S. D1083–D1090