深入了解药物发现

2017年5月9日

- 彼得Lind,CEDD律师的办公室 -

机器学习

机器学习包括设计和执行自动改善体验的计算机程序。应该通过收集有关其响应质量的信息来完成响应所输入的数据来执行所需的学习机器,并且应该能够更好地提高。在正式研究中,我们说机器有一个 任务 (t)由一些执行 表现 (P),随着计划获取的改进经验 (E).

以下是某些任务的示例:

    • 在棋牌游戏中做好拍摄,以获胜为目标。
    • 猜猜客户可能会购买哪些文章。
    • 提供明天在特定地点的时间。
    • 检查携带机器人的手臂和腿的运动。
    • 提供所提出的药物分子的代谢命运。
    • 确定哪些电子邮件是垃圾邮件。

任务可以具有非常不同的性质,但常见主题是必须根据不同的输入数据来不同地且适当地执行任务。输入数据可以是棋盘的位置或先前购买客户的记录和他的历史导航行为。执行任务始终涉及产出数据的生产,这本身可以是一个有趣的结果或最终结果的额外行动处方。学习过程试图改变任务的执行方式以实现更好的性能,这意味着当机器获取经验时,应该改变和提高一定条目的结果。

深层和肤浅的机器学习

如果计算机在将输入数据转换为输出数据的单个步骤中在一个简单的过程中运行其任务,则据说学习机具有浅架构。如果任务的执行在阶段完成,因此第一进程的输出是第二进程的输入等,所以据说我们有一个深刻的架构。

作为一种肤浅的学习机的示例,考虑一种基于基于指示垃圾邮件的关键字的存在来学习垃圾邮件检测规则的原始垃圾邮件过滤算法。也许机器了解到“紧急”,“惊人”,“自由”和其他一些都是垃圾邮件。基于这些词的存在的分数计算是一个简单而浅的过程,因为总和的构造是一个唯一的逻辑步骤。

作为深度学习机的示例,考虑一个图像分析系统,用于检测和分类数码摄影中的对象的任务。该机器以像素格式接收其数据,并且必须确定图像中某处的一个或多个像素组代表某个对象,例如狗或汽车。在单个步骤中,不可能直接从像素到分类对象。相同的对象可以根据与相机的接近相同的图像在图像上采取不同的位置,并且像素的图案将取决于照片的角度。物体可以被其他对象部分遮挡,图像中的外观取决于阴影。相同类型的物体也可以是不同的大小和颜色。

为了解决这个问题,输入数据必须按步骤处理,第一步由轮廓组成,第二步是由轮廓包围的第二种形式,第三个在仍然更高的水平下工作,直到我们到达目标类。该机器必须学习井执行每个阶梯,以便在对象识别的全局任务中获得良好的结果。这是一个深入的学习。

深度是学习机的架构的质量,我们可以或多或少地,但深度和肤浅之间没有精确的限制。实际上,可以以不同的方式定义进程和步骤。

改造特征

如上所述,深度学习机器处理输入数据的原始特性,例如像素,并将它们转换为在最终问题的领域具有更好的表现力的高阶特性,例如3D对象。这些转换称为 转变 特点,机器将在内部工作,具有几个级别的表示.

学习机的设计者不需要提前知道解决某个问题所必需的功能转换。如果它具有足够数量的训练示例,则机器可以确定哪些特性变换在执行其任务方面是有效的。

功能可能与人类概念不匹配,我们无法在推理方面解释机器如何在某个结果到达。

总之,特征的转换解释了为什么深入学习是有效的。深入的学习机设计师必须了解如何允许学习和功能,但它不需要提前有涉及中间功能的性质。

生物学

值得注意的是,当治疗和作用于视觉数据时,大脑使用步进过程和一种特性转换形式。 (1)

神经信号从眼睛移动到称为原发性视觉皮层的脑区域。视网膜的相邻区域的信号刺激视觉皮层的第一层的相邻单元。似乎主皮质照顾低级特性,例如不同光和颜色区域之间的边缘。然后将来自视觉皮层的信号进一步发送到识别物体的区域,并且从那里到达其他职责的区域,例如运动分析。

这可能是对数据专家的好奇事实,并且关于机器学习的一些研究已经受到神经科学的结果的启发。但大多数目前的发展都是基于计算和统计学习的结果和理论,并且只有很少有意模仿大脑工作和学习的方式。

其中一个机器学习技术被称为 人工神经元网络 或简单 神经元网络 。因此,这种技术被称为,因为说明其操作的图表看起来像网络化的有机神经元的动画片。同样,通常没有意图模拟生物学过程。

早期动作神经元网络

有许多类型的机器可以学习和许多版本的机器。我们将简要描述这里是名为神经元预期网络的类型的基本示例。 (2)在alphago(3)等方案中使用了许多先进的阐述,以及最新版本的谷歌翻译(4)。

在下面,您将找到前馈网络的插图。圈子代表 人工神经元。在底部,存在一层输入神经元和顶部,一层输出神经元。两者之间的神经元层称为层 。浅网络具有很少的隐藏层,深网络包括许多网络。隐藏的神经元被称为,因为它们是学习机的内部,而外面的世界不会看到它们。该图示出了一个只有十三个神经元的例子,而实际程序通常有几千个。隐藏层中的神经元数可能变化。

请记住,该机器将以某种性能(P)运行任务(T),该表现(p)应在其获取经验时提高。我们可以使用数字集来对输入和输出进行编码,因此对于机器,任务始终由响应输入数字产生输出编号。

执行任务时,机器处于前馈阶段。输入数据被分配给输入神经元,这意味着将数值分配给每个神经元。如果输入数据来自黑白图像,则我们需要尽可能多的输入神经元作为图像中的像素。每个输入神经元在第一隐藏层中连接到多个神经元。连接意味着在电源期间,下部神经元的值将乘以一个因子 加权 (w)具体连接,并将产品添加到连接的上端的神经元中。一个称为数学函数 激活功能 然后将其应用于总和以形成神经元的新值。这将逐个图层,直到数字在输出层上加起来。连接的特定权重将被调整为在学习时。在开始学习之前,权重通常将被设置为随机值,这意味着我们第一次尝试一些任务时我们将获得随机结果和不必要的性能。

我们可能已经决定第一个出口神经元应该编码器,以便在输入图像中有一个猫的概率。高输出值将意味着猫的高概率,以及 反之亦然。该机器将在电源之后记录实际结果与正确结果之间的差异。然后它进入权重更新阶段。某个名为BackPropage的算法用于更新网络的权重,以便如果再次发出相同的任务,则错误会降低。顾名思义,BackPropage从输出层运行并通过隐藏的图层返回。只要资源许可,或直到表演不再增加,就会继续学习新任务。很多时候,相同组的任务是重复使用了几次,我们称之为每个任务循环a 时期 学习。已经提出了基于计算结果的备份算法作为斯坦福大卫Rumelhart Mathematician心理学家的神经网络培训方法于1986年。(5)

从开始开始,网络可能具有超过几个层,但深网络的形成往往会消耗更多的计算机资源,需要更多的培训数据。这解释了为什么深入学习随着时间的推移变得相对更重要。近年来,深度网络的普及急剧增加,而不仅仅是因为材料的力量增加,而且因为 许多足够大的数据集可用。作为一般规则,大约5,000个培训例子需要实现可接受的表现。 (2)

其他深机器

其中一个最传奇的学徒机器是IBM的深蓝色国际象棋电脑。在1997年在1997年击败了大师嘉士法克帕罗夫时,它是着名的,然后是世界冠军。 Deep Blue的名称与多层网络无关,并且已被选为其他原因。 (6)蓝色是IBM品牌标识的主要颜色,“深度”来自深思想国际象棋计算机的前任名称。深思想机器从漫画科幻系列中从计算机中取出了名字 Hitchhipker的Galaxy指南, 由道格拉斯亚当斯写的。 (7)对小说系列的深思熟虑是创建的,目的是计算对生活,宇宙和一切的大问题的答案。在思考七百万年的问题之后,深思熟虑最终提供了答案,这是四十二。

深度弗里茨和深初级是其他以同一静脉命名的其他国际象棋电脑。

关于电脑和棋盘游戏,关注现在的重点是GO策略游戏,这比失败更复杂,因为每次射击还有更多替代方案。只有最近,去玩机器已经设法克服了伟大的人类大师。当IT程序alphago击败9舞李塞米尔的主人时,2016年发生了突破。 alphano使用深神经元网络。 (3)

在药物发现中深入学习

药物对药物的所需效果由其与体内有机靶分子的相互作用。分子间力结合药物和靶分子,并且以下事件将对疾病或状态产生影响。这就是为什么药物发现项目正在寻找可以对目标分子相当强烈束缚的化合物。但药物也可以与身体中的非靶分子结合,这可能导致必须避免的不希望的和可能危险的副作用。通过肠道吸收药物以及其新陈代谢及其排泄也取决于分子间力。

不幸的是,我们无法检查计算机中的潜在药物分子,预测它将如何与患有身体的分子相互作用。其中一个原因是我们没有良好的预测分子间力的良好方法。

今天,大多数候选药物在诊所人类审判时失败。这使得在我们有更好的预测方法,可以节省制造极其昂贵的药物和大部分资源。

QSAR.

药物发现是一个迭代过程,并且有一个测试和错误元素。新化合物是基于已经制造的化合物的测试数据设计的。我们试图找到 结构与活动之间的模型或者在结构和任何其他属性之间,在所谓的a中 定量分析结构 - 活动 ,缩写qsar。 QSAR分析试图模拟药物与目标之间的相互作用如何依赖于药物的结构,但它间接地进行,而不尝试在分子间力的起源中明确地模拟物理现象。

QSAR.模型可以或多或少是本地或全球性的。在多样化的化合物上形成全局模型,可以产生各种化合物的显着估计。全球模型的数据集往往很重要。在一类特别利益的化合物上形成局部模型,可以在该类中产生估计。本地模型通常比类似复杂集合的全局模型更效率,因此它们用于最佳优化项目,其中工作的专注于某些类别的结构。

当数据集非常大时,深神经元网络具有优势。例如,2012年计算化学竞争的赢得贡献使用了一系列方法,包括深神经元网络。 (8)对于每种化合物,为每种化合物提供了大约2000至50000化合物和数千个描述符的比赛数据集。这项工作的最佳结果来自网络中的四个隐藏层,在这些层中的每一个中有1000至4000神经元。模型正方形的平均统计R为0.49,这意味着这些计算机模型可以解释数据方差的一半。

对神经元QSAR网络的另一个研究预测了同时从几次测试中的活性。 (9)研究专注于19个Pubchem数据集,其大小在约2000和14000个化合物之间变化。结果优于其他方法获得的结果,但神经元网络的隐藏层数的修饰没有显着效果。

药物发现项目显然将能够在合成和检查尽可能少的化合物后识别候选药物,因此对此背景的主要兴趣是基于小型数据集具有良好的模型。当小数据集和主入口由传统类型的分子描述符之一组成时,向神经元QSAR网络中的附加层的添加可能没有任何兴趣。

码头

许多努力都致力于发展 程式 所谓的“ 码头 “这是预测假设分子将被设定为给定目标的算法。对接程序可用于筛选虚拟化合物的集合,以获得更高比例化合物实际上是好粘合剂的子集。

绑扎程序应检查靶分子和配体分子之间的许多相对取向,并估计这些姿势中的每一个的联络力。一个 功能 所谓“ 得分 “用于估计联络力。底线是,我们不能可靠地预测两种分子之间相互作用的强度。

大多数处理分子相互作用的程序将在内部使用“棒球”型分子的表示。该模型还将使用表达景点,排斥,灵活性等的因素。但能够用任何精确度模拟药物和目标分子之间的相互作用仍然是一个遥远的目标。生物环境中的分子移动,振动,并被其他影响链接的其他分子包围。直接建模物理现实的程序潜在的分子交互应该使用高水平的理论,并考虑到许多相对姿势和振动模式,这对计算变得不可能。

棍子和子弹的古典代表对化学中许多现象的预测和解释仍然非常有用,但似乎计算化学家将需要在分子间力模型中进行工作的其他特征。主要化学数据当然仍然是通常的格式,但学习机必须能够找到适当的特性转换。

最近对使用深入学习对接的机器学习的研究是Pereira和同事。 (10)学习机使用的主要特征包括每个化合物原子的上下文数据。上下文数据是距离,原子类型,原子部分载荷和氨基酸。

合成方法

我们可以希望在机器学习进步的另一个领域是回顾性分析。分子通常难以合成,并且致力于发现药物的大部分资源都致力于合成努力。甚至难以找到一个目标化合物的合成。逆转分析是对可能的合成通道的系统检查,以逆行方式搜索,从搜索开始,以便从更简单的化合物中制作最终化合物,然后又可以依次。衍生自更简单的化合物。

同样,培训数据和数据收集的协作工作的可用性将是进步至关重要的。一个有趣和刺激的方面是合成化学记录几乎从不完全完全完成,因为对化学家可以分析和解释的反应结果的数据量有实际限制。学习系统需要能够处理不完整的数据。

接下来会发生什么?

数据集

越来越多的结构和化学活动的数据集是 向公众提供,现在有免费数据库提供定性信息 定量。 (11)对于需要质量数据的IT社区来开发新技术,这对IT社区来说是巨大的重要性。基线数据集的一般可用性将继续增加,导致药物发现中自动学习方法的发展加速。发布在未披露的专有数据集上校准的计算方法看起来越来越奇怪。

制药公司必须仔细保护其知识产权,因此具有非常严格的数据共享政策。担心数据在糟糕的手之间结束是制药行业已经过云计算的原因。但制药公司现在正在经历越来越多的IT基础设施。基于云的服务提供商当然意识到他们的客户对安全性的担忧,不仅符合服务技术质量,而且涉及安全性和可靠性。在云中使用服务将继续增加。

软件

机器学习有许​​多开源框架,云计算的许多生态系统已成为使用数据的科学家的标准工具,例如财务预测或客户行为。它仍然看到r的计算机科学家如何&D将与特定于药物的工具集成标准的自动学习工具。它已经预期,它的成员是r的员工&D对机器学习的透彻了解,以及来自这些领域的人,例如帕尔固师,生物信息学,计算机科学家和r的员工&D,将继续学到更多关于深度学习和利用可能性的更多信息。

QSAR.的化学数据当然只有另一种形式的数据,例如用于对象识别的图像数据,语言解释器的音频数据,或用于机器的托盘游戏位置播放国际象棋或去。与其他上下文相比,RQSA的特异性可能是往往小的,其中额外的其他样本的几个数量级常用。深入学习需要大型数据集。深度网络可以以一种方式培训,或者在较小的数据集上培训之前,可以在一方面培训,以找到大量数据上的大量数据转换。特别感兴趣。

评级功能

没有良好的技术来快速估计分子间力(评级函数)是一个特别有趣的领域。这是一项技术领域,其中对未来进展的预测已经过于乐观了多十年。深入学习方法的使用可能是前进的方向。

参考

  1. //en.wikipedia.org/wiki/Visual_system
  2. 我,我.; Bengo,Y.&Courville,A.(2016),“深度学习“,麻省理工学院压力机。
  3. 银,d .;黄,一个。 Maddison,C. J .; guez,a .; sifre,l .; van den driessche,g .; Schrittwieser,j; antonoglou,我;; Papshelvam,v .; lanctot,m .; Dieleman,S .; Grewe,D .; NHAM,J.Kalchbrenner,N .; Sutskever,I .; LillicRap,T。 Leach,Mr .; Kavukcoglu,K。; Graepel,T.&Hassabis,d。:“用深层神经网络掌握去游戏并在树上搜索“。自然529(2016),NR。7587,484-489
  4. 吴,y .; Schuster,m;陈,Z .; le,q.v .;诺努齐,先生; Macheey,w ;;克里坤,米.; CAD,Y .;高,q .; macheey,k; klingner,j。; Shah,A .; Johnson,Mr。刘,x ;; Łukasz凯撒; Gouws,s。凯托,y; kudo,t.kazawa,h .;史蒂文斯,k; Kurian,G .; Patil,n;王,w ;;年轻,c .; j。史密斯; riesa,j .; Rudnick,A。 vinyals,o ;; corrado,g .;休斯,迪恩先生,j:' 谷歌的神经机翻译系统:弥合人与人类之间的差距 翻译机器“, arxiv(1609.08144V2)。
  5. Rumelhart,D.e .; Hinton,G.E;威廉姆斯,r. j:“通过返回传播错误学习表示。 自然 323(1986),NR。6088,S. 533-536
  6. HSU,F。:“深蓝色后面:建造击败国际象棋冠军世界的电脑“: 普林斯顿大学出版社, 2002
  7. //en.wikipedia.org/wiki/Deep_Thought_(chess_computer)
  8. 马,j; Sheridan,R. P .; Liaw,a .; Dahl,G. E.&Svetnik,V.(2015),“深神经网络作为定量结构活动关系的方法 “, J.Chem。 INF。模型。 55(2), 263–274.
  9. Dahl,G。,E .; Jaitly,N.&Salakhutdinov,R.(2014),“用于QSAR预测的多任务神经网络“, arxiv(1406.1231)。
  10. Pereira,J. C。; Caffarena,E. R.&Dos Santos,C. N.(2016),“深入学习的基于对接的虚拟筛选“, J.Chem。 INF。模型。 56(12), 2495–2506.
  11. Bento,A.P; Gaulton,a .;一个.;贝利斯,L.J;钱伯斯,j;戴维斯,先生;克兰,F.A ;;光,y .; Mak,L .;麦格林,S。诺多卡,米;; papadatos,g .; Santos,R.&Overington,J.P:“拟气管生物活性数据库:更新“。在 : 核酸研究 42(2013),NR。D1,S. D1083-D1090