開源數據的未來對藥物發現有何影響?

2018年11月12日

開源數據和藥物發現的未來
根據與比爾及梅林達-蓋茨基金會開放存取小組的Ashley Farley、[chEMBL]提供者EMBL-EBI的Andrew Leach、PubChem提供者美國國立衛生研究院的MCBI/NLM的Evan Bolton和CDD的Frank Cole的討論。
這是我們關於開源數據及其對藥物發現影響的兩部分系列的第二部分。 請閱讀第一部分"爲什麼公開的數據很重要,以及如何使用這些數據?
浩瀚的開源數據是藥物發現中一個比較新的發展。
近幾十年來,數據量不斷增加,改變了研究人員尋找信息的方式。但是,這也給合作方法的發展帶來了新的挑戰。
發表在《計算機輔助分子設計》雜誌上的研究討論了未來的一個主要挑戰是數據庫和軟件方法如何處理更大量的數據,因爲這些數據是從高通量篩選中積累起來的,並使用戶能夠得出洞察力,實現預測,並推進項目。
當有如此多的數據時,如何獲取這些數據並將其提供給能夠從中受益的研究人員,就成了一個大問題。
如果你回想一下,在PubChem存在之前,只有幾個不同的資源是開放的和可用的。
有國家癌症研究所的分佈式療法項目,該項目有大約25萬個化學結構。
在2004年之前,這個NCI數據庫是你真正可以利用的全部。
還有梅橋藏品,約有8萬種化學品出售。
否則,你只需訂閱"可用化學品目錄",或其他類型的付費服務,就可以瞭解周圍有哪些化學品,可以供你購買。
現在,快進。
我們到了
現有約1億個獨特的小分子。
你有非常大的項目--大數據類項目,你幾乎可以購買任何可能合成的分子。
有大型的虛擬化學圖書館,你只需要問一個化學品,就會有人爲你製作。這與過去有很大不同,因此,帶來了獨特的挑戰和潛在的好處。
根據發表在《Cheminformatics雜誌》上的研究,開放數據最重要和最直接的受益者之一將是化學算法,它能夠吸收大量的數據,並利用這些數據向工作中的化學家提出簡明的見解,其規模是傳統的出版方法無法實現的。
然而,要使這一目標切實可行,需要科學家個人將其數據轉化爲數字形式的方式發生範式轉變,因爲大多數當代的數據輸入方法是爲了向人類展示,而不是由機器學習算法消費。
科學家可以利用的東西太多了,研究的速度可以快很多。
但是,這些開源數據的未來是怎樣的呢?
這些公共數據儲存庫對社會的長期價值是什麼?
如何讓未來的開源數據比現在更好?
在這裏,我們探討了關於開源數據未來的3個方面的問題,以及我們今天需要做什麼來保障開源數據的未來... ...
如何確保開放源數據的長期價值?
未來信息如何獲取或有用還不得而知。
那麼,我們如何準備確保開源數據的長期價值?或者說,我們如何從今天的開源數據中獲得最大價值?
數據科學需要大量的信息才能發揮作用,所以需要有越來越多的信息庫來收集和發佈這些信息內容。
還需要有高質量的信息,這就突出了策劃的必要性。
內容可以根據科學來策劃,也可以作爲時間的函數來策劃。舉例來說,如果你想到一個在20世紀80年代進行的實驗,你會相信這個實驗,還是會在今天重新進行?
科學在不斷髮展,因此提供高質量的信息將有助於確保開源數據在未來的價值。
開源數據的主要價值還需要充分實現,就是可以讓你獲得之前發生的所有事情,這樣它就可以以比以前更快的速度推動發現的前進。
這將是非常非常有幫助的,但是,我們需要適當的元數據。
我們需要爲這一進程提供高質量的信息。
我們需要生物培養來實現這一點,我們需要把它整合起來。
有哪些即将到来的变化会改善数据使用情况?
chEMBL這幾個月來的重點項目是 全新设计的网页界面,更好的为用户服务。
在重新設計界面的同時,還有一些與數據設置方式有關的幕後變化。
然後,從更廣泛的角度來看,有關於可以納入chEMBL的不同類型的數據的問題。
例如,最近的探索是研究如何從專利中提取生物活性數據並添加到chEMBL數據庫中。
此外,隨着實驗平臺對數據類型和數據產生規模的改變,數據的存儲和查找方式也會發生變化。
屆時,所有這些都有可能導致這些數據進入數據庫的新方式,包括人工智能和機器學習的應用。
在PubChem上,經常會有數萬或數十萬的文獻鏈接到一個化學品。摸索如何最好地總結這些海量信息,是PubChem未來變革的一個重點。
在PubChem中正在實施的一個近未來的變化來解決這個問題,就是引入一個叫做共發生的視圖,在這裏你可以找到相對於這個其他化學品經常被提及的其他化學品。
還可以查看與化學品相關的疾病(治療或原因),讓你瞭解通常與化學品相關的疾病類型。而且,對於基因和蛋白質,也將有一個類似的共存視圖。
這裏的思路是,研究者可以提出相對於某種疾病的問題,並找出相對於PubChem,我們所知道的有關該疾病的信息類型。
然後,這個人就可以調查相對於這種疾病的生物活性,與這種疾病相關的其他基因和靶點,可能治療這種疾病或可能導致這種疾病的化學物質,以及所有支持這些信息的文章。
這個想法是將所有可用數據的結構和生態系統以及數據的來源拼接在一起。
當你開始思考化學家、生物學家、藥物發現科學家、藥理學家、毒理學家和環境科學家都關心的生態系統時,下一步就是將其全部打包,然後他們可以訪問和下載。
在未來,會更多的從分析類的工具中走出來,更多的轉向數據視圖和預計算的信息,這些信息是符合用戶所希望的,或者說是想找到的,因爲內容太多,人已經搞不清楚了。而且,使用數據科學類的方法,可以讓交互式的用戶更明顯一點。
未來前景看好。隨着更多信息的提供和更多元數據的提供,每個人都會受益。這些變化和其他變化將使研究人員能夠獲得這些內容,並對其進行更多的利用。
只要研究者能找到他們需要的東西,我們都會贏,因爲我們能更快、更好、更多的發現。
開源數據如何讓未來的藥物發現比現在更好?
創建這些資源是一個相當耗時的過程,需要從多個方面努力,但這並不是一個無法解決的問題。
這既是一個文化問題,也是一個技術問題,所以預計它是可以實現的,當然是可行的。
另一個奇妙的發展是一個程序,可以告訴你,每出一篇新文章,哪些信息是新的,哪些信息是舊的。
這將使你能夠確定你是否支持舊的信息,或者你是否與舊的信息有某種衝突。
這將使研究人員能夠更好地瞭解科學的現狀,瞭解科學家們在哪些方面同意,在哪些方面不同意。
然後,下一步可能是一臺計算機,它將開始告訴你解決現有數據中某些類型的衝突所需的實驗類型。
想象一下,如果一個人工智能程序可以說:"嘿,有人需要運行這個實驗,因爲這個數據的差距。"
填補這些知識空白,就可以提前規劃,開始做更合理的實驗,以更快的速度帶來進步。
概要
隨着技術的進步,科學家能夠以越來越快的速度產生越來越多的數據,數據的可獲取性變得至關重要。關鍵是需要採取哪些措施來維持開源數據的未來,以及如何提高數據的可用性。