日前,國際頂級學術期刊《Nature》子刊《Nature Machine Intelligence》在線發(fā)表了百度在生物計算領域的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,論文提出“基于空間結構的化合物表征學習方法”,即“幾何構象增強AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),將化合物的幾何結構信息引入自監(jiān)督學習和分子表示模型,對化合物進行“3D建模”,以預測化合物分子的性質屬性。其在藥物篩選上的應用,可在數(shù)小時內完成傳統(tǒng)仿真方法1年的工作量,效率提升上千倍,有望大幅降低藥物研發(fā)的時間投入和成本投入。該工作為百度在AI賦能藥物研發(fā)領域的又一項重磅成果。
作為藥物研發(fā)的關鍵一環(huán),候選化合物的性質預測相當于為臨床實驗“排雷”,即提前篩選掉毒副作用高、人體吸收代謝不好等具有不良特性的化合物。這項任務以前只能通過傳統(tǒng)仿真實驗進行,成本高昂且耗時長。后來,研究人員引入深度學習技術,但傳統(tǒng)的深度學習方法大多基于序列或者2D圖結構建模,缺乏化合物三維空間結構信息的利用,這會丟失一部分空間信息,導致化合物性質預測結果的偏差。
實際上,化合物的性質和其三維空間結構密切相關,為了更好地預測化合物性質,亟需引入化合物的三維空間信息。百度此次提出的“基于空間結構的化合物表征學習方法”,即GEM模型,在這一點上實現(xiàn)了重大突破,在全球范圍內開創(chuàng)性地將化合物性質預測從“2D建模”推進到“3D建模”。同時,引入AI領域迅速發(fā)展的預訓練技術,利用大量無標注的化合物數(shù)據(jù),通過自監(jiān)督學習,構建GEM模型的底層能力,有望能成為小分子藥物研發(fā)領域的模型底座,解決小分子藥物活性預測,成藥性預測,藥物設計等核心問題,真正加速藥物,特別是全新藥物(First In Class)的發(fā)現(xiàn)過程。