一粒細(xì)菌侵入了人體。
它在體內(nèi)開(kāi)始游蕩,試圖釋放細(xì)菌毒素,開(kāi)啟它的致病之旅。此時(shí),身體里的“防御素”被吸引而來(lái),它們?cè)诩?xì)菌膜表面積累至臨界濃度,而后瞬間啟動(dòng)自組裝程序——像樂(lè)高積木一樣自行組裝,結(jié)成一張納米纖維網(wǎng)以避免感染,或是直接“拆開(kāi)”細(xì)菌表面。
危機(jī)解除,一場(chǎng)潛在的疾病就這樣化解于無(wú)形。
人體是一個(gè)極度復(fù)雜的巨大機(jī)器,以防御素為代表的的多肽類物質(zhì),是其中極為重要的一類“分子零件”。它的本質(zhì)是蛋白質(zhì)片段,科學(xué)家希望破解多肽的奧秘,借此創(chuàng)造全新的多肽功能分子,為人類所用。
3月14日,未來(lái)產(chǎn)業(yè)研究中心、西湖大學(xué)理學(xué)院王懷民實(shí)驗(yàn)室,聯(lián)合未來(lái)產(chǎn)業(yè)研究中心、西湖大學(xué)生命科學(xué)學(xué)院黃晶團(tuán)隊(duì),在《自然·材料》上發(fā)表最新一項(xiàng)科研成果——他們開(kāi)發(fā)了人工智能模型TransSAFP,首次實(shí)現(xiàn)對(duì)多肽分子自組裝行為及生物功能的精準(zhǔn)預(yù)測(cè),且效率可提升百億倍。
論文鏈接:
https://www.nature.com/articles/s41563-025-02164-3
有生命的樂(lè)高積木
多肽是一種由兩個(gè)或以上氨基酸組成的生物活性物質(zhì),兩個(gè)氨基酸連接成為二肽,三個(gè)氨基酸為三肽……簡(jiǎn)單理解,多肽是一種介于氨基酸和蛋白質(zhì)之間的存在。人的生長(zhǎng)發(fā)育、免疫調(diào)節(jié)、新陳代謝都與之息息相關(guān)。我們耳熟能詳?shù)?ldquo;胰島素”,就是人類最早使用的多肽類藥物。王懷民實(shí)驗(yàn)室,即以多肽為基礎(chǔ),開(kāi)發(fā)設(shè)計(jì)各種新型的生物功能材料。
而自組裝多肽,顧名思義,就像有生命的樂(lè)高積木,能夠自行完成組裝。事實(shí)上,自組裝是生命體中普遍存在的現(xiàn)象,正如細(xì)胞膜的形成、蛋白質(zhì)的折疊。他們本質(zhì)都是通過(guò)分子間的非共價(jià)作用(氫鍵、疏水、靜電作用等),形成聚合體的過(guò)程。
多肽在自組裝后形成的常見(jiàn)結(jié)構(gòu),包括納米纖維、囊泡或納米管等
這樣的特性,讓科學(xué)家設(shè)計(jì)不同形態(tài)、不同功能的多肽分子成為可能。以治療疾病為例:就像是向人體精準(zhǔn)空投彈藥,正常組織中,他們只是平平無(wú)奇的氨基酸鏈條,而到了特定的區(qū)域,它們被大量激活,并組裝成為能夠殺敵的武器。精準(zhǔn)制導(dǎo)不誤傷無(wú)辜細(xì)胞,也就不易引起毒副作用。
對(duì)了,多肽的自組裝往往還都是可逆的:完成使命后,多肽能分解代謝,回歸無(wú)生物毒性的天然氨基酸,事了拂衣去。
對(duì)王懷民實(shí)驗(yàn)室而言,多肽是一個(gè)泛用性極強(qiáng)的工具,實(shí)驗(yàn)室利用它探索癌癥、肺纖維化、糖尿病并發(fā)癥等各種疾病治療,以及調(diào)控細(xì)胞行為、監(jiān)測(cè)重要生命活動(dòng)……
此間種種,都是人類在自然的基礎(chǔ)之上,擺弄分子積木。就像用樂(lè)高,搭建一個(gè)人類不曾見(jiàn)過(guò)的城堡。
從“盲人摸象”到“上帝視角”
但是要從大自然的手中接過(guò)多肽設(shè)計(jì)的權(quán)杖,并非易事。和蛋白質(zhì)一樣,人類想要了解“多肽宇宙”的全貌都是一件難事。
前文提到,多肽由數(shù)個(gè)氨基酸構(gòu)成。世界上共有20種天然氨基酸,以不同方式排列組合后,四肽共有16萬(wàn)種可能,五肽有320萬(wàn)種可能。
此次實(shí)驗(yàn)室研究的八肽呢?200億種。
假設(shè)地球上存在一名苦哈哈的博士,他不知疲倦地平均每周合成并驗(yàn)證一條八肽,每次合成的結(jié)果還都不重復(fù)。那么他從四億年前的泥盆紀(jì)開(kāi)始工作,到現(xiàn)在差不多合完了。
過(guò)去數(shù)十年,人們對(duì)自組裝多肽的發(fā)現(xiàn),主要依靠實(shí)驗(yàn)??茖W(xué)家也積累了一些經(jīng)驗(yàn),但“手搓”更多還是依賴試錯(cuò)。像是盲人摸象,難言實(shí)現(xiàn)系統(tǒng)性的“設(shè)計(jì)優(yōu)化”。
近年來(lái),科學(xué)家開(kāi)始用AlphaFold預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),也用深度學(xué)習(xí)算法預(yù)測(cè)多肽。但王懷民介紹,現(xiàn)有AI模型還無(wú)法對(duì)多肽的自組裝行為和功能進(jìn)行精準(zhǔn)預(yù)測(cè)。換句話說(shuō),科學(xué)家能預(yù)測(cè)出一列多肽的形狀,但至于功能?還得回到實(shí)驗(yàn)室做更多驗(yàn)證。
所以實(shí)現(xiàn)對(duì)自組裝功能多肽(self-assembling functional peptides, SAFP)的精準(zhǔn)預(yù)測(cè),成為了這項(xiàng)課題的核心。
其實(shí)在2020年,王懷民就已經(jīng)產(chǎn)生了這一研究想法,但苦于人手不足,一直未能落地。彼時(shí)他剛從美國(guó)布蘭迪斯大學(xué)化學(xué)系加盟西湖大學(xué)。
時(shí)間來(lái)到2022年,此時(shí)實(shí)驗(yàn)室在多肽自組裝領(lǐng)域已經(jīng)有了一定積累:徐騰焱博士等進(jìn)行的自組裝多肽的設(shè)計(jì)和預(yù)測(cè)工作開(kāi)始投稿,博士生周子傲等做的抗菌研究工作也取得良好的實(shí)驗(yàn)結(jié)果。在既有基礎(chǔ)之上,劉華楊入組,開(kāi)始了自組裝多肽抗菌能力的預(yù)測(cè)研究。
劉華楊此前有抗菌分子組裝的研究經(jīng)驗(yàn),同時(shí)也對(duì)人工智能充滿興趣。他一邊合成并驗(yàn)證自組裝多肽,一邊通過(guò)深度學(xué)習(xí)算法,試圖教會(huì)AI人體的秘密。但隨著研究進(jìn)行,他們發(fā)現(xiàn)AI并不能完全實(shí)現(xiàn)自己想要的預(yù)測(cè)能力。“當(dāng)時(shí)研究已經(jīng)初步有了苗頭,感覺(jué)可以深入挖掘一下。王老師跟黃晶老師一商量,覺(jué)得這個(gè)模型還可以再做進(jìn)一步的提升。”
走在路上,遇到其他科研工作者,然后展開(kāi)一番交叉領(lǐng)域的討論,這是西湖大學(xué)校園常常發(fā)生的故事。西湖大學(xué)云棲校區(qū)的道路,當(dāng)時(shí)見(jiàn)證了王懷民與生命科學(xué)學(xué)院黃晶教授、工學(xué)院李文彬教授等,就多肽展開(kāi)的多番討論。
2022年12月,黃晶課題組宋子林博士加入這項(xiàng)研究。那個(gè)月,ChatGPT橫空出世,連普通人都能感受到AI襲來(lái)的風(fēng)壓。
兩個(gè)課題組討論并重新梳理了AI模型及具體策略,最終使用遷移學(xué)習(xí)的方式來(lái)訓(xùn)練AI:首先利用公開(kāi)的天然氨基酸抗菌肽數(shù)據(jù)庫(kù),預(yù)訓(xùn)練模型,而后將此前合成的400多條自組裝多肽,作為小樣本信息遷移到公開(kāi)數(shù)據(jù)庫(kù)中。為了進(jìn)一步增加樣本的復(fù)雜性,在合成時(shí)劉華楊還在20種天然氨基酸基礎(chǔ)上,添加了11種非天然氨基酸。
“公開(kāi)數(shù)據(jù)集的體量是六七萬(wàn)條,相比之下,我們標(biāo)注的數(shù)據(jù)大約只有千分之五。如果不做遷移學(xué)習(xí),我們的數(shù)據(jù)一旦混進(jìn)去,自組裝功能肽的數(shù)據(jù)分布信息會(huì)被大量的公開(kāi)數(shù)據(jù)稀釋掉。”劉華楊解釋道。
在數(shù)據(jù)準(zhǔn)備、架構(gòu)設(shè)計(jì)和模型訓(xùn)練各環(huán)節(jié)上的精益求精,獲得了最終的遷移學(xué)習(xí)預(yù)測(cè)模型,實(shí)驗(yàn)團(tuán)隊(duì)將模型命名為TransSAFP。
實(shí)驗(yàn)證明,TransSAFP的自組裝多肽功能預(yù)測(cè)準(zhǔn)確率高達(dá)86%。而后,團(tuán)隊(duì)讓TransSAFP把200億條八肽序列全庫(kù)篩了一遍,花費(fèi)四天時(shí)間。還記得那個(gè)花了四億年合成八肽的“博士”嗎?從這個(gè)角度說(shuō),AI幫助科學(xué)家的研究效率提高了百億倍。
TransSAFP篩選的自組裝抗菌多肽相比已知抗菌肽具有較低相似度
更值得一提的是,AI篩完全庫(kù)后發(fā)現(xiàn),此次預(yù)測(cè)結(jié)果與已知自組裝抗菌肽的序列相似度低于0.3。
0.3的含義這里不做過(guò)多的解釋。簡(jiǎn)單理解,AI輸出的這批具有抗菌能力的自組裝多肽,幾乎都是全新的,或者說(shuō),人類未曾發(fā)現(xiàn)過(guò)它們——這正是預(yù)測(cè)的意義。
研究團(tuán)隊(duì)還進(jìn)一步,從中選擇了體外效果最好的一條多肽,驗(yàn)證其在腸道感染小鼠模型上的表現(xiàn)。實(shí)驗(yàn)顯示,這條新多肽治療效果與抗生素類似;同時(shí),因?yàn)槭菣C(jī)械力破壞細(xì)菌膜,還不會(huì)像抗生素那樣讓細(xì)菌產(chǎn)生耐藥性。
TransSAFP篩選的p45分子靶向細(xì)菌膜并形成組裝體,導(dǎo)致細(xì)菌死亡
借助AI,人類對(duì)多肽的結(jié)構(gòu)預(yù)測(cè)能力,以及研究效率都得到了極大提升。研究者擁有了一個(gè)能夠俯瞰多肽的“上帝視角”。
改變研究范式
回到文章最初提到的“胰島素”,這是人類第一次使用多肽類藥物,始于1922年。時(shí)隔97年之后,一款糖尿病及肥胖癥的口服類多肽藥物——司美格魯肽獲批上市。研發(fā)人員對(duì)這條由31個(gè)氨基酸組成的多肽的關(guān)鍵部位進(jìn)行了修飾,讓其可以在體內(nèi)組裝成為納米結(jié)構(gòu),從而大大延長(zhǎng)了藥物在體內(nèi)的降解周期。2023年,司美格魯肽全球賣了超過(guò)200億美元。
隨著AI的到來(lái),多肽的研究范式正在發(fā)生變更,未來(lái)更多的“司美格魯肽”,或許將從TransSAFP這類AI模型中誕生。
TransSAFP模型結(jié)構(gòu)
王懷民表示,此次研究呈現(xiàn)的抗菌性多肽,只是實(shí)驗(yàn)團(tuán)隊(duì)提供的一個(gè)預(yù)測(cè)范例。未來(lái)科研人員若想要設(shè)計(jì)其他的功能多肽,例如抗擊癌癥或是其他疾病,只需要準(zhǔn)備相應(yīng)功能的小樣本數(shù)據(jù)集,AI即可進(jìn)行個(gè)性化的“定制”,“指哪打哪”。甚至于在醫(yī)學(xué)之外,定制化的多肽也能在化學(xué)催化等基礎(chǔ)科研領(lǐng)域擁有廣泛應(yīng)用前景。
這有點(diǎn)像是在過(guò)去,信息星星點(diǎn)點(diǎn)散落于互聯(lián)網(wǎng)各處,直到ChatGPT和DeepSeek等AI助手出現(xiàn),人們開(kāi)始擺脫以往費(fèi)盡心力的搜索和驗(yàn)證,于是,我們的生活習(xí)慣就此改變。
科學(xué)就是這樣一個(gè)步步向上的過(guò)程。這篇成果之外,王懷民實(shí)驗(yàn)室正在基于自組裝多肽做更多探索,并希望能夠做到個(gè)性化的免疫治療——分析患者的基因特征,AI可以創(chuàng)造更多的自組裝肽,實(shí)現(xiàn)真正意義上的精準(zhǔn)醫(yī)療,“我們正在教會(huì)AI感知人體、理解生命。”