DNA甲基化生物標志物挖掘近年來在疾病早期診斷、分子機制研究和風險預測等領域展現出巨大潛力。然而,定義潛在的因果關系是一項重大挑戰,尤其混雜因素(如測量噪聲和個體差異)的干擾導致現有方法生成的候選標志物可靠性不足,進而需要依賴昂貴且耗時的實驗驗證。這不僅限制了研究的廣泛開展,也阻礙了臨床應用的推進。
為此,上海交通大學生物醫學工程學院錢曉華課題組近日在《Nature Communications》期刊上發表文章Causality-driven Deep Regularization for Reliable DNA Methylation Biomarker Discovery,從因果關系角度排除噪聲干擾、識別潛在致病因素,為DNA甲基化生物標志物的可靠挖掘提供了全新的解決方案,有效解決了傳統方法在因果關系推斷中的局限性,顯著提升了生物標志物發現的準確性和可靠性。唐欣鷺、郭睿和莫湛鋒為該論文的共同第一作者,錢曉華老師是唯一通訊作者。
圖1 本研究的概述
a:DNA甲基化生物標志物挖掘的挑戰;b:所提出的因果驅動的深度正則化(CDReg)框架概述;c:綜合性能評估。
作者開發了一種因果驅動的深度正則化框架,整合因果思維、深度學習和生物學先驗知識,通過兩項關鍵創新解決甲基化標志物挖掘可靠性不足的難題。具體來說,1)提出空間關系正則化:利用共甲基化特性,鼓勵相鄰位點獲得相似權重,從而排除孤立噪聲位點,優先選擇聚集性位點簇。2)開發對比方案:受隨機對照試驗啟發,將同一主體的患病與正常樣本在嵌入空間中分開,放大疾病特異性位點的權重,確保所選標志物真正與疾病相關。
實驗結果表明,所提出的框架在模擬數據和大型公開數據(如肺腺癌、阿爾茨海默病和前列腺癌)中均表現出色,能夠有效識別具有強類間鑒別性和生物學相關性的生物標志物。此外,該框架可靈活處理多種數據類型(如微陣列和全基因組亞硫酸氫鹽測序數據),為研究人員提供了強大的工具支持。
研究團隊與本院古宏晨-徐宏教授團隊長期密切合作,專注于DNA甲基化癌癥早篩技術的研發,負責其中數據挖掘算法設計,打通了從生物標志物發現1,2到引物設計3和檢測技術4的全面流程。最具影響力的成果之一是結直腸癌早期篩查工具,已成功應用于萬人級別的大型前瞻性隊列研究,并在合肥社區篩查中成功檢測出多例早期癌癥和癌前病變,為及時干預和治療提供了寶貴的時間窗口。通過結合生物信息學、分子生物學和臨床專長的跨學科合作,團隊成功將計算發現轉化為實際應用,助力公共健康事業發展。未來,團隊計劃將成果擴展至更多疾病領域,推動早期檢測和精準醫療的普及,賦能健康中國建設。
研究組介紹
上海交通大學生物醫學工程學院錢曉華課題組(Medical Image and Health Informatics Lab,MIHI,https://mihi.sjtu.edu.cn)長期致力于重大疾病微小進展的前沿研究,圍繞腫瘤和運動障礙開發一系列微小特征挖掘與穩定分析算法,并將科研成果轉化為實際應用。除上述通過革新數據挖掘策略實現癌癥甲基化高效早篩之外,主要成果還包括:1)提出醫學動作視頻細分技術,開創利用動作視頻實現帕金森病智能評估的新體系;2)提出低對比度腫瘤影像泛化性表征技術,首創體檢級CT實現胰腺癌篩查與早診的基層可行新模式;3)提出復雜微小器官的影像穩定性分析技術,提供利用臨床級影像實現胰腺癌精準手術規劃的新范式。基于上述共性通用技術,成功構建了帕金森病視頻智能評估系統和胰腺癌“篩-診-療”全棧式智能生態,服務于廣大患者。