基于真實世界臨床數(shù)據(jù)的科學研究與中藥新藥發(fā)現(xiàn)平臺 ——中醫(yī)臨床數(shù)據(jù)倉庫平臺及挖掘分析方法
在醫(yī)學領域首次應用商務智能軟件(Business Objects XI)作為中醫(yī)臨床數(shù)據(jù)倉庫OLAP分析的軟件基礎。開發(fā)實現(xiàn)了基于細節(jié)數(shù)據(jù)模型、多維數(shù)據(jù)模型和海量臨床診療數(shù)據(jù)的探索性分析、展示系統(tǒng),分析展示的內容包括名老中醫(yī)經(jīng)驗傳承、重大疾病的病證及臨床表現(xiàn)要素關系等的主題分析集。可從數(shù)據(jù)概況、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫(yī)和重大疾病臨床數(shù)據(jù)進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫(yī)某經(jīng)典處方的臨床應用證候分布情況)。 本實驗室與中國中醫(yī)科學院合作進行中醫(yī)臨床數(shù)據(jù)倉庫與挖掘分析平臺,以及中醫(yī)臨床數(shù)據(jù)挖掘方法的研究,實現(xiàn)了對中醫(yī)臨床采集病歷數(shù)數(shù)據(jù)的集成與整合,數(shù)據(jù)挖掘與分析的中醫(yī)臨床數(shù)據(jù)倉庫及挖掘分析平臺,該平臺旨在支持從真實世界中醫(yī)臨床診療中產生海量科研分析用數(shù)據(jù),并以真實、高質量的數(shù)據(jù)為基礎進行中醫(yī)臨床與理論研究,為中醫(yī)臨床療效評價、臨床中藥新藥創(chuàng)制提供客觀的醫(yī)學證據(jù)和適宜的數(shù)據(jù)分析方法。該成果于2009年12月獲得國家科技進步二等獎。 名老中醫(yī)OLAP展示例子 1.2多維分析與復雜網(wǎng)絡分析系統(tǒng) 以中醫(yī)臨床數(shù)據(jù)中癥-證-治的復雜關系和復雜網(wǎng)絡分析方法研究為出發(fā)點,開發(fā)實現(xiàn)了中醫(yī)臨床復雜網(wǎng)絡分析系統(tǒng)。該系統(tǒng)包括如聯(lián)機數(shù)據(jù)篩選、復雜網(wǎng)絡建模、統(tǒng)計特性分析、可視化網(wǎng)絡數(shù)據(jù)篩選等基本功能,能夠支持中醫(yī)臨床診療數(shù)據(jù)中的疾病(中西醫(yī))、癥狀、證候、藥物等實體內部元素以及實體之間元素的網(wǎng)絡模型構建和多種復雜網(wǎng)絡分析方法如節(jié)點中心性分析、社團分析、節(jié)點相似度分析等。從大量的臨床數(shù)據(jù)中分析獲得臨床核心處方及其主要適應癥,以及隨癥加減信息。該系統(tǒng)采用Eclipse 富客戶端(Rich Client Platform, RCP)和Java語言開發(fā)(下圖是該系統(tǒng)的主界面)。 在醫(yī)學領域首次應用商務智能軟件(Business Objects XI)作為中醫(yī)臨床數(shù)據(jù)倉庫OLAP分析的軟件基礎。開發(fā)實現(xiàn)了基于細節(jié)數(shù)據(jù)模型、多維數(shù)據(jù)模型和海量臨床診療數(shù)據(jù)的探索性分析、展示系統(tǒng),分析展示的內容包括名老中醫(yī)經(jīng)驗傳承、重大疾病的病證及臨床表現(xiàn)要素關系等的主題分析集。可從數(shù)據(jù)概況、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫(yī)和重大疾病臨床數(shù)據(jù)進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫(yī)某經(jīng)典處方的臨床應用證候分布情況)。 獲獎證書 1.中醫(yī)臨床數(shù)據(jù)倉庫與挖掘分析平臺 通過分析中醫(yī)臨床數(shù)據(jù)元素及其多維、多層次的關系特點,研究設計了中醫(yī)臨床參考信息模型,以及為基礎構建中醫(yī)臨床數(shù)據(jù)倉庫細節(jié)數(shù)據(jù)模型和多維數(shù)據(jù)模型,建立以數(shù)據(jù)倉庫為核心的數(shù)據(jù)整合、數(shù)據(jù)抽取/轉換/轉載和數(shù)據(jù)整理、數(shù)據(jù)挖掘、OLAP和統(tǒng)計分析的智能信息處理平臺。該平臺以中醫(yī)臨床數(shù)據(jù)倉庫及其運行環(huán)境工具的構建為基礎,基于實際的臨床診療數(shù)據(jù),實現(xiàn)對中醫(yī)診療數(shù)據(jù)進行多主題、多粒度、多需求、高效、快捷的展示、研究和查詢檢索,并支持基于Web的OLAP主題應用,為名老中醫(yī)經(jīng)驗繼承研究、中醫(yī)臨床評價研究和臨床科研提供實際的診療數(shù)據(jù)證據(jù)和知識來源,以支持臨床科研決策分析,滿足中醫(yī)臨床評價研究的探索性分析需求。針對中醫(yī)臨床數(shù)據(jù)的特點,研究體現(xiàn)中醫(yī)臨床數(shù)據(jù)模型特點的數(shù)據(jù)挖掘新方法,為面向中醫(yī)臨床研究的數(shù)據(jù)挖掘和機器學習方法研究提供新的思路和研究方向。該平臺的構建初期以重大慢性疾病:中風、冠心病和糖尿病診治規(guī)律,以及名老中醫(yī)經(jīng)驗傳承研究為支持目標。 中醫(yī)臨床數(shù)據(jù)倉庫平臺 1.1中醫(yī)臨床數(shù)據(jù)預處理技術臨床數(shù)據(jù)的預處理包括數(shù)據(jù)整合、數(shù)據(jù)整理和數(shù)據(jù)轉換等技術,我們面向中醫(yī)臨床數(shù)據(jù)結構內容以及中醫(yī)臨床研究的分析需求,實現(xiàn)具有完善的數(shù)據(jù)抽取-轉換-裝載(Extraction-transforming-loading,ETL)、數(shù)據(jù)整理和數(shù)據(jù)轉換導出功能的數(shù)據(jù)前處理軟件。該軟件針對醫(yī)學數(shù)據(jù)利用中的分布式(多采集點)采集、患者隱私保護和大規(guī)模數(shù)據(jù)處理的特點,采用靈活的數(shù)據(jù)映射配置和臨床術語庫銜接等方式把各采集點數(shù)據(jù)導入到臨床數(shù)據(jù)倉庫中,并支持批量數(shù)據(jù)核查和數(shù)據(jù)規(guī)范整理(對臨床數(shù)據(jù)中的術語性數(shù)據(jù)如癥狀體征、診斷和藥物等進行概念化語義規(guī)范)功能。 在醫(yī)學領域首次應用商務智能軟件(Business Objects XI)作為中醫(yī)臨床數(shù)據(jù)倉庫OLAP分析的軟件基礎。開發(fā)實現(xiàn)了基于細節(jié)數(shù)據(jù)模型、多維數(shù)據(jù)模型和海量臨床診療數(shù)據(jù)的探索性分析、展示系統(tǒng),分析展示的內容包括名老中醫(yī)經(jīng)驗傳承、重大疾病的病證及臨床表現(xiàn)要素關系等的主題分析集。可從數(shù)據(jù)概況、方劑、藥物、疾病、癥狀、治法和證候等方面分別對名老中醫(yī)和重大疾病臨床數(shù)據(jù)進行多種關系知識的探索性分析。同時,對分析結果可進行實時查詢、導出和展示(下圖是一位名老中醫(yī)某經(jīng)典處方的臨床應用證候分布情況)。 名老中醫(yī)OLAP展示例子 以中醫(yī)臨床數(shù)據(jù)中癥-證-治的復雜關系和復雜網(wǎng)絡分析方法研究為出發(fā)點,開發(fā)實現(xiàn)了中醫(yī)臨床復雜網(wǎng)絡分析系統(tǒng)。該系統(tǒng)包括如聯(lián)機數(shù)據(jù)篩選、復雜網(wǎng)絡建模、統(tǒng)計特性分析、可視化網(wǎng)絡數(shù)據(jù)篩選等基本功能,能夠支持中醫(yī)臨床診療數(shù)據(jù)中的疾病(中西醫(yī))、癥狀、證候、藥物等實體內部元素以及實體之間元素的網(wǎng)絡模型構建和多種復雜網(wǎng)絡分析方法如節(jié)點中心性分析、社團分析、節(jié)點相似度分析等。從大量的臨床數(shù)據(jù)中分析獲得臨床核心處方及其主要適應癥,以及隨癥加減信息。該系統(tǒng)采用Eclipse 富客戶端(Rich Client Platform, RCP)和Java語言開發(fā)(下圖是該系統(tǒng)的主界面)。 中醫(yī)臨床復雜網(wǎng)絡分析系統(tǒng) 1.3 真實世界中醫(yī)臨床有效處方發(fā)現(xiàn)系統(tǒng) 中藥新藥創(chuàng)制與研發(fā)是極具挑戰(zhàn)和機遇的領域,當前化學制藥和單成份藥物研發(fā)已經(jīng)出現(xiàn)明顯的瓶頸,傳統(tǒng)植物/天然藥以及多成份復方藥物的研發(fā)成為國內外關注的焦點。而從多成份調控和多靶點機理的研究為主要視角的網(wǎng)絡藥理學更成為新的趨勢和方法。針對中醫(yī)臨床診療過程中具有證-治-效信息,且個體性的真實世界診療實踐特點,我們研究基于大規(guī)模臨床診療數(shù)據(jù)進行有效處方分析和發(fā)現(xiàn)的問題,通過對以中藥復方為重點的治療手段藥物組成原理的分析,基于復雜網(wǎng)絡模型和方法研制形成了有效核心處方及適應癥分析方法、有效臨床中藥篩選與發(fā)現(xiàn)系統(tǒng),對基于真實世界臨床診療數(shù)據(jù)分析獲得有效處方知識的方法、技術平臺和示范應用進行了探索和初步實踐,初步表明從真實世界臨床診療數(shù)據(jù)中發(fā)現(xiàn)和挖掘有效方藥是一種可行的途徑,有望為中醫(yī)新藥創(chuàng)制提供可以驗證的新處方、新藥物等臨床有效目標藥物。 1. 中醫(yī)臨床數(shù)據(jù)挖掘分析方法 海量觀察型臨床數(shù)據(jù)是中醫(yī)辨證論治數(shù)據(jù)的主體內容,具有復雜、多維和多關系的特點。從大規(guī)模中醫(yī)臨床觀察數(shù)據(jù)中分析提煉形成有意義的臨床假設或診療知識如有效處方、人群劃分、藥癥關系以及多階段優(yōu)化治療方案等,是實現(xiàn)從復雜、系統(tǒng)的中醫(yī)辨證論治過程中發(fā)現(xiàn)并確認有效優(yōu)化的臨床診療處方及其藥物組成的基本方法。中醫(yī)臨床數(shù)據(jù)包括門診數(shù)據(jù)和住院數(shù)據(jù)兩大主要部分,其數(shù)據(jù)內容由臨床表現(xiàn)、診斷和治療(臨床療法)三部分核心內容(如下圖),其中辨證知識、證候分布、藥癥關系、方證關系和藥物組成等是數(shù)據(jù)挖掘和分析的主要目標,而所有這些知識的有效性的評價依據(jù)是臨床療效,即確認和發(fā)現(xiàn)臨床有效的中醫(yī)診療知識是中醫(yī)臨床數(shù)據(jù)挖掘分析方法的主要有價值研究目標。 中醫(yī)臨床數(shù)據(jù)挖掘問題:在療效信息的約束下,驗證和發(fā)現(xiàn)有價值的臨床診斷/治療關系知識。 2.1基于復雜網(wǎng)絡的中藥配伍分析方法 人們通過對中醫(yī)臨床處方數(shù)據(jù)的初期分析,并與臨床專家的交流中發(fā)現(xiàn),名老中醫(yī)的臨床復方的組織特性體現(xiàn)在兩個層次。第一層次為臨床醫(yī)生一般以經(jīng)典復方(包括經(jīng)方、時方和驗方等)為基礎進行臨床處方;第二層次為在藥對或藥癥關系基礎上的藥物隨癥加減處理。這兩個層次的臨床處方配伍過程形成了具有核心處方結構,而又具有較大靈活性的處方集合。因此,通過對名老中醫(yī)處方集的共性網(wǎng)絡結構分析,能夠發(fā)現(xiàn)體現(xiàn)其處方思維和學術特點的核心處方配伍結構,從而輔助進行名老中醫(yī)經(jīng)驗的傳承和整理研究。通過應用基于無尺度網(wǎng)絡現(xiàn)象的網(wǎng)絡分析方法進行研究。無尺度網(wǎng)絡作為復雜系統(tǒng)研究的一種實證現(xiàn)象和方法,對基于網(wǎng)絡研究復雜現(xiàn)象和復雜系統(tǒng)的方法具有很大的推動作用。具有宏觀無尺度現(xiàn)象的網(wǎng)絡在拓撲上存在冪律現(xiàn)象,即節(jié)點的度分布服從冪函數(shù)分布。這在醫(yī)生處方中的具體體現(xiàn)就是某醫(yī)生對藥物的使用具有比較集中的趨勢,某些名老中醫(yī)偏好使用某些藥物,使得這些藥物的已有或潛在功效得到更大的發(fā)揮或挖掘。 我們基于網(wǎng)絡中權值的冪律分布規(guī)律,實現(xiàn)了多層核心子網(wǎng)分析方法,能夠從復雜的中藥配伍網(wǎng)絡中抽取多層核心子網(wǎng)。該算法已經(jīng)在名老中醫(yī)處方配伍經(jīng)驗的分析中得到廣泛應用。其得到的結果具有直接而明確的臨床含義,且可靠性較強。第一層核心子藥物子網(wǎng)一般解釋為共性的核心處方;第二層解釋為主要藥物配伍;第三層解釋為次要藥物配伍。這些藥物配伍分別對應樣本的核心病機如主要疾病和主要證候等、兼證和加減癥狀等。以下是兩類特定中藥處方:1287個肝脾不調證(GPBT)處方和752個2型糖尿病合并代謝綜合征處方的分析結果。 特定中藥處方的核心藥物配伍網(wǎng)絡和主要加減網(wǎng)絡,其中的網(wǎng)絡中的節(jié)點是藥物,邊的權重表示兩相關藥物配伍使用的次數(shù)。 2.2基于隱主題模型的疾病人群臨床特征類別分析方法 癥狀-中藥-診斷主題模型(Symptom-Herb-Diagnosis Topic model,SHDT), 用來提取中醫(yī)臨床數(shù)據(jù)中的癥狀、中藥和診斷間的隱主題結構。SHDT模型是LDA主題模型在多關系應用中的擴展。該模型的核心思想是假設一類樣本里面包含有多個主題,例如,一類糖尿病人群有不同的并發(fā)癥,且這些主題所包含的信息特征(以癥狀來表達)具有相對完整性和獨立性。SHDT把每個主題看作是癥狀上的多項式分布,并通過癥狀來表達主題的內容;同時,把每種中藥看作是主題上的多項式分布,因為一類中藥可以治愈多種癥狀/疾病;又因為一種診斷包含多種癥狀/疾病,于是把診斷看作是對主題的描述,構建一種“癥狀-中藥-診斷”主題模型。SHDT模型這種分析原理和思路與中醫(yī)辨證論治過程基本吻合,它可以客觀地按照癥狀找到自然分類人群,給出診斷描述特征和中藥治療特征。SHDT模型分別在2型糖尿病、冠心病和肝炎等慢性疾病中進行人群特征分析。實驗結果說明了該模型具有較好的適宜性和科學性,分析結果能夠較為完整的反映特定疾病中相關的主要人群特征類別。 癥狀-中藥-診斷主題模型,圖中三個黑色圓圈,代表顯變量(觀察變量),其中s 表示一個采樣癥狀,表示患者p的所有藥,表示患者p的所有診斷。白色圓圈代表隱變量,其中z 采樣癥狀s對應的主題,x表示s對應的藥,u表示s對應的診斷。矩形框表示重復采樣。外部矩形框表示在集合中有P個患者。內部矩形框表示對患者p的個癥狀、主題、藥物以及診斷重復采樣。 2.3基于內隱對照和部分可觀察馬爾可夫決策過程模型的動態(tài)序貫處方治療方案優(yōu)化方法 中醫(yī)辨證論治是癥-治-效緊密相關的個體、動態(tài)的復雜干預過程,動態(tài)序貫干預是中醫(yī)臨床治療慢性疾病的基本方法。以患者為軸心的治療原則和醫(yī)生的個體性特點,使得中醫(yī)動態(tài)序貫干預過程中包含多樣化的治療方案。在臨床診療經(jīng)驗知識的形成階段,醫(yī)生往往通過對治療前后患者健康狀態(tài)的判斷,試圖獲得較好的治療方案的認識,進而逐步形成固化的有效經(jīng)驗性治療方案。因此,在無外部對照的情況下,如何從大規(guī)模的復雜多維臨床關系數(shù)據(jù)中發(fā)現(xiàn)并確認在臨床實際中較優(yōu)的動態(tài)序貫診療方案是有效臨床方案形成的重要課題。 考慮到實際可行性和研究代價的問題,在未有明確的有效干預方案形成的臨床研究初期,無外部對照的傳統(tǒng)中醫(yī)經(jīng)驗整理和歸納普遍存在,且長期的中醫(yī)學實踐表明是有效的。但由于臨床診療信息關系的復雜性,基于傳統(tǒng)經(jīng)驗整理方式形成有效治療方案是一個較為漫長的過程。 因此,如何借助源自真實世界(無外部對照)的大規(guī)模臨床觀察數(shù)據(jù),進行挖掘分析,以輔助發(fā)現(xiàn)和確認較優(yōu)的臨床治療方案成為辨證論治臨床評價研究的關鍵問題之一。我們采用部分可觀察馬爾可夫決策過程模型(POMDP)對此問題進行研究,實現(xiàn)了基于POMDP的中醫(yī)臨床處方優(yōu)化分析方法,以探尋從來自臨床實際的大規(guī)模觀察性臨床數(shù)據(jù)中發(fā)現(xiàn)較優(yōu)或最優(yōu)的動態(tài)序貫治療方案,為中醫(yī)辨證論治有效動態(tài)干預方案的形成和臨床驗證提供參考知識。 中醫(yī)臨床診療過程對應的POMDP模型 1. 成果的推廣應用 本成果已經(jīng)在國家科技重大專項:重大傳染病防治、重大新藥創(chuàng)制等兩個項目;國家科技支撐計劃項目-名老中醫(yī)經(jīng)驗傳承研究;北京市科技攻關項目和國家中醫(yī)臨床研究基地等項目中進行推廣應用。分別對艾滋病、肝炎和肺結核等傳染病的中醫(yī)藥防治規(guī)律,從中醫(yī)臨床中分析確認有效處方與藥物,名老中醫(yī)的辨證論治個體診療經(jīng)驗,中風、冠心病和糖尿病等重大慢性疾病的臨床診治規(guī)律,以及全國10余家重點中醫(yī)院診療優(yōu)勢病種(如上海龍華醫(yī)院的中醫(yī)胃癌治療、骨關節(jié)病治療;河南中醫(yī)學院一附院的中醫(yī)艾滋病治療、中醫(yī)慢性阻塞性肺炎治療等)的臨床診療優(yōu)化方案等進行應用研究。逐步探索和完善中醫(yī)臨床科研一體化技術體系,支持基于臨床診療實踐及其真實世界診療數(shù)據(jù),進行中醫(yī)臨床研究和中藥新藥創(chuàng)制研究的醫(yī)學模式。 北京地區(qū)22家單位應用分布圖
北京交通大學
2021-04-13