一種Web挖掘系統(tǒng)的構(gòu)造方法,其由中央處理器、存儲(chǔ)器組成的數(shù)字計(jì)算機(jī),所述的數(shù)字計(jì)算機(jī)與網(wǎng)絡(luò)聯(lián)接;所述的存儲(chǔ)器存儲(chǔ)有真實(shí)數(shù)據(jù)庫(kù)和基礎(chǔ)知識(shí)庫(kù),以及啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器;其通過(guò)特征抽取及特征變換,Web內(nèi)容挖掘過(guò)程,模型質(zhì)量評(píng)價(jià),信息呈現(xiàn)及信息導(dǎo)航,雙庫(kù)協(xié)同機(jī)制等步驟;在Web挖掘方面其使得知識(shí)庫(kù)能夠動(dòng)態(tài)的參與數(shù)據(jù)庫(kù)的發(fā)掘過(guò)程,用戶的先驗(yàn)知識(shí)及知識(shí)庫(kù)中的固有知識(shí)可以產(chǎn)生“定向發(fā)掘”,以提高認(rèn)知自主性和避免海量搜索的產(chǎn)生;在知識(shí)庫(kù)的維護(hù)方面:其可在數(shù)據(jù)發(fā)掘過(guò)程中實(shí)時(shí)地修改和維護(hù)知識(shí)庫(kù)中的內(nèi)容,包括重復(fù)與冗余性檢驗(yàn)、矛盾處理等。
◆項(xiàng)目的應(yīng)用范圍及經(jīng)濟(jì)效益分析
在該系統(tǒng)中采用了一類創(chuàng)新性的用于復(fù)雜類型數(shù)據(jù)挖掘的結(jié)構(gòu)模型——發(fā)現(xiàn)特征子空間模型 DFSSM,含蓋了常用的向量空間模型VSM。 該系統(tǒng)包含了 Web文本挖掘、客戶訪問(wèn)模式挖掘和智能搜索引擎。其中在Web文本分類和Web文本聚類等方面,采用了我們提出的新算法。國(guó)際著名無(wú)形資產(chǎn)評(píng)估機(jī)構(gòu)“香港國(guó)際無(wú)形資產(chǎn)評(píng)估事務(wù)所”品過(guò)此專利無(wú)形資產(chǎn)價(jià)值72萬(wàn)美元。
基于內(nèi)在機(jī)理的知識(shí)發(fā)現(xiàn)理論KDTIM是我們獨(dú)立提出的原創(chuàng)性理論,基于該理論我們?cè)O(shè)計(jì) 該 并實(shí)現(xiàn)了具 有自主知識(shí)產(chǎn)權(quán)的大型軟件系統(tǒng)——集成化組合構(gòu)件式知識(shí)發(fā)現(xiàn)軟件系統(tǒng) ICCKDSS,而 Web挖掘系統(tǒng)是其 三個(gè)核心 部分之一。該系統(tǒng)具有通用性強(qiáng)、性能良好、使用方便、人機(jī)界面友好等特點(diǎn),可以在不同的網(wǎng)絡(luò)平臺(tái)上進(jìn)行快速移植和推廣。一種 Web挖掘系統(tǒng)的構(gòu)造方法(已獲國(guó)家發(fā)明專利授權(quán),申請(qǐng)?zhí)枺?3104960.5),是在現(xiàn)有的Web挖掘技術(shù)的基礎(chǔ)上融入知識(shí)發(fā)現(xiàn)內(nèi)在機(jī)理之一:雙庫(kù)協(xié)同機(jī)制,即構(gòu)建數(shù)據(jù)庫(kù)(文本庫(kù)、日志庫(kù)與結(jié)構(gòu)信息庫(kù))與基礎(chǔ)知識(shí)庫(kù)的內(nèi)在聯(lián)系“通道”,使得知識(shí)庫(kù)能夠動(dòng)態(tài)的參與數(shù)據(jù)庫(kù)的發(fā)掘過(guò)程,用戶的先驗(yàn)知識(shí)及知識(shí)庫(kù)中的固有知識(shí)通過(guò)此機(jī)制可以產(chǎn)生“定向發(fā)掘”,以提高認(rèn)知自主性和避免海量搜索的產(chǎn)生;在知識(shí)庫(kù)的維護(hù)方面,通過(guò)雙庫(kù)協(xié)同機(jī)制可在數(shù)據(jù)發(fā)掘過(guò)程中實(shí)時(shí)地修改和維護(hù)知識(shí)庫(kù)中的內(nèi)容,包括重復(fù)與冗余性檢驗(yàn)、矛盾處理等。從而用基礎(chǔ)知識(shí)庫(kù)去制約與驅(qū)動(dòng) Web挖掘系統(tǒng)的整個(gè)挖掘流程,改變Web挖掘系統(tǒng)固有的運(yùn)行機(jī)制,在結(jié)構(gòu)與功能上形成了相對(duì)于 Web挖掘系統(tǒng)而言的一個(gè)開(kāi)放的、優(yōu)化的擴(kuò)體??傮w上講,將Web挖掘視為一個(gè)開(kāi)放系統(tǒng),在Web挖掘進(jìn)程與基礎(chǔ)知識(shí)庫(kù)的廣泛聯(lián)系中,改進(jìn)與優(yōu)化了Web挖掘的結(jié)構(gòu)、過(guò)程與運(yùn)行機(jī)制。
本系統(tǒng)已成功地應(yīng)用到現(xiàn)代遠(yuǎn)程教育網(wǎng)信息挖掘中,得到用戶好評(píng)并通過(guò)國(guó)家軟件評(píng)測(cè)中心的鑒定測(cè)評(píng)。它還可以廣泛地應(yīng)用到智能決策(預(yù)測(cè))支持系統(tǒng)、 CRM系統(tǒng)、ERP系統(tǒng)、門戶網(wǎng)站、電子商務(wù)和電子政務(wù)等領(lǐng)域中。該系統(tǒng)具有很大的應(yīng)用推廣價(jià)值和廣闊的市場(chǎng)前景。
掃碼關(guān)注,查看更多科技成果