Web挖掘中若干理論與算法的研究
Web挖掘技術(shù)屬于信息科學領(lǐng)域,涉及自然語言處理、模式識別、知識工程、機器學習和隨機過程等多個研究領(lǐng)域,并需要使用概率統(tǒng)計、矩陣理論以及其他軟計算方法作為研究工具和手段。本項目主要針對Web挖掘中的Web數(shù)據(jù)模型、文本分類和信息檢索等基本問題進行理論和算法上的研究,并就這些問題提出了潛在語義結(jié)構(gòu)模型、基于投影尋蹤的中文網(wǎng)頁分類算法和基于Markov網(wǎng)絡(luò)的信息檢索等模型。同時,在理論上對這些方法進行了深入的研究和探討,從理論上證明了其正確性。在實驗方面,我們將分類模型應(yīng)用于大規(guī)模的標準測試文檔集(REUTER-21578語料庫、復(fù)旦大學中文文本分類語料庫),進行了大量的實驗,結(jié)果表明這些方法均表現(xiàn)出了較好的性能,接近甚至優(yōu)于SVM和KNN的分類效果,并應(yīng)用檢索模型在標準測試文檔集(CACM、CISI、CRAN、MED)上進行了多次對比實驗,其性能與BM25相當在某些指標上甚至更優(yōu)。另外,課題組在北大天網(wǎng)測試文檔集上應(yīng)用上述模型,在近幾年的全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(SEWM)的中文WEB信息檢索評測中均取得了優(yōu)異的成績。
江西師范大學
2021-05-05