一種基于結(jié)構(gòu)和內(nèi)容二級(jí)過濾的 Web 數(shù)據(jù)相似性檢測(cè)方法
本發(fā)明公開了一種基于結(jié)構(gòu)和內(nèi)容二級(jí)過濾的 Web 數(shù)據(jù)相似性檢測(cè)方法,在傳統(tǒng)的通用相似性檢測(cè) 方法的基礎(chǔ)上,發(fā)掘出 Web 數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分布的特點(diǎn),對(duì)檢測(cè)的文檔集進(jìn)行兩級(jí)過濾;兩級(jí)過濾中的 第一級(jí)過濾是結(jié)構(gòu)相似性過濾,對(duì)每個(gè)Web文檔建模為Tag樹結(jié)構(gòu),從而剔除在結(jié)構(gòu)上不相似的文檔集, 并對(duì)剩余的文檔進(jìn)行關(guān)鍵內(nèi)容抽取,將其表示成元組向量的形式,將關(guān)鍵信息連接起來生成字符串集; 兩級(jí)過濾中的第二級(jí)過濾則對(duì)第一級(jí)過濾后生成的字符串集進(jìn)行 Trie
武漢大學(xué)
2021-04-14