基于概念信息語義相似度的智能問答系統
文本語義相似度是指兩個句子或文本片段之間的語義等價程度,其研究在自然語言處理的問答系統、機器翻譯、信息抽取、自動摘要等相關領域中有著廣泛的應用,具有重要的理論意義和應用價值。現有的文本語義相似度方法主要基于詞表面特征,但由于詞語間普遍存在概念上的關聯,缺乏概念層面的精確計算導致這些方法的準確性提升困難,而實現全文本在概念層面的精確計算尚無有效模型。
項目團隊依據單個名詞的概念信息量為基礎,分別提出了多種模型和方法實現文本在概念級別快速、精確地計算語義相似度:(1)提出一種基于概念信息量的文本語義相似度無監督基本模型;(2)提出一種基于概念信息增益的文本信息量計算方法;(3)提出一種融合信息權重的全文本信息量計算方法。實驗結果表明,團隊提出方法在SemEval 2013-2016 STS(文本語義相似度)數據集上均超過了當年最先進系統的總成績,并且在SemEval 2017 STS國際測評中,本系統的總成績在所有參賽團隊中排名第二,其中在Track 1數據集上排名第一(共34個參賽團隊提交81個系統)。相關論文被大會評選為“Best of SemEval 2017”。
北京理工大學
2022-06-10