成果描述:
多屬性文本自適應系 統主要實現對每個未 知屬性的通信實體進 行屬性標注的功能。 主要分為兩個過程, 即訓練過程和預測過 程。 在訓練過程中,系統 根據用戶提供的已經 具有屬性的數據集、 用戶選擇的分類算法 所對應的參數進行訓 練,得到訓練模型。 在預測過程中,系統 根據用戶選擇的訓練 模型對未知屬性的數 據集中的每個實體進 行屬性標注,并得到 標注過屬性的數據集 。(注:在訓練過程 中,用戶可以使用在 訓練數據集上進行交 叉驗證的方法獲得在 固定參數和分類算法 下模型對未知樣本預 測的性能的大致估計 。)
市場前景分析:
隨著互聯網的迅速發 展,Web頁面上的信 息量呈指數級急劇增 長,如何快速、準確 地從海量數據中抽取 出用戶真正需要的信 息已經成為互聯網對 科研工作者提出的嚴 峻挑戰。 屬性標注能夠將網頁 非結構化文本內容轉 化為結構化的屬性數 據,方便用戶查詢和 進一步分析使用;其 作為信息抽取的關鍵 一步,對提高信息抽 取的性能方面也具有 重要意義。
與同類成果相比的優勢分析:
包括訓練和預測兩個 過程,實現對不同數 據集的自適應性屬性 標注; 特征選擇功能,可以 在訓練模型時,選擇 出對區分數據類別更 有用的特征詞,這樣 ,可以降低實體所對 應屬性的維度,從而 ,減少占用的內容空 間,提高計算效率; 交叉驗證功能,幫助 我們在訓練階段,就 可以了解參數和算法 的選擇,對屬性標注 時準確性的影響; 生成報告功能,可以 在訓練階段的交叉驗 證結束后,產生一個 訓練階段的報告,幫 助用戶更好地記錄實 驗數據、參數、時間 和準確性等信息; 評估功能,比較模型 標注結果與樣本真實 標簽的一致性、差異 性,以評價一個模型 的好壞。
掃碼關注,查看更多科技成果