(一)項目背景 針對現實場景中,存在需要對服務行業錄音文件內容進行詳細分析, 但是面對海量錄音文件無法僅通過人力資源去逐一分析的弊端,本項目旨 在通過實際應用場景結合計算機和人工智能技術開發一個人工智能 NLP 引 擎,用以解決海量錄音文件經過 ASR 轉文本后,對錄音內容進一步按需分 析,最終得到較為完整的分析結果,以便于企業進一步采取商業策略。 (二)項目簡介 人工智能 NLP 引擎項目是基于多語種分詞、多語種情緒識別、詞句關 系分析、意圖識別、文本聚類等自然語言處理技術實現對海量錄音文本的 知識挖掘,識別重要信息。為錄音服務行業下游業務的分析人員提供分析 思路,以便得到多維度、多形式分析結果,將發現轉換為可落地的業務決策,這些數據驅動的業務決策,包括客戶體驗、座席行為、產品改進、風 險監測等多個方面,幫助企業改善用戶體驗、降低成本、提升效率、提升 業績、降低風險等。 (三)關鍵技術 1.多語種分詞。分詞指的是將一個字序列切分成一個一個單獨的詞,是 將連續的字序列按照一定的規范重新組合成詞序列的過程。文本在入庫時 調用接口進行了分詞,分詞可用于模型的匹配和熱詞的統計。 2.詞句關系分析。根據詞句關系接口識別的中心詞,然后用中心詞進行 詞頻的統計,對于目標樣本,統計出高頻中心詞用來概括目標樣本中主要 描述的對話內容。 3.意圖識別。識別出客戶語句的意圖,以便進行相應的功能操作、信息 推薦等。 4.多語種情緒識別。情緒識別是對包含主觀信息的文本進行情感傾向性 判斷,正向或者負向(如果能提供訓練數據集,可以識別更多種類的情緒)。為客戶之聲下游任務的口碑分析、話題監控、輿情分析等應用提供幫助。目前支持中文、粵語的情緒識別。根據情緒標識,用情緒進行搜索和統計 分析。 5.文本聚類。文本聚類將一大段文本中心詞和中心詞的關聯詞、近義詞 生成一個圖,用于可視化文本的內容。 6.自定義分詞、意圖。對分詞分詞、意圖種類進行增刪、擴展、微調等。