現代互聯網、通信和信息科技應用涉及海量異構數據,有效管理和使用數據需要對其進行組織優化和 預處理。索引是重要的預處理方法,以其為基礎可提供高效的數據搜索功能。常用的開源搜索引擎Lucene第一部分 電子與信息領域技術成果采用屬于關鍵字索引的分詞倒排技術,可滿足自然語言數據搜索的需求,但是對詞較多或者無法分詞的異 構數據,比如信號、日志、代碼和基因等,需要使用SA(suffix array,后綴數組)索引,在技術原理和應 用范圍上均區別于關鍵字索引。