本發明公開了一種基于壓縮感知理論的文本數據流抽樣方法,包括步驟 1)將文本數據流分割成固 定大小的文本片段并通過向量空間模型表示成矩陣;2)使用壓縮感知理論對文本數據流進行空間降維 抽樣;3)計算降維后每個文本的信息熵;4)基于文本的信息熵通過對數傾斜時間(LTT)模型得到抽 樣文本。本發明面向互聯網海量的、不斷增加的文本流,通過更少的存儲消耗來實現更快的文本流抽樣 和存儲,在大大降低抽樣文本流規模的情況下,能夠以全局視角獲得整個文本流中最有價