多維有序數據管理技術
01. 成果簡介 非結構化數據是沒有顯式數據結構約束的非關系型數據,包括時間序列、圖像、音視頻等,其管理與分析技術成為國際信息領域戰略競爭焦點。許多實際應用中,非結構化數據不僅總的體量大,而且數量也極為巨大。例如,我國氣象預報業務每天接收到的氣象數據文件達數億非結構化氣象小文件。此外,這些文件存在大量業務語義屬性,這些屬性形成了描述一個數據的多種維度。 針對海量非結構化數據的管理需求,清華大學軟件學院提出了多維文件空間模型,并基于此模型突破了一系列非結構化數據核心技術,包括:l 非結構化數據到多維空間模型的映射方法;l 多維文件空間模型的分布式物理實現方法;l 分布式存儲的副本控制方法。 該技術通過對非結構化數據的屬性維度進行分類,將非結構化數據建模成多維文件空間模型,并對文件集合上的各種操作進行定義。此外,通過細粒度計算磁盤IO代價、網絡代價、副本代價、CPU代價、數據分區代價,得到指定工作負載下的最優物理存儲實現,進而通過排隊論等方法對副本的一致性進行控制,實現滿足用戶SLA(服務等級保證)的柔性事務。 圖1. 基于多維文件空間的最優非結構化數據存儲方法示意圖 相比現有對象存儲等技術,該項技術可以實現更加靈活的數據訪問。同時,該項技術能夠建立多維文件空間到分布式物理存儲的最優映射機制,保證非結構化數據總訪問代價最小。相比于現有的分布式文件系統,該項技術可以確保使用少量內存管理數以億計的海量非結構化小文件,而現有多數分布式文件系統在遇到海量文件管理時往往會出現內存爆炸問題。02. 應用前景 本成果技術可廣泛用于各種類型尤其是多維度屬性的非結構化數據管理。目前已經被成功應用于中國氣象局和全國31個省或直轄市氣象局,以及石油、風電等多家工業企業。該項成果還入選了2016國家十二五科技創新成就展和2018首屆數字中國建設峰會,并作為貢獻之一獲得2018年教育部技術發明一等獎和中國氣象學會科技進步獎一等獎。03. 知識產權 本項成果已獲得發明專利授權13項。04. 團隊介紹 本成果團隊長期研究大數據管理與分析技術,包括分布式數據存儲與查詢、數據質量、深度學習與遷移學習、業務過程挖掘等方向。團隊課題負責人為王建民教授、博士生導師。團隊在本領域發表國際學術論文100余篇,申請專利100余項,授權專利60余項。相關成果獲2018年教育部技術發明一等獎、2018年氣象學會科技進步一等獎、2014年國家科技進步二等獎、2013年中國電子學會科技進步一等獎。05. 合作方式 技術許可 / 軟件服務。06. 聯系方式 郵箱:[email protected] 團隊電話:010-62786972;13051000520 團隊郵箱:[email protected]
清華大學
2021-04-13