1.痛點問題
多年來,工業大數據領域大數據分析算法和模型都是基于大量代碼實現,效率低,難以實現快速開發。同時,工業大數據處理分析模型處理過程多由多個算法通過一定的計算流程構成,計算流程復雜多變,迫切需要一款支持靈活定制和快速開發的處理分析技術來支持工業大數據處理分析。
2.解決方案
清華數為交互式大數據處理與分析技術針對工業大數據處理與分析任務的交互式探索、建模、調試和應用而設計。根據CRISP-DM設計原則,一般大數據處理與分析分為業務理解、數據理解、數據準備、建模、評估和部署等階段,各階段相輔相成,形成一個大數據處理分析生命周期。
圖1.交互式大數據處理與分析技術設計思想
本成果技術基于上述CRISP-DM的設計思想而設計,完全支持大數據處理與分析生命周期。該技術的特點包括:
(1)內置數百種通用和專用的大數據分析算法和模型,并提供了按需擴展機制,用戶可以按照自己的需要隨時添加和擴充,以支持客戶特定的大數據應用需求;
(2)支持拖拽方式構建處理與分析流程,完全圖形化設計大數據處理分析計算流程,并能在設計過程中進行單步/多步運行調試,查看中間結果,實時調整運行結果,以獲得用戶期望的處理分析結果;
(3)支持機器學習模型訓練及使用,內置了機器學習模型訓練框架,一般機器學習模型在該技術的支持下,可以實現快速訓練,訓練結果可支持進一步的大數據處理與分析;
(4)支持數據處理與分析流程參數化,在其提供的內部數據處理與分析算法模板中,用戶通過算法模板可以開發面向Java、Python的算法,并集成和擴展到該技術的算法集合,實現按需定制處理分析;
(5)支持數據畫像和學習模型可視化,以圖形化的方式定制數據畫像的方法模型,并以二維和三維圖表的形式展示給用戶;
(6)支持批處理、流處理和流轉批處理三種處理方式;
(7)按需定制運行計劃與資源有效利用,用戶可設置任務執行計劃,任務執行計劃定期運行,以實現周期性處理分析,方便獲得持續的運行結果。
清華數為交互式大數據處理與分析技術面向多種用戶角色,包括數據工程師、數據分析師、數據科學家、算法工程師、運維工程師、代碼工程師等。采用分層設計,分為客戶層、服務層、計算層。
客戶層包括流程建模調試工具,用戶可用工具圖形化拖拽式設計處理與分析計算模型,并可進行調試和查看中間結果;管理工具,針對服務層所調用和訪問的計算框架或者外部系統進行管理,包括對于數據源、計算環境、存儲環境等的管理工具。
服務層主要包括流程調度服務,即負責按照用戶所設定的工作計劃來定時調度執行計算模型;執行服務,是負責執行處理分析計算的模型和算法的服務;計算資源管理服務負責管理執行服務中所能集成的所有的服務,如計算框架和存儲設施等。
計算層是執行服務在執行處理分析算法和模型中所訪問的外部服務,包括計算組件或框架,以及持久化存儲組件或者系統等。
圖2.交互式大數據處理與分析技術架構
本成果的交互式處理與分析技術較好地解決了工業大數據處理分析工作中所遇到的問題和痛點,并且能夠廣泛應用于多個行業和領域中,如能源、礦山、醫療器械、裝備制造業、消費品制造業、工程機械行業等。
合作需求
期待與工業、醫療等領域企業緊密合作,獲得各領域的實際需求,促使該技術不斷完善和升級迭代,走向成熟。
未來將在工程機械行業、醫療機械行業、礦山行業、裝備制造行業、互聯網電商行業等尋求更多的成果轉化、深度合作機會,在合作基礎上,推動上述行業領域實現數字化轉型和智能化升級,為國家實現“雙碳”目標做出清華貢獻。
該項技術將在上述行業進行推廣落地,通過作為大數據處理分析平臺的核心技術積累行業實踐經驗,逐步走向成熟,實現技術產品化,期待為中國大數據產業做出更大的貢獻。
與同類技術相比,應用本成果技術到數據分析領域,使得工業大數據分析預測應用服務具有操作簡單,易用,用戶學習門檻低,準確度高,能夠良好地支持多個領域分析需求等特點。
該項技術應用到裝備制造業、工程機械、醫療器械等領域后,支持構建通用的大數據處理和分析平臺,對于推動形成數據分析平臺的核心技術,實現企業數字化轉型和智能化升級都有極大促進作用,基于該技術設計開發的軟件產品在多個行業具有巨大的推廣價值,該項技術具有很好的市場應用前景。
掃碼關注,查看更多科技成果