交互式大數(shù)據(jù)處理與分析技術(shù)
1.痛點(diǎn)問題
多年來,工業(yè)大數(shù)據(jù)領(lǐng)域大數(shù)據(jù)分析算法和模型都是基于大量代碼實(shí)現(xiàn),效率低,難以實(shí)現(xiàn)快速開發(fā)。同時(shí),工業(yè)大數(shù)據(jù)處理分析模型處理過程多由多個算法通過一定的計(jì)算流程構(gòu)成,計(jì)算流程復(fù)雜多變,迫切需要一款支持靈活定制和快速開發(fā)的處理分析技術(shù)來支持工業(yè)大數(shù)據(jù)處理分析。
2.解決方案
清華數(shù)為交互式大數(shù)據(jù)處理與分析技術(shù)針對工業(yè)大數(shù)據(jù)處理與分析任務(wù)的交互式探索、建模、調(diào)試和應(yīng)用而設(shè)計(jì)。根據(jù)CRISP-DM設(shè)計(jì)原則,一般大數(shù)據(jù)處理與分析分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估和部署等階段,各階段相輔相成,形成一個大數(shù)據(jù)處理分析生命周期。
圖1.交互式大數(shù)據(jù)處理與分析技術(shù)設(shè)計(jì)思想
本成果技術(shù)基于上述CRISP-DM的設(shè)計(jì)思想而設(shè)計(jì),完全支持大數(shù)據(jù)處理與分析生命周期。該技術(shù)的特點(diǎn)包括:
(1)內(nèi)置數(shù)百種通用和專用的大數(shù)據(jù)分析算法和模型,并提供了按需擴(kuò)展機(jī)制,用戶可以按照自己的需要隨時(shí)添加和擴(kuò)充,以支持客戶特定的大數(shù)據(jù)應(yīng)用需求;
(2)支持拖拽方式構(gòu)建處理與分析流程,完全圖形化設(shè)計(jì)大數(shù)據(jù)處理分析計(jì)算流程,并能在設(shè)計(jì)過程中進(jìn)行單步/多步運(yùn)行調(diào)試,查看中間結(jié)果,實(shí)時(shí)調(diào)整運(yùn)行結(jié)果,以獲得用戶期望的處理分析結(jié)果;
(3)支持機(jī)器學(xué)習(xí)模型訓(xùn)練及使用,內(nèi)置了機(jī)器學(xué)習(xí)模型訓(xùn)練框架,一般機(jī)器學(xué)習(xí)模型在該技術(shù)的支持下,可以實(shí)現(xiàn)快速訓(xùn)練,訓(xùn)練結(jié)果可支持進(jìn)一步的大數(shù)據(jù)處理與分析;
(4)支持?jǐn)?shù)據(jù)處理與分析流程參數(shù)化,在其提供的內(nèi)部數(shù)據(jù)處理與分析算法模板中,用戶通過算法模板可以開發(fā)面向Java、Python的算法,并集成和擴(kuò)展到該技術(shù)的算法集合,實(shí)現(xiàn)按需定制處理分析;
(5)支持?jǐn)?shù)據(jù)畫像和學(xué)習(xí)模型可視化,以圖形化的方式定制數(shù)據(jù)畫像的方法模型,并以二維和三維圖表的形式展示給用戶;
(6)支持批處理、流處理和流轉(zhuǎn)批處理三種處理方式;
(7)按需定制運(yùn)行計(jì)劃與資源有效利用,用戶可設(shè)置任務(wù)執(zhí)行計(jì)劃,任務(wù)執(zhí)行計(jì)劃定期運(yùn)行,以實(shí)現(xiàn)周期性處理分析,方便獲得持續(xù)的運(yùn)行結(jié)果。
清華數(shù)為交互式大數(shù)據(jù)處理與分析技術(shù)面向多種用戶角色,包括數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、算法工程師、運(yùn)維工程師、代碼工程師等。采用分層設(shè)計(jì),分為客戶層、服務(wù)層、計(jì)算層。
客戶層包括流程建模調(diào)試工具,用戶可用工具圖形化拖拽式設(shè)計(jì)處理與分析計(jì)算模型,并可進(jìn)行調(diào)試和查看中間結(jié)果;管理工具,針對服務(wù)層所調(diào)用和訪問的計(jì)算框架或者外部系統(tǒng)進(jìn)行管理,包括對于數(shù)據(jù)源、計(jì)算環(huán)境、存儲環(huán)境等的管理工具。
服務(wù)層主要包括流程調(diào)度服務(wù),即負(fù)責(zé)按照用戶所設(shè)定的工作計(jì)劃來定時(shí)調(diào)度執(zhí)行計(jì)算模型;執(zhí)行服務(wù),是負(fù)責(zé)執(zhí)行處理分析計(jì)算的模型和算法的服務(wù);計(jì)算資源管理服務(wù)負(fù)責(zé)管理執(zhí)行服務(wù)中所能集成的所有的服務(wù),如計(jì)算框架和存儲設(shè)施等。
計(jì)算層是執(zhí)行服務(wù)在執(zhí)行處理分析算法和模型中所訪問的外部服務(wù),包括計(jì)算組件或框架,以及持久化存儲組件或者系統(tǒng)等。
圖2.交互式大數(shù)據(jù)處理與分析技術(shù)架構(gòu)
本成果的交互式處理與分析技術(shù)較好地解決了工業(yè)大數(shù)據(jù)處理分析工作中所遇到的問題和痛點(diǎn),并且能夠廣泛應(yīng)用于多個行業(yè)和領(lǐng)域中,如能源、礦山、醫(yī)療器械、裝備制造業(yè)、消費(fèi)品制造業(yè)、工程機(jī)械行業(yè)等。
合作需求
期待與工業(yè)、醫(yī)療等領(lǐng)域企業(yè)緊密合作,獲得各領(lǐng)域的實(shí)際需求,促使該技術(shù)不斷完善和升級迭代,走向成熟。
未來將在工程機(jī)械行業(yè)、醫(yī)療機(jī)械行業(yè)、礦山行業(yè)、裝備制造行業(yè)、互聯(lián)網(wǎng)電商行業(yè)等尋求更多的成果轉(zhuǎn)化、深度合作機(jī)會,在合作基礎(chǔ)上,推動上述行業(yè)領(lǐng)域?qū)崿F(xiàn)數(shù)字化轉(zhuǎn)型和智能化升級,為國家實(shí)現(xiàn)“雙碳”目標(biāo)做出清華貢獻(xiàn)。
清華大學(xué)
2022-04-25