1. 痛點問題
隨著人工智能技術(shù)的快速發(fā)展,特別是近年來深度學習算法和計算機軟硬件系統(tǒng)的進步,使得大規(guī)模預訓練模型成為可能。這類大模型能夠執(zhí)行更為復雜的任務,在文本、圖像、視頻的生成和理解方面展現(xiàn)出了前所未有的能力,并在多個領域展現(xiàn)出了巨大的應用潛力。然而,大模型的訓練和推理需要龐大的算力資源作為支撐,這對于我國人工智能領域的持續(xù)高質(zhì)量發(fā)展提出了新的挑戰(zhàn)。
當前,國產(chǎn)人工智能大模型的訓練和推理部署仍面臨著嚴峻的算力瓶頸。一方面,國產(chǎn)高性能計算平臺相較于國際先進水平仍存在一定差距,尤其是在芯片設計與制造領域,高端GPU等關鍵硬件設備的自主研發(fā)能力不足,導致國產(chǎn)算力難以滿足日益增長的大模型計算需求;另一方面,由于美國商務部的高端芯片出口禁令等國際貿(mào)易環(huán)境的不確定性,進一步加劇了國內(nèi)算力資源的短缺問題。在當前國內(nèi)外環(huán)境下,國內(nèi)大模型產(chǎn)業(yè)鏈面臨的部署成本高、國產(chǎn)芯片替代難、算力缺口大、解決方案不成熟等問題使得人工智能產(chǎn)業(yè)的持續(xù)高質(zhì)量發(fā)展受到了嚴重制約,不僅影響了前沿技術(shù)的研發(fā)進度,也限制了AI技術(shù)在各行各業(yè)中的廣泛應用。
2. 解決方案
本項目提出面向大模型的軟硬件協(xié)同優(yōu)化和高效部署技術(shù),利用模型、算法、系統(tǒng)與硬件的跨層協(xié)同優(yōu)化,實現(xiàn)面向異構(gòu)算力的大模型訓練和推理流程的全棧式優(yōu)化,具體包括:
1)模型層:提出面向大模型訓練的參數(shù)自動化搜索方法,構(gòu)建面向大語言模型的文本評測基準,實現(xiàn)大語言模型的高效微調(diào)訓練系統(tǒng),顯著提高大模型的預訓練和微調(diào)效率;
2)算法層:提出面向大模型的高效壓縮方法,通過稀疏注意力機制、混合精度量化和動態(tài)猜測解碼方法,降低大模型的計算量和顯存代價,在保證算法準確率的前提下提高系統(tǒng)吞吐性能;
3)系統(tǒng)層:提出面向異構(gòu)硬件的分布式任務動態(tài)發(fā)現(xiàn)方法,通過基于k8s容器的虛擬化系統(tǒng)實現(xiàn)多用戶的大模型分布式高效推理;
4)硬件層:提出面向大模型推理的高效FPGA硬件實現(xiàn)方案,通過指令動態(tài)壓縮、層歸一化協(xié)同計算、混合精度稀疏計算架構(gòu),實現(xiàn)高能效、高吞吐的大模型推理計算。
預期形成針對算法到芯片、芯片集群到模型、模型到應用的三階段“M×N”中間層,開發(fā)一系列大模型軟硬件協(xié)同的云-邊-端一體化解決方案。
圖1. 面向大模型的軟硬件協(xié)同優(yōu)化技術(shù),通過降低工作負載、提高峰值性能、提升資源利用率,可實現(xiàn)大模型訓推約20——80倍的性能和能效提升
2023年以來,以ChatGPT為代表的大模型的出現(xiàn)標志著一個嶄新時代的開啟,未來大模型應用將滲入千家萬戶,并助力全球生產(chǎn)力的躍遷。根據(jù)艾瑞咨詢的預測,預計到2028年,中國AIGC產(chǎn)業(yè)規(guī)模將達到7,202億元。
根據(jù)IDC、埃森哲、億歐、群智咨詢等眾多機構(gòu)的分析和預測,中國大模型軟硬件一體化優(yōu)化將具有千億元/年市場空間,智算云、一體機及端側(cè)芯片數(shù)百億元/年落地路徑已基本明晰。
本項目已形成“大模型的軟硬件協(xié)同優(yōu)化和高效部署技術(shù)”的初步科研成果,未來規(guī)劃在大模型算法創(chuàng)新、訓練/推理軟硬件協(xié)同優(yōu)化和大模型推理芯片等技術(shù)方向上繼續(xù)進行研究,并推動成果轉(zhuǎn)化。經(jīng)初步測算,至2027年,預計國內(nèi)大模型中間層每年市場規(guī)模近1,200億元,本項目具有良好的市場前景。
本項目成果專注于上游軟件和下游芯片硬件的中間層優(yōu)化適配工作,專注于構(gòu)建一個高效的軟硬件協(xié)同優(yōu)化適配系統(tǒng),在上游軟件和下游芯片硬件之間起到橋梁的作用。通過技術(shù)創(chuàng)新,本項目成果使模型訓練和推理速度提升1個數(shù)量級以上,在提升性能、降低成本、縮短開發(fā)周期等方面具有顯著優(yōu)勢,為AI產(chǎn)業(yè)提供了高效、兼容的解決方案,將在未來市場中發(fā)揮重要作用。
雖然目前國內(nèi)已涌現(xiàn)了大量大模型公司和相關硬件廠商,但從國內(nèi)外產(chǎn)業(yè)發(fā)展趨勢來看,目前暫無針對多種大模型和多種芯片的軟硬件部署平臺。各硬件廠商僅支持獨立適配大模型,導致單一模型適配幾乎很難在不同硬件平臺之間進行遷移,且特定模型在特定硬件上進行優(yōu)化適配仍然需要耗費大量的人力物力時間成本。此外,各個大模型公司要么僅限于研究某一細分領域的優(yōu)化技術(shù),要么沒有針對不同模型和芯片來做適配優(yōu)化,均無法打通硬件、模型算法層面。
掃碼關注,查看更多科技成果