加拿大滑鐵盧大學(xué)研發(fā)出一種名為SubTrack++的全新訓(xùn)練方法,不僅可大幅縮短大語(yǔ)言模型的預(yù)訓(xùn)練時(shí)間,更能顯著提升其準(zhǔn)確性。這一突破有望降低構(gòu)建人工智能(AI)工具的成本與環(huán)境負(fù)擔(dān),讓更多人用上強(qiáng)大、便捷的AI技術(shù)。
大語(yǔ)言模型是基于深度神經(jīng)網(wǎng)絡(luò)、專(zhuān)注于理解與生成人類(lèi)自然語(yǔ)言的AI系統(tǒng)。其核心能力源于海量文本數(shù)據(jù)的預(yù)訓(xùn)練,借此學(xué)習(xí)語(yǔ)法規(guī)律、語(yǔ)義邏輯及上下文關(guān)聯(lián),從而輸出貼近人類(lèi)表達(dá)習(xí)慣的內(nèi)容。這類(lèi)模型的“大”體現(xiàn)在兩方面:一是訓(xùn)練數(shù)據(jù)規(guī)模巨大,二是模型參數(shù)量極為龐大。正因如此,對(duì)其進(jìn)行預(yù)訓(xùn)練往往需要數(shù)月時(shí)間,并消耗大量算力、專(zhuān)用硬件及電力,高昂成本使一般企業(yè)與機(jī)構(gòu)難以承擔(dān)。
為破解這一難題,團(tuán)隊(duì)開(kāi)發(fā)出SubTrack++方法,可將預(yù)訓(xùn)練耗時(shí)縮減一半。團(tuán)隊(duì)指出,大語(yǔ)言模型能耗極高,即便訓(xùn)練時(shí)間僅減少5%,也能帶來(lái)顯著效益。從長(zhǎng)遠(yuǎn)看,此類(lèi)技術(shù)進(jìn)步將推動(dòng)更多人自主構(gòu)建專(zhuān)屬的大語(yǔ)言模型。
團(tuán)隊(duì)解釋說(shuō),大語(yǔ)言模型本質(zhì)是由龐大數(shù)字矩陣構(gòu)成的神經(jīng)網(wǎng)絡(luò),通過(guò)數(shù)十億次試錯(cuò)學(xué)習(xí)預(yù)測(cè)文本序列。每當(dāng)預(yù)測(cè)出錯(cuò),模型便微調(diào)其數(shù)學(xué)參數(shù)以提升準(zhǔn)確率。這一過(guò)程如同讓模型“閱讀整座圖書(shū)館”,從中學(xué)習(xí)人類(lèi)如何使用語(yǔ)言。SubTrack++通過(guò)聚焦對(duì)任務(wù)最關(guān)鍵的核心參數(shù),簡(jiǎn)化校正流程,實(shí)現(xiàn)高效微調(diào),從而加速整體預(yù)訓(xùn)練。
團(tuán)隊(duì)期望,通過(guò)節(jié)省預(yù)訓(xùn)練時(shí)間,未來(lái)不只大型企業(yè),普通用戶(hù)也能構(gòu)建并定制屬于自己的AI工具。安全學(xué)習(xí)個(gè)人偏好后,大語(yǔ)言模型可成為真正的智能數(shù)字助理,適應(yīng)不同用戶(hù)的風(fēng)格、目標(biāo)與需求,成為人類(lèi)工作與創(chuàng)造中的得力伙伴。
團(tuán)隊(duì)將在墨西哥城舉辦的神經(jīng)信息處理系統(tǒng)會(huì)議上正式發(fā)表相關(guān)論文。




