https://www.forestry.gov.cn/lyj/1/lcdt/20250521/625444.html
來源:中國林科院
中國林科院資源所智慧林草創(chuàng)新團隊日前研發(fā)了一種可持續(xù)學習領域知識的林業(yè)預訓練語言模型(ForestryBERT),通過構建一套通用的技術體系,突破了通用預訓練語言模型難以應對林業(yè)知識動態(tài)更新的難題,實現(xiàn)了從動態(tài)變化的林業(yè)語料庫中持續(xù)學習新知識并有效記憶舊知識,顯著提高了模型的環(huán)境適應性和理解能力。
該模型實現(xiàn)了3項關鍵技術突破:一是通過對林業(yè)術語、林業(yè)法律法規(guī)、林業(yè)文獻等大規(guī)模動態(tài)語料庫的學習,為模型提供了豐富多元的知識來源,使模型能精準捕捉林業(yè)語義信息,提升了模型對林業(yè)文本的理解能力;二是融合了持續(xù)學習方法,構建了動態(tài)知識吸收機制,通過軟掩碼技術與對比學習策略,使模型在面對不斷更新的林業(yè)知識時,既能高效吸收新知識,又能適當保留舊知識,有效緩解了災難性遺忘問題,提升了模型的適應性和穩(wěn)定性;三是研發(fā)了多任務評估體系,準確評測模型在林業(yè)文本分類和林業(yè)抽取式問答中的性能,使模型具有較好的泛化性。
ForestryBERT是在智慧林草創(chuàng)新團隊研發(fā)的問答式林業(yè)預訓練語言模型基礎上的又一重要技術突破。通過與學習了同樣林業(yè)知識但未采取持續(xù)學習機制的5種領域預訓練語言模型的對比結果表明:ForestryBERT性能表現(xiàn)最好,知識遺忘率降低68.5%,具備可持續(xù)性和可擴展性。這一成果為林業(yè)文本處理提供了創(chuàng)新策略,為林草行業(yè)大模型-林龍大模型中林草大語言模型的研發(fā)提供了核心技術支撐,也為構建其他行業(yè)預訓練語言模型提供了可借鑒的思路。
相關研究論文“ForestryBERT: A pre-trained language model with continual learning adapted to changing forestry text”發(fā)表在Knowledge-Based Systems,中國林科院資源所碩士生譚晶維為第一作者,張懷清研究員為通訊作者。該項研究得到國家重點研發(fā)計劃政府間國際科技創(chuàng)新合作項目和國家自然科學基金項目的聯(lián)合資助。
版權聲明: 1.依據《服務條款》,本網頁發(fā)布的原創(chuàng)作品,版權歸發(fā)布者(即注冊用戶)所有;本網頁發(fā)布的轉載作品,由發(fā)布者按照互聯(lián)網精神進行分享,遵守相關法律法規(guī),無商業(yè)獲利行為,無版權糾紛。 2.本網頁是第三方信息存儲空間,阿酷公司是網絡服務提供者,服務對象為注冊用戶。該項服務免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網絡地址:www.arkoo.com 3.本網頁參與各方的所有行為,完全遵守《信息網絡傳播權保護條例》。如有侵權行為,請權利人通知阿酷公司,阿酷公司將根據本條例第二十二條規(guī)定刪除侵權作品。 |