近日,信息學(xué)院(人工智能學(xué)院)青年教師劉寧在人工智能科學(xué)問題解答多模態(tài)推理領(lǐng)域取得重要進(jìn)展。研究成果以“T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering”為題,發(fā)表在人工智能頂級會(huì)議AAAI-2024(CCF A類會(huì)議)上。
近年來,隨著人工智能的快速發(fā)展,大語言模型(LLMs)在自然語言處理任務(wù)中表現(xiàn)出卓越的推理能力,尤其是鏈?zhǔn)酵评恚–oT)技術(shù)。然而,在科學(xué)問題解答領(lǐng)域,現(xiàn)有研究大多依賴人工標(biāo)注的推理過程,這不僅耗費(fèi)大量時(shí)間和資源,還可能因標(biāo)注者知識有限而遺漏關(guān)鍵信息。為此,團(tuán)隊(duì)提出了一種創(chuàng)新框架——T-SciQ,旨在利用大語言模型生成的教學(xué)信號來提升小型多模態(tài)模型的推理能力,從而高效解決復(fù)雜的科學(xué)問題。
T-SciQ框架通過零樣本推理技術(shù),自動(dòng)生成鏈?zhǔn)酵评恚–oT)和基于計(jì)劃的鏈?zhǔn)酵评恚≒CoT),解決了人工標(biāo)注耗時(shí)費(fèi)力且信息不完整的問題。針對問題的不同復(fù)雜程度,靈活選擇最優(yōu)的教學(xué)信號(CoT或PCoT),形成綜合的教學(xué)數(shù)據(jù)集,從而提升模型對簡單問題和復(fù)雜問題的適應(yīng)能力。在ScienceQA這一權(quán)威科學(xué)問題解答基準(zhǔn)上,T-SciQ模型以96.18%的準(zhǔn)確率刷新現(xiàn)有最優(yōu)成績,相較于當(dāng)前最強(qiáng)的多模態(tài)模型提升了4.5%,并超越了人類表現(xiàn)(88.4%)。

圖1: T-SciQ的關(guān)鍵步驟:(i)生成教學(xué)數(shù)據(jù);(ii)混合教學(xué)數(shù)據(jù);(iii)微調(diào)。
如圖1所示,T-SciQ以生成教學(xué)數(shù)據(jù)、混合教學(xué)數(shù)據(jù)及微調(diào)的方式,通過混合生成的教學(xué)信號,既能利用CoT信號擴(kuò)展模型的開放知識獲取能力,又能通過PCoT信號實(shí)現(xiàn)復(fù)雜問題的分解與推理,顯著提高模型在多模態(tài)復(fù)雜任務(wù)中的表現(xiàn)。同時(shí),與傳統(tǒng)依賴人工標(biāo)注的方法相比,T-SciQ顯著降低了對人工資源的依賴,為多模態(tài)科學(xué)問題解答的研究提供了全新思路。研究團(tuán)隊(duì)還通過消融實(shí)驗(yàn)和案例分析,驗(yàn)證了T-SciQ信號在模型訓(xùn)練中提供更強(qiáng)指導(dǎo)作用的有效性。
上述論文第一完成單位及通訊作者單位為北京林業(yè)大學(xué),由北京林業(yè)大學(xué)、新加坡管理大學(xué)、電子科技大學(xué)的多方研究人員合作完成。通訊作者為劉寧。
團(tuán)隊(duì)已將相關(guān)代碼開源,供學(xué)術(shù)界和工業(yè)界進(jìn)一步探索(開源鏈接:https://github.com/T-SciQ/T-SciQ)。