国产美女主播视频一区_国产精品蜜臀在线观看_亚洲成人动漫一区_亚洲视屏在线播放

首頁(yè) > 法治

CREATOR制造、使用工具,實(shí)現(xiàn)LLM「自我進(jìn)化」_環(huán)球觀焦點(diǎn)

來(lái)源:機(jī)器之心 時(shí)間:2023-06-23 00:25:18

機(jī)器之心專欄


(資料圖片僅供參考)

機(jī)器之心編輯部

近日,來(lái)自清華大學(xué)以及 UIUC 的研究人員聯(lián)合發(fā)布了關(guān)于大模型工具創(chuàng)造的研究框架。其旨在讓大模型自己進(jìn)行工具創(chuàng)造,以此剝離模型的抽象與具象思維能力,以降低任務(wù)推理成本,取得更好的效果。研究進(jìn)一步探索了模型在工具創(chuàng)造方面的潛在應(yīng)用價(jià)值,在當(dāng)下對(duì)大模型能力的探索上更進(jìn)了一步。

自古以來(lái),工具的使用被視為區(qū)分人與其他物種的一大區(qū)別,也被視為是智能的一種根本體現(xiàn)。而當(dāng)下,人工智能已不再局限于對(duì)工具的簡(jiǎn)單使用,它們已然能夠根據(jù)問(wèn)題創(chuàng)造性地建立自己的工具來(lái)尋求解決方案。在思維上,這代表著當(dāng)下大模型已經(jīng)能夠掌握更高層次的抽象思維認(rèn)知,并將其與具象思維劃分,共同解決問(wèn)題;而在能力上,工具創(chuàng)造的出現(xiàn)也意味著模型已經(jīng)能夠從 “學(xué)習(xí)” 中蛻變,去運(yùn)用已知 “創(chuàng)造” 未來(lái)的無(wú)限可能。

論文鏈接:/pdf/

研究背景

近年來(lái),大規(guī)模語(yǔ)言模型(Large Language Models)取得了顯著的研究進(jìn)展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發(fā)布的 GPT-4 等。這些模型在上下文學(xué)習(xí)(In-Context Learning)、代碼生成(Code Generation)和各種其他自然語(yǔ)言處理任務(wù)方面表現(xiàn)出色,將模型的潛力進(jìn)一步推向了通用人工智能。

盡管大模型在這些取得了巨大的成功,其當(dāng)下仍然存在很多短板,包括無(wú)法識(shí)別或回答最新的實(shí)時(shí)信息、很難在大規(guī)模的數(shù)據(jù)計(jì)算上達(dá)到高準(zhǔn)確性,在題干邏輯復(fù)雜時(shí)推理能力不穩(wěn)定等等。針對(duì)這些短板,研究者開(kāi)始致力于向當(dāng)前模型架構(gòu)中引入對(duì)外部資源的利用能力,例如引入計(jì)算器,問(wèn)答系統(tǒng),維基百科等等外部知識(shí)源,來(lái)增強(qiáng)模型能力。這一系列研究奠定了模型工具學(xué)習(xí)(Tool Learning)能力的基礎(chǔ)。

然而,當(dāng)下研究中利用的外部工具數(shù)量仍然有限,而在潛在的新任務(wù)類型幾乎是無(wú)盡的。因此,在面對(duì)新的問(wèn)題類型時(shí),很難找到現(xiàn)有的適合解決問(wèn)題的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文檔中進(jìn)行海量搜索、匹配并針對(duì)問(wèn)題進(jìn)行針對(duì)性地規(guī)劃。這將給模型帶來(lái)很大的認(rèn)知負(fù)擔(dān),并需要較高的學(xué)習(xí)成本

因此,研究團(tuán)隊(duì)提出了全新的一種研究范式:工具創(chuàng)造(Tool Creation)。其不再是簡(jiǎn)單利用大模型使用工具的能力,而是加入了全新的工具創(chuàng)造模塊,讓模型針對(duì)所面對(duì)的問(wèn)題進(jìn)行工具創(chuàng)造并尋求解決方案。

利用大模型創(chuàng)造工具能夠提高工具的普適性、可復(fù)用性和多樣性,超越給定 API 的限制。工具創(chuàng)造模塊的設(shè)計(jì)還可以減輕大模型的認(rèn)知負(fù)擔(dān),并解耦其進(jìn)行抽象推理(創(chuàng)建可推廣的具有普適性的工具)和具象推理(根據(jù)工具實(shí)現(xiàn)細(xì)節(jié)和工具使用文檔進(jìn)行決策)的能力。同時(shí),該框架下模型以代碼作為工具創(chuàng)造的媒介,這使得模型對(duì)于錯(cuò)誤更加敏感,并能根據(jù)工具創(chuàng)造與使用中的問(wèn)題進(jìn)行回溯與修正

工具創(chuàng)造范式相比工具使用更加靈活并對(duì)不同場(chǎng)景有更強(qiáng)的適應(yīng)能力

CREATOR 研究框架

大模型進(jìn)行工具創(chuàng)造來(lái)解決問(wèn)題的框架 CREATOR 主要分為了以下四個(gè)階段:

創(chuàng)造(Creation):運(yùn)用大模型對(duì)于問(wèn)題的抽象推理能力,通過(guò)代碼有針對(duì)性性地創(chuàng)造所需工具以及其使用說(shuō)明。

決策(Decision):運(yùn)用大模型對(duì)于問(wèn)題的具象推理能力,決策如何調(diào)用工具來(lái)解決當(dāng)前問(wèn)題。

執(zhí)行(Execution):根據(jù)創(chuàng)造的工具以及決策內(nèi)容,進(jìn)行決策的執(zhí)行,并捕獲執(zhí)行過(guò)程中的輸出信息。

修正(Rectification):運(yùn)用大模型對(duì)于錯(cuò)因推理以及自我修復(fù)的能力,對(duì)執(zhí)行階段捕捉到的問(wèn)題進(jìn)行修復(fù)。

大模型進(jìn)行工具創(chuàng)造與決策的流程框架

大模型首先將根據(jù)問(wèn)題創(chuàng)造所需要的工具以及其相關(guān)使用說(shuō)明;此后,問(wèn)題內(nèi)容以及工具信息將同時(shí)再次返回給大模型,用以決策針對(duì)本問(wèn)題的解決方案,以及如何使用這些工具。此后,模型將根據(jù)執(zhí)行情況對(duì)工具及決策做出調(diào)整,以更好地適應(yīng)問(wèn)題并尋求解答。

整個(gè)工具創(chuàng)造框架靈活運(yùn)用了大模型的不同思維能力:提取問(wèn)題關(guān)鍵信息的抽象思維推理,根據(jù)任務(wù)實(shí)施方案決策的具象思維推理,以及根據(jù)問(wèn)題尋求解決方案的自我修復(fù)推理。這些能力的解耦幫助大模型避免了在普通推理鏈(Chain-of-Thought, CoT)中的思維混亂而導(dǎo)致的失敗現(xiàn)象,有效提升了大模型對(duì)于任務(wù)的適應(yīng)能力及表現(xiàn)。

CREATOR 實(shí)驗(yàn)評(píng)測(cè)

作者將 CREATOR 框架與當(dāng)前的普通推理鏈方法(CoT),程序推理鏈方法(Program-of-Thought, PoT)以及沒(méi)有創(chuàng)造的簡(jiǎn)單工具使用(Tool Use)進(jìn)行了比對(duì)。同時(shí),為了驗(yàn)證框架中剝離抽象推理與具象推理的有效性,作者還額外引入了整體工具創(chuàng)造(Tool Create - whole)作為基線,該方法將 CREATOR 框架中的創(chuàng)造階段與決策階段合二為一,不再進(jìn)行推理能力上的解耦。

Creation Challenge 數(shù)據(jù)集問(wèn)題,標(biāo)準(zhǔn)工具及決策示例

在 MATH 數(shù)據(jù)集上 CREATOR 框架的表現(xiàn)高于其他推理方法以及簡(jiǎn)單的工具運(yùn)用
在數(shù)據(jù)集的選取上,作者選擇了 MATH 以及 TabMWP 數(shù)據(jù)集作為主要驗(yàn)證。其中前者包含了美國(guó)數(shù)學(xué)競(jìng)賽當(dāng)中的高難度數(shù)學(xué)問(wèn)題,而后者將問(wèn)題與豐富的數(shù)據(jù)表結(jié)合,二者都考驗(yàn)了模型對(duì)于多樣化場(chǎng)景的問(wèn)題推理與解決能力。除此之外,作者還額外引入了全新構(gòu)建的 Creation Challenge 數(shù)據(jù)集,其中的問(wèn)題都無(wú)法直接套用現(xiàn)有工具或者代碼包解決,從而考驗(yàn)了模型進(jìn)行工具創(chuàng)造的能力。
在 TabMWP 數(shù)據(jù)集以及 Creation Challenge 上 CREATOR 框架效果也顯著更強(qiáng)

從實(shí)驗(yàn)結(jié)果看來(lái),CREATOR 框架的推理結(jié)果要明顯好于所有基線,尤其相對(duì)于標(biāo)準(zhǔn)的推理方法以及程序推理方法,均達(dá)到了更好的效果。同時(shí)實(shí)驗(yàn)也證明了對(duì)抽象與具象推理能力進(jìn)行解耦也可以有效幫助模型提高準(zhǔn)確率。在 Creation Challenge 測(cè)試集上,作者還額外驗(yàn)證了在有創(chuàng)造什么樣的工具的提示(hint)的情況下,模型將會(huì)對(duì)問(wèn)題有著更強(qiáng)的解決能力。因此,提示與思維解耦這兩點(diǎn)也成為了工具創(chuàng)造中的重要影響因素。

不同方法針對(duì)任務(wù)難度的準(zhǔn)確率統(tǒng)計(jì)

在修正階段的參與下效果的提升

除此之外,作者還驗(yàn)證了不同方法對(duì)于任務(wù)難度的變化曲線,以及修正階段參與輪次與大模型效果提升之間的聯(lián)系。結(jié)果表明,CREATOR 框架面對(duì)有難度的問(wèn)題能夠保持更好的魯棒性,以及修正階段的參與能夠讓不僅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,證實(shí)了在實(shí)驗(yàn)中引入修正階段的合理性與有效性。

工具創(chuàng)造的其他優(yōu)勢(shì)

在主實(shí)驗(yàn)之外,文章作者也著重探討了工具創(chuàng)造的其他優(yōu)勢(shì)以及當(dāng)下大模型工具創(chuàng)造能力的不同展現(xiàn)形式。既然是創(chuàng)造工具,那么作為工具的一大優(yōu)勢(shì)必定是其可復(fù)用性。作者也順此思路進(jìn)一步展示了工具的復(fù)用對(duì)于任務(wù)效果的提升。

作者設(shè)計(jì)了 300 條問(wèn)題并三個(gè)一組分為了 100 組。其中每一組的三個(gè)問(wèn)題雖然場(chǎng)景不同,但都涉及相同的核心知識(shí)(Core Knowledge),即同類問(wèn)題。作者驗(yàn)證了將對(duì)于一個(gè)問(wèn)題創(chuàng)造的工具用于一組問(wèn)題中的所有場(chǎng)景,是否都能夠有效解決并提升準(zhǔn)確率。

對(duì)于大模型創(chuàng)造的工具在其他問(wèn)題上遷移,能夠有效提高準(zhǔn)確率

實(shí)驗(yàn)統(tǒng)計(jì)表明將模型創(chuàng)造的正確可用的工具遷移到其他同類問(wèn)題場(chǎng)景,能夠有效提升問(wèn)題解決的正確率。這即表明大模型創(chuàng)造的工具具有良好的可復(fù)用性,對(duì)于同類問(wèn)題也有著良好的普適性。

除此之外,作者還展示了大模型進(jìn)行工具創(chuàng)造的三個(gè)維度:對(duì)已有工具進(jìn)行封裝以實(shí)現(xiàn)不同目的,將不同工具進(jìn)行組合實(shí)現(xiàn)目標(biāo)功能,以及進(jìn)行層次化的工具創(chuàng)建。這三個(gè)維度由低到高展示了當(dāng)下大模型工具創(chuàng)造的能力,而這些能力也幫助大模型能夠更高效地適應(yīng)不同場(chǎng)景。

大模型進(jìn)行工具創(chuàng)造的三個(gè)維度

總結(jié)

CREATOR 框架通過(guò)工具創(chuàng)造實(shí)現(xiàn)了大模型抽象與具象思維能力的解耦,是繼工具學(xué)習(xí)之后,對(duì)模型能力邊際探索的又一大突破。相信未來(lái)的更多研究將會(huì)以此為基礎(chǔ),繼續(xù)在工具的使用與創(chuàng)造上不斷證明與增強(qiáng)模型潛力,為我們帶來(lái)更多驚喜。

文章主要作者

錢(qián)成,清華大學(xué)大三年級(jí)本科生,THUNLP 實(shí)驗(yàn)室成員,導(dǎo)師劉知遠(yuǎn)。目前研究方向包括大模型預(yù)訓(xùn)練,大模型高效微調(diào),以及工具學(xué)習(xí)等領(lǐng)域。曾獲清華大學(xué)計(jì)算機(jī)綜合優(yōu)秀獎(jiǎng)學(xué)金,并以共同一作身份在 EMNLP,ACL 等國(guó)際會(huì)議中發(fā)表論文。

個(gè)人主頁(yè):/

?THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道:content@

相關(guān)稿件

CREATOR制造、使用工具,實(shí)現(xiàn)LLM「自我進(jìn)化」_環(huán)球觀焦點(diǎn)

快資訊丨首屆關(guān)山文化音樂(lè)節(jié)火熱啟動(dòng)

世界微速訊:“端午節(jié)”假期陜西大部天氣晴好 關(guān)中有高溫天氣

【全球聚看點(diǎn)】豬飼料的生產(chǎn)(豬飼料生產(chǎn)加工設(shè)備)

中央氣象臺(tái)發(fā)布高溫預(yù)警,預(yù)計(jì)新一輪干熱氣團(tuán)再次發(fā)展

2023汛前黃河調(diào)水調(diào)沙 智慧小浪底開(kāi)閘

環(huán)球快資訊:端午小長(zhǎng)假首日,湖南再發(fā)暴雨地質(zhì)山洪預(yù)警

三盤(pán)苦戰(zhàn)過(guò)關(guān)!小將商竣程險(xiǎn)勝前世界第7,躋身八強(qiáng)排名創(chuàng)新高 新資訊

【文明單位創(chuàng)建】市文旅局赴五峰學(xué)習(xí)文明旅游示范單位創(chuàng)建經(jīng)驗(yàn)_全球時(shí)快訊

天天播報(bào):RAC1:巴薩向京多安保證,如果無(wú)法注冊(cè)他將獲得賠償

三盤(pán)鏖戰(zhàn)159分鐘!小花王曦雨惜敗出局,草地賽季連續(xù)遭遇一輪游-焦點(diǎn)精選

國(guó)足老隊(duì)長(zhǎng)鄭智:別去找下一個(gè)鄭智_環(huán)球觀速訊

全球快消息!淘寶直播用戶規(guī)模、直播間數(shù)量、GMV全面強(qiáng)勁增長(zhǎng)

屢次被罰,海通證券開(kāi)始掉隊(duì)了嗎?

航天動(dòng)力:公司實(shí)際控制人為中國(guó)航天科技集團(tuán)有限公司,控股股東為航天六院,公司是央企控股上市公司 每日快訊

天天速訊:國(guó)寶陪你過(guò)端午

武漢借勢(shì)長(zhǎng)三角:“中部第一城”是時(shí)候帶動(dòng)區(qū)域起飛了|全球熱訊

常熟銀行: 監(jiān)事長(zhǎng)黃勇斌辭任 天天訊息

每日熱文:中英兒童難治性白血病公益會(huì)診項(xiàng)目在京發(fā)布

又有新動(dòng)作!樂(lè)山電力年內(nèi)已與10家供電公司達(dá)成儲(chǔ)能項(xiàng)目、智慧能源運(yùn)營(yíng)等合作意向_速訊

英國(guó)獸醫(yī)服務(wù)提供商CVS集團(tuán)新設(shè)副首席執(zhí)行官 焦點(diǎn)觀察

世界新資訊:周星馳官宣!

環(huán)球新資訊:[荊楚網(wǎng)]加快推進(jìn)老舊小區(qū)改造,潛江市今年重點(diǎn)推進(jìn)五大片區(qū)

世界熱點(diǎn)!地獄學(xué)院 從輝煌到?jīng)]落 到底經(jīng)歷了什么?

奧比島手游上線_奧比島外掛_當(dāng)前看點(diǎn)

愛(ài)仕達(dá)高壓鍋配件哪里有賣_愛(ài)仕達(dá)高壓鍋配件|天天新要聞

世界頭條:“異鄉(xiāng)人”品嘗“家鄉(xiāng)味” 流動(dòng)黨員端午節(jié)收到“驚喜”

(經(jīng)濟(jì))挪威央行加息50個(gè)基點(diǎn)以抑制通脹

2023唐山工業(yè)職業(yè)技術(shù)學(xué)院招生專業(yè)有哪些 唐山工業(yè)職業(yè)技術(shù)學(xué)院優(yōu)勢(shì)專業(yè)有哪些

山西財(cái)貿(mào)職業(yè)技術(shù)學(xué)院怎么樣 山西財(cái)貿(mào)職業(yè)技術(shù)學(xué)院地址是什么_環(huán)球熱點(diǎn)


主站蜘蛛池模板: 国产精品欧美久久| 国产精品大全| 不卡一区二区三区视频| 99在线看视频| 秋霞无码一区二区V| 久久国产精品网站| 国产欧美日韩一区| 精品无码av无码免费专区| 日韩欧美一区二区视频在线播放V| 日韩一区二区久久久| 久久精品视频中文字幕| 91久久久久久久| 成人国产精品av| 国产成人综合av| 一区二区三区在线视频看| 国内精品久久久久伊人av| 久久精品五月婷婷| 国产日本欧美视频| 国产亚洲精品久久久久久久| 欧美日韩高清免费| 色播亚洲婷婷| 日本在线高清视频一区| 亚洲综合一区二区不卡| 97成人在线视频| 日韩在线视频网| 日本三级中国三级99人妇网站| 国产精品69久久久| 色妞一区二区三区| 欧洲午夜精品久久久| 欧美精品尤物在线| 国产日韩欧美日韩大片| 国内揄拍国内精品少妇国语| 国产精品美女久久久久av福利| 国产欧美亚洲日本| 亚洲国产精品综合| 日本免费不卡一区二区| 99久久精品免费看国产四区| 国产精品一区在线播放| 国产精品一区二区a| 免费91麻豆精品国产自产在线观看 | 精品国偷自产在线视频|