91国在线精品国内播放,免费看成人午夜电影,久久精品人人做人人爽电影

CREATOR制造、使用工具，實(shí)現(xiàn)LLM「自我進(jìn)化」_環(huán)球觀焦點(diǎn)

來(lái)源：機(jī)器之心時(shí)間：2023-06-23 00:25:18

機(jī)器之心專欄

(資料圖片僅供參考)

機(jī)器之心編輯部

近日，來(lái)自清華大學(xué)以及 UIUC 的研究人員聯(lián)合發(fā)布了關(guān)于大模型工具創(chuàng)造的研究框架。其旨在讓大模型自己進(jìn)行工具創(chuàng)造，以此剝離模型的抽象與具象思維能力，以降低任務(wù)推理成本，取得更好的效果。研究進(jìn)一步探索了模型在工具創(chuàng)造方面的潛在應(yīng)用價(jià)值，在當(dāng)下對(duì)大模型能力的探索上更進(jìn)了一步。

自古以來(lái)，工具的使用被視為區(qū)分人與其他物種的一大區(qū)別，也被視為是智能的一種根本體現(xiàn)。而當(dāng)下，人工智能已不再局限于對(duì)工具的簡(jiǎn)單使用，它們已然能夠根據(jù)問(wèn)題創(chuàng)造性地建立自己的工具來(lái)尋求解決方案。在思維上，這代表著當(dāng)下大模型已經(jīng)能夠掌握更高層次的抽象思維認(rèn)知，并將其與具象思維劃分，共同解決問(wèn)題；而在能力上，工具創(chuàng)造的出現(xiàn)也意味著模型已經(jīng)能夠從 “學(xué)習(xí)” 中蛻變，去運(yùn)用已知 “創(chuàng)造” 未來(lái)的無(wú)限可能。

論文鏈接：/pdf/

研究背景

近年來(lái)，大規(guī)模語(yǔ)言模型（Large Language Models）取得了顯著的研究進(jìn)展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發(fā)布的 GPT-4 等。這些模型在上下文學(xué)習(xí)（In-Context Learning）、代碼生成（Code Generation）和各種其他自然語(yǔ)言處理任務(wù)方面表現(xiàn)出色，將模型的潛力進(jìn)一步推向了通用人工智能。

盡管大模型在這些取得了巨大的成功，其當(dāng)下仍然存在很多短板，包括無(wú)法識(shí)別或回答最新的實(shí)時(shí)信息、很難在大規(guī)模的數(shù)據(jù)計(jì)算上達(dá)到高準(zhǔn)確性，在題干邏輯復(fù)雜時(shí)推理能力不穩(wěn)定等等。針對(duì)這些短板，研究者開(kāi)始致力于向當(dāng)前模型架構(gòu)中引入對(duì)外部資源的利用能力，例如引入計(jì)算器，問(wèn)答系統(tǒng)，維基百科等等外部知識(shí)源，來(lái)增強(qiáng)模型能力。這一系列研究奠定了模型工具學(xué)習(xí)（Tool Learning）能力的基礎(chǔ)。

然而，當(dāng)下研究中利用的外部工具數(shù)量仍然有限，而在潛在的新任務(wù)類型幾乎是無(wú)盡的。因此，在面對(duì)新的問(wèn)題類型時(shí)，很難找到現(xiàn)有的適合解決問(wèn)題的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文檔中進(jìn)行海量搜索、匹配并針對(duì)問(wèn)題進(jìn)行針對(duì)性地規(guī)劃。這將給模型帶來(lái)很大的認(rèn)知負(fù)擔(dān)，并需要較高的學(xué)習(xí)成本。

因此，研究團(tuán)隊(duì)提出了全新的一種研究范式：工具創(chuàng)造（Tool Creation）。其不再是簡(jiǎn)單利用大模型使用工具的能力，而是加入了全新的工具創(chuàng)造模塊，讓模型針對(duì)所面對(duì)的問(wèn)題進(jìn)行工具創(chuàng)造并尋求解決方案。

利用大模型創(chuàng)造工具能夠提高工具的普適性、可復(fù)用性和多樣性，超越給定 API 的限制。工具創(chuàng)造模塊的設(shè)計(jì)還可以減輕大模型的認(rèn)知負(fù)擔(dān)，并解耦其進(jìn)行抽象推理（創(chuàng)建可推廣的具有普適性的工具）和具象推理（根據(jù)工具實(shí)現(xiàn)細(xì)節(jié)和工具使用文檔進(jìn)行決策）的能力。同時(shí)，該框架下模型以代碼作為工具創(chuàng)造的媒介，這使得模型對(duì)于錯(cuò)誤更加敏感，并能根據(jù)工具創(chuàng)造與使用中的問(wèn)題進(jìn)行回溯與修正。

工具創(chuàng)造范式相比工具使用更加靈活并對(duì)不同場(chǎng)景有更強(qiáng)的適應(yīng)能力

CREATOR 研究框架

大模型進(jìn)行工具創(chuàng)造來(lái)解決問(wèn)題的框架 CREATOR 主要分為了以下四個(gè)階段：

創(chuàng)造（Creation）：運(yùn)用大模型對(duì)于問(wèn)題的抽象推理能力，通過(guò)代碼有針對(duì)性性地創(chuàng)造所需工具以及其使用說(shuō)明。

決策（Decision）：運(yùn)用大模型對(duì)于問(wèn)題的具象推理能力，決策如何調(diào)用工具來(lái)解決當(dāng)前問(wèn)題。

執(zhí)行（Execution）：根據(jù)創(chuàng)造的工具以及決策內(nèi)容，進(jìn)行決策的執(zhí)行，并捕獲執(zhí)行過(guò)程中的輸出信息。

修正（Rectification）：運(yùn)用大模型對(duì)于錯(cuò)因推理以及自我修復(fù)的能力，對(duì)執(zhí)行階段捕捉到的問(wèn)題進(jìn)行修復(fù)。

大模型進(jìn)行工具創(chuàng)造與決策的流程框架

大模型首先將根據(jù)問(wèn)題創(chuàng)造所需要的工具以及其相關(guān)使用說(shuō)明；此后，問(wèn)題內(nèi)容以及工具信息將同時(shí)再次返回給大模型，用以決策針對(duì)本問(wèn)題的解決方案，以及如何使用這些工具。此后，模型將根據(jù)執(zhí)行情況對(duì)工具及決策做出調(diào)整，以更好地適應(yīng)問(wèn)題并尋求解答。

整個(gè)工具創(chuàng)造框架靈活運(yùn)用了大模型的不同思維能力：提取問(wèn)題關(guān)鍵信息的抽象思維推理，根據(jù)任務(wù)實(shí)施方案決策的具象思維推理，以及根據(jù)問(wèn)題尋求解決方案的自我修復(fù)推理。這些能力的解耦幫助大模型避免了在普通推理鏈（Chain-of-Thought, CoT）中的思維混亂而導(dǎo)致的失敗現(xiàn)象，有效提升了大模型對(duì)于任務(wù)的適應(yīng)能力及表現(xiàn)。

CREATOR 實(shí)驗(yàn)評(píng)測(cè)

作者將 CREATOR 框架與當(dāng)前的普通推理鏈方法（CoT），程序推理鏈方法（Program-of-Thought, PoT）以及沒(méi)有創(chuàng)造的簡(jiǎn)單工具使用（Tool Use）進(jìn)行了比對(duì)。同時(shí)，為了驗(yàn)證框架中剝離抽象推理與具象推理的有效性，作者還額外引入了整體工具創(chuàng)造（Tool Create - whole）作為基線，該方法將 CREATOR 框架中的創(chuàng)造階段與決策階段合二為一，不再進(jìn)行推理能力上的解耦。

Creation Challenge 數(shù)據(jù)集問(wèn)題，標(biāo)準(zhǔn)工具及決策示例

在 MATH 數(shù)據(jù)集上 CREATOR 框架的表現(xiàn)高于其他推理方法以及簡(jiǎn)單的工具運(yùn)用

在數(shù)據(jù)集的選取上，作者選擇了 MATH 以及 TabMWP 數(shù)據(jù)集作為主要驗(yàn)證。其中前者包含了美國(guó)數(shù)學(xué)競(jìng)賽當(dāng)中的高難度數(shù)學(xué)問(wèn)題，而后者將問(wèn)題與豐富的數(shù)據(jù)表結(jié)合，二者都考驗(yàn)了模型對(duì)于多樣化場(chǎng)景的問(wèn)題推理與解決能力。除此之外，作者還額外引入了全新構(gòu)建的 Creation Challenge 數(shù)據(jù)集，其中的問(wèn)題都無(wú)法直接套用現(xiàn)有工具或者代碼包解決，從而考驗(yàn)了模型進(jìn)行工具創(chuàng)造的能力。

在 TabMWP 數(shù)據(jù)集以及 Creation Challenge 上 CREATOR 框架效果也顯著更強(qiáng)

從實(shí)驗(yàn)結(jié)果看來(lái)，CREATOR 框架的推理結(jié)果要明顯好于所有基線，尤其相對(duì)于標(biāo)準(zhǔn)的推理方法以及程序推理方法，均達(dá)到了更好的效果。同時(shí)實(shí)驗(yàn)也證明了對(duì)抽象與具象推理能力進(jìn)行解耦也可以有效幫助模型提高準(zhǔn)確率。在 Creation Challenge 測(cè)試集上，作者還額外驗(yàn)證了在有創(chuàng)造什么樣的工具的提示（hint）的情況下，模型將會(huì)對(duì)問(wèn)題有著更強(qiáng)的解決能力。因此，提示與思維解耦這兩點(diǎn)也成為了工具創(chuàng)造中的重要影響因素。

不同方法針對(duì)任務(wù)難度的準(zhǔn)確率統(tǒng)計(jì)

在修正階段的參與下效果的提升

除此之外，作者還驗(yàn)證了不同方法對(duì)于任務(wù)難度的變化曲線，以及修正階段參與輪次與大模型效果提升之間的聯(lián)系。結(jié)果表明，CREATOR 框架面對(duì)有難度的問(wèn)題能夠保持更好的魯棒性，以及修正階段的參與能夠讓不僅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，證實(shí)了在實(shí)驗(yàn)中引入修正階段的合理性與有效性。

工具創(chuàng)造的其他優(yōu)勢(shì)

在主實(shí)驗(yàn)之外，文章作者也著重探討了工具創(chuàng)造的其他優(yōu)勢(shì)以及當(dāng)下大模型工具創(chuàng)造能力的不同展現(xiàn)形式。既然是創(chuàng)造工具，那么作為工具的一大優(yōu)勢(shì)必定是其可復(fù)用性。作者也順此思路進(jìn)一步展示了工具的復(fù)用對(duì)于任務(wù)效果的提升。

作者設(shè)計(jì)了 300 條問(wèn)題并三個(gè)一組分為了 100 組。其中每一組的三個(gè)問(wèn)題雖然場(chǎng)景不同，但都涉及相同的核心知識(shí)（Core Knowledge），即同類問(wèn)題。作者驗(yàn)證了將對(duì)于一個(gè)問(wèn)題創(chuàng)造的工具用于一組問(wèn)題中的所有場(chǎng)景，是否都能夠有效解決并提升準(zhǔn)確率。

對(duì)于大模型創(chuàng)造的工具在其他問(wèn)題上遷移，能夠有效提高準(zhǔn)確率

實(shí)驗(yàn)統(tǒng)計(jì)表明將模型創(chuàng)造的正確可用的工具遷移到其他同類問(wèn)題場(chǎng)景，能夠有效提升問(wèn)題解決的正確率。這即表明大模型創(chuàng)造的工具具有良好的可復(fù)用性，對(duì)于同類問(wèn)題也有著良好的普適性。

除此之外，作者還展示了大模型進(jìn)行工具創(chuàng)造的三個(gè)維度：對(duì)已有工具進(jìn)行封裝以實(shí)現(xiàn)不同目的，將不同工具進(jìn)行組合實(shí)現(xiàn)目標(biāo)功能，以及進(jìn)行層次化的工具創(chuàng)建。這三個(gè)維度由低到高展示了當(dāng)下大模型工具創(chuàng)造的能力，而這些能力也幫助大模型能夠更高效地適應(yīng)不同場(chǎng)景。

大模型進(jìn)行工具創(chuàng)造的三個(gè)維度

總結(jié)

CREATOR 框架通過(guò)工具創(chuàng)造實(shí)現(xiàn)了大模型抽象與具象思維能力的解耦，是繼工具學(xué)習(xí)之后，對(duì)模型能力邊際探索的又一大突破。相信未來(lái)的更多研究將會(huì)以此為基礎(chǔ)，繼續(xù)在工具的使用與創(chuàng)造上不斷證明與增強(qiáng)模型潛力，為我們帶來(lái)更多驚喜。

文章主要作者

錢(qián)成，清華大學(xué)大三年級(jí)本科生，THUNLP 實(shí)驗(yàn)室成員，導(dǎo)師劉知遠(yuǎn)。目前研究方向包括大模型預(yù)訓(xùn)練，大模型高效微調(diào)，以及工具學(xué)習(xí)等領(lǐng)域。曾獲清華大學(xué)計(jì)算機(jī)綜合優(yōu)秀獎(jiǎng)學(xué)金，并以共同一作身份在 EMNLP，ACL 等國(guó)際會(huì)議中發(fā)表論文。

個(gè)人主頁(yè)：/

?THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道：content@

快資訊丨首屆關(guān)山文化音樂(lè)節(jié)火熱啟動(dòng)

世界微速訊：“端午節(jié)”假期陜西大部天氣晴好關(guān)中有高溫天氣

【全球聚看點(diǎn)】豬飼料的生產(chǎn)(豬飼料生產(chǎn)加工設(shè)備)

中央氣象臺(tái)發(fā)布高溫預(yù)警，預(yù)計(jì)新一輪干熱氣團(tuán)再次發(fā)展

2023汛前黃河調(diào)水調(diào)沙智慧小浪底開(kāi)閘

環(huán)球快資訊：端午小長(zhǎng)假首日，湖南再發(fā)暴雨地質(zhì)山洪預(yù)警

三盤(pán)苦戰(zhàn)過(guò)關(guān)！小將商竣程險(xiǎn)勝前世界第7，躋身八強(qiáng)排名創(chuàng)新高新資訊

【文明單位創(chuàng)建】市文旅局赴五峰學(xué)習(xí)文明旅游示范單位創(chuàng)建經(jīng)驗(yàn)_全球時(shí)快訊