ResponsibleTA 提升 LLM 可靠性,任務(wù)完成更安全、更高效 即時(shí)看
機(jī)器之心專欄
機(jī)器之心編輯部
(相關(guān)資料圖)
AI 智能助手照進(jìn)現(xiàn)實(shí)。
近幾個(gè)月,ChatGPT、GPT-4 等大語(yǔ)言模型(LLM)展現(xiàn)出突破性的理解、推理、生成、泛化和對(duì)齊能力,對(duì)各行各業(yè)的研究方式和生產(chǎn)效率均帶來(lái)廣泛而深遠(yuǎn)的變革及影響。此外,LLM 還展現(xiàn)出在真實(shí)世界的開(kāi)放場(chǎng)景中解決復(fù)雜問(wèn)題的能力,使科幻電影中無(wú)所不能的 AI 智能助手照進(jìn)了現(xiàn)實(shí)。
在實(shí)現(xiàn)自然場(chǎng)景中的任務(wù)自動(dòng)化時(shí),一個(gè)復(fù)雜的任務(wù)往往由多個(gè)子任務(wù)構(gòu)成,這需要多個(gè)模型或 APIs 的協(xié)作。如何確保 LLM 和執(zhí)行器之間高效、安全、穩(wěn)定地協(xié)同工作,是構(gòu)建 Responsible AI ,以及讓 LLM 可靠地為人類提供服務(wù)的關(guān)鍵問(wèn)題。
為了解決這個(gè)問(wèn)題,來(lái)自微軟亞洲研究院的研究團(tuán)隊(duì)提出 Responsible Task Automation ( ResponsibleTA ) 框架,提升 LLM 和執(zhí)行器之間協(xié)同工作的安全性和有效性。
論文鏈接:https://arxiv.org/pdf/2306.01242.pdf項(xiàng)目主頁(yè):https://task-automation-research.github.io/responsible_task_automation/
方法
本文通過(guò)提出一個(gè)新的任務(wù)自動(dòng)化框架,通過(guò)可行性檢測(cè),完成度檢驗(yàn),用戶隱私保護(hù)等三個(gè)模塊,提高了大語(yǔ)言模型作為任務(wù)助手的可靠性,為未來(lái)的人機(jī)交互提供了一種可行的方式。
該系統(tǒng)框架包含基于 LLM 的中央處理單元、指令執(zhí)行器、指令可行性預(yù)測(cè)器、指令完成度檢驗(yàn)器和安全性保護(hù)器。
Responsible Task Automation ( ResponsibleTA ) 框架示意圖當(dāng) ResponsibleTA 接收到復(fù)雜任務(wù)對(duì)應(yīng)的高層級(jí)指令時(shí),安全性檢測(cè)自動(dòng)將包含用戶隱私的命令實(shí)體替換成對(duì)應(yīng)的占位符,然后將去隱私化的指令發(fā)送給部署在云端的 LLM,LLM 據(jù)此規(guī)劃實(shí)現(xiàn)該負(fù)責(zé)任務(wù)目標(biāo)的單步指令,然后發(fā)送給的部署在本地的執(zhí)行器實(shí)際執(zhí)行相關(guān)操作。從 Responsible AI 的角度出發(fā),該框架賦予 LLM 三個(gè)新的能力:
1)可行性預(yù)測(cè):ResponsibleTA 框架針對(duì) LLM 和執(zhí)行器的協(xié)同,開(kāi)發(fā)設(shè)計(jì)了可行性預(yù)測(cè)模塊。該模塊用于對(duì) LLM 的輸出進(jìn)行可行性判斷,及時(shí)攔截不可行的執(zhí)行指令,從而規(guī)避在執(zhí)行這些指令的過(guò)程中產(chǎn)生的不可控風(fēng)險(xiǎn)。當(dāng) LLM 輸出的指令判斷為「不可行」時(shí),可行性預(yù)測(cè)期會(huì)將其分析結(jié)果返回給 LLM,并要求其重新進(jìn)行任務(wù)規(guī)劃,力求將合理可行性的指令交付給執(zhí)行器,提升任務(wù)自動(dòng)化的成功率。
2)完成度檢驗(yàn):ResponsibleTA 框架設(shè)計(jì)了一個(gè)完成度檢驗(yàn)器,用于在執(zhí)行器每次執(zhí)行結(jié)束后自動(dòng)檢查其執(zhí)行結(jié)果是否符合預(yù)期。該模塊根據(jù)執(zhí)行器執(zhí)行后的即時(shí)狀態(tài),判斷 LLM 當(dāng)前規(guī)劃是否完成,并提供及時(shí)補(bǔ)救的可能。當(dāng)執(zhí)行狀態(tài)判定為「未完成」時(shí),完成度檢驗(yàn)器會(huì)要求 LLM 啟動(dòng) replanning,使其能夠及時(shí)調(diào)整任務(wù)規(guī)劃。
完成度檢驗(yàn)器和上述可行性預(yù)測(cè)器,分別在 LLM 輸出指令的執(zhí)行前后,對(duì)指令的合理性和執(zhí)行的完成性進(jìn)行校驗(yàn),為任務(wù)自動(dòng)化的可靠性提供了雙重保險(xiǎn)。
3)用戶隱私保護(hù):ResponsibleTA 框架還設(shè)置了用戶隱私保護(hù)機(jī)制,該機(jī)制通過(guò)一個(gè)本地記憶單元實(shí)現(xiàn)。當(dāng)用戶將高層級(jí)命令發(fā)送給部署在云端的大語(yǔ)言模型時(shí),ResponsibleTA 中的隱私保護(hù)模塊自動(dòng)將命令中的隱私信息(如:用戶名、密碼、地址等)替換成對(duì)應(yīng)的占位符,而當(dāng)大語(yǔ)言模型將規(guī)劃的低層級(jí)指令發(fā)送給部署在本地的執(zhí)行器是,占位符會(huì)被自動(dòng)替換成對(duì)應(yīng)的真實(shí)信息。于此方式,用戶的隱私信息僅在本地被存儲(chǔ)和被使用,無(wú)需發(fā)送至云端,從而避免在傳輸和使用中的不可控風(fēng)險(xiǎn)。
針對(duì) ResponsibleTA 中的可行性預(yù)測(cè)和完成度檢查功能,其研究團(tuán)隊(duì)在 UI 任務(wù)自動(dòng)化場(chǎng)景下提出并對(duì)比了兩種不同的技術(shù)路線,并在實(shí)驗(yàn)部分詳細(xì)分析了這兩種技術(shù)路線的特點(diǎn)。以可行性預(yù)測(cè)為例,第一種技術(shù)方案通過(guò) Prompting 的方式利用大語(yǔ)言模型內(nèi)部知識(shí)進(jìn)行判斷。具體地,研究者訓(xùn)練了一個(gè)屏幕解析模型將 UI 頁(yè)面解析成所含 UI 元素的語(yǔ)言描述,并將和指令一起輸入給 GPT-4 模型,讓 GPT-4 判斷當(dāng)前指令的可行性。具體方案如下圖所示。
基于 prompt engineering 的(指令)可行性預(yù)測(cè)器實(shí)現(xiàn)方案另一種技術(shù)方案在于訓(xùn)練一個(gè)專用的多模態(tài)模型,該模型接收 UI 頁(yè)面的視覺(jué)信號(hào)和對(duì)應(yīng)的語(yǔ)言指令為輸入,輸出該指令的可行性判定結(jié)果,具體結(jié)構(gòu)如下圖。
基于專用模型的(指令)可行性預(yù)測(cè)器實(shí)現(xiàn)方案完成度檢驗(yàn)器的實(shí)現(xiàn)方案于可行性預(yù)測(cè)器類似,在此不詳細(xì)贅述。
實(shí)驗(yàn)
該工作的作者首先對(duì) ResponsibleTA 中的關(guān)鍵模塊進(jìn)行定性實(shí)驗(yàn),驗(yàn)證其有效性,并對(duì)比不同實(shí)現(xiàn)方式的特點(diǎn)。據(jù)下表所示實(shí)驗(yàn)結(jié)果,作者認(rèn)為專用模型能夠提供更優(yōu)的實(shí)驗(yàn)結(jié)果但需要收集特定任務(wù)對(duì)應(yīng)的數(shù)據(jù)和標(biāo)注用于模型訓(xùn)練,而基于 LLM 的技術(shù)方案也能達(dá)到不錯(cuò)的效果,并在實(shí)際部署的成本和靈活性方面具有優(yōu)勢(shì)。
可行性預(yù)測(cè)器和完成度檢驗(yàn)器的定性實(shí)驗(yàn)結(jié)果作者還在真實(shí)世界的實(shí)際使用場(chǎng)景中進(jìn)行 online testing, 并匯報(bào)了基線模型,具有可行性預(yù)測(cè)器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 個(gè)實(shí)際 UI 任務(wù)執(zhí)行過(guò)程中的具體表現(xiàn)。作者觀察到所提出的可行性預(yù)測(cè)器和完成度檢驗(yàn)器能夠避免執(zhí)行不可理 / 不可行的指令,并能通過(guò)讓 LLM 進(jìn)行 replanning 的方式進(jìn)行及時(shí)補(bǔ)救,從而提升任務(wù)自動(dòng)化的成功率。
真實(shí)世界中實(shí)例研究定量結(jié)果。表格中的數(shù)字表示 「有效執(zhí)行步數(shù) / 總共執(zhí)行步數(shù) (人類專家執(zhí)行步數(shù))」。此外,作者還通過(guò)具體的案例分析直觀地展現(xiàn)了 ResponsibleTA 框架中的關(guān)鍵模型如何對(duì)一個(gè)失敗案例進(jìn)行補(bǔ)救,使其成為一個(gè)成功案例。
案例分析:進(jìn)入亞馬遜網(wǎng)站并將最便宜的充電器添加至購(gòu)物車。THE END
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
ResponsibleTA 提升 LLM 可靠性,任務(wù)完成更安全、更高效 即時(shí)看
機(jī)器之心專欄機(jī)器之心編輯部AI智能助手照進(jìn)現(xiàn)實(shí)。近幾個(gè)月,ChatGPT、G
2023-06-22 -
大地震下如何存活,蘋(píng)果三份 1986 年文檔公開(kāi)(附下載地址)_即時(shí)看
IT之家6月22日消息,蘋(píng)果公司在主推iPhone和Mac的過(guò)程中,也制造了很多
2023-06-22 -
信息:佳能即將發(fā)布 V100 相機(jī),主打 vlog 市場(chǎng)?
根據(jù)網(wǎng)絡(luò)上的最新傳聞,佳能即將擴(kuò)展其V系列視頻記錄相機(jī)。目前產(chǎn)品線
2023-06-22 -
【世界新視野】氫穩(wěn)富氫水杯 H1 華為商城開(kāi)啟眾測(cè) 快速科技制氫
【宅秘新聞】近日,氫穩(wěn)富氫水杯H1在華為商城開(kāi)啟眾測(cè)活動(dòng),正式發(fā)售價(jià)
2023-06-22 -
iPhone SE 4 遙遙無(wú)期,平價(jià) 5G 蘋(píng)果手機(jī)或絕跡?_今熱點(diǎn)
巴克萊銀行分析師布萊恩柯蒂斯(BlayneCurtis)和湯姆奧馬利(TomO & 039;Malle
2023-06-22 -
聚焦:白色手機(jī)消失了?安啦,數(shù)量不多,但還是有的
手機(jī)的配色越來(lái)越豐富,各種顏色和材質(zhì)的搭配讓手機(jī)變得更加個(gè)性化和時(shí)
2023-06-22
相關(guān)閱讀
-
ResponsibleTA 提升 LLM 可靠性,任務(wù)完成更安全、更高效 即時(shí)看
機(jī)器之心專欄機(jī)器之心編輯部AI智能助手照進(jìn)現(xiàn)實(shí)。近幾個(gè)月,ChatGPT、G
-
大地震下如何存活,蘋(píng)果三份 1986 年文檔公開(kāi)(附下載地址)_即時(shí)看
IT之家6月22日消息,蘋(píng)果公司在主推iPhone和Mac的過(guò)程中,也制造了很多
-
信息:佳能即將發(fā)布 V100 相機(jī),主打 vlog 市場(chǎng)?
根據(jù)網(wǎng)絡(luò)上的最新傳聞,佳能即將擴(kuò)展其V系列視頻記錄相機(jī)。目前產(chǎn)品線
-
小長(zhǎng)假第1天,A股迎來(lái)2個(gè)利好!節(jié)后的方向定了?|新動(dòng)態(tài)
行情,沒(méi)有好壞,只有節(jié)奏,不要盯著大盤指數(shù)了,雖然我知道大多數(shù)人都
-
端午臨近 市場(chǎng)消費(fèi)升溫
傳統(tǒng)習(xí)俗帶動(dòng)端午花束熱賣,用艾草葉、玉簪葉、菖蒲葉等組成的裝飾花、
-
【世界新視野】氫穩(wěn)富氫水杯 H1 華為商城開(kāi)啟眾測(cè) 快速科技制氫
【宅秘新聞】近日,氫穩(wěn)富氫水杯H1在華為商城開(kāi)啟眾測(cè)活動(dòng),正式發(fā)售價(jià)
-
環(huán)球速訊:內(nèi)地買家攪動(dòng)香港樓市,馮小剛離場(chǎng)凈賺 6000 萬(wàn)港元,豪宅成交量大漲
本文來(lái)源:時(shí)代財(cái)經(jīng)作者:林心林內(nèi)地豪客再次攪動(dòng)了香港樓市。圖片來(lái)源
-
全球今熱點(diǎn):全國(guó)首部漸凍人康復(fù)系列片之《言語(yǔ)障礙康復(fù)》在崇川首發(fā)
交匯點(diǎn)訊6月16日下午,凝聚了崇川區(qū)幸福街道暖“凍”愛(ài)心聯(lián)盟所有成員
-
針對(duì)中國(guó),一場(chǎng)“瘋狂騙局”在澳上演
在政府、右翼智庫(kù)、軍火工業(yè)和操縱公眾思維的媒體的共同壓制下,異見(jiàn)聲
-
iPhone SE 4 遙遙無(wú)期,平價(jià) 5G 蘋(píng)果手機(jī)或絕跡?_今熱點(diǎn)
巴克萊銀行分析師布萊恩柯蒂斯(BlayneCurtis)和湯姆奧馬利(TomO & 039;Malle
-
聚焦:白色手機(jī)消失了?安啦,數(shù)量不多,但還是有的
手機(jī)的配色越來(lái)越豐富,各種顏色和材質(zhì)的搭配讓手機(jī)變得更加個(gè)性化和時(shí)
-
諾蘭專訪:AI 不是原子彈,但將其捧上神壇最危險(xiǎn)
這可能是英國(guó)著名導(dǎo)演克里斯托弗·諾蘭,發(fā)布新片最好的時(shí)機(jī),沒(méi)有之一
-
河北格力旗艦店 618 盛大開(kāi)業(yè) 充分展現(xiàn)了渠道改革下的市場(chǎng)活力-今日觀點(diǎn)
關(guān)注雷科技(leitech),這里有深扒爆料,這里有酷玩評(píng)測(cè),還有良心家電I
-
天天新動(dòng)態(tài):特斯拉的美國(guó)友商們?nèi)肴A,會(huì)被中國(guó)新勢(shì)力“卷”回老家嗎?
圖片來(lái)源@視覺(jué)中國(guó)文|電車通瘦田無(wú)人耕,耕開(kāi)有人爭(zhēng)。繼本月初曝出美國(guó)
-
每日資訊:只買百萬(wàn)醫(yī)療險(xiǎn)有意義嗎?一年交多少錢?
有意義。雖然百萬(wàn)醫(yī)療險(xiǎn)在提供醫(yī)療保障方面具有一定的價(jià)值,夠買百萬(wàn)醫(yī)
-
團(tuán)體意外險(xiǎn)怎么購(gòu)買?多少錢?
購(gòu)買團(tuán)體意外險(xiǎn)通常需要以下幾個(gè)步驟:選擇保險(xiǎn)公司:首先,您需要選擇
-
扎克伯格不服馬斯克嘲諷,兩大科技領(lǐng)袖將上演籠斗大戲|消息
IT之家6月22日消息,在埃隆馬斯克最近在推特上發(fā)文說(shuō)他愿意和扎克伯格
-
微軟確認(rèn) Xbox Series X 和 XGP 訂閱服務(wù)即將漲價(jià)
鈦媒體App6月22日消息,當(dāng)?shù)貢r(shí)間周三,微軟全球傳播主管KariPerez在向
-
對(duì)話藍(lán)晶微生物:科學(xué)家建工廠,要做 game changer 就別無(wú)選擇
訪、文|凌梓郡衛(wèi)詩(shī)婕編輯|衛(wèi)詩(shī)婕江蘇鹽城濱海區(qū)矗立著高大的白色風(fēng)車
-
推特恢復(fù)向谷歌支付云服務(wù)費(fèi)用 每日速訊
鈦媒體App6月22日消息,據(jù)市場(chǎng)消息,推特已經(jīng)恢復(fù)向谷歌云支付服務(wù)費(fèi)用
-
高盛上調(diào)日本股市目標(biāo)位,預(yù)計(jì)半年度財(cái)報(bào)可能有驚喜 熱資訊
高盛上調(diào)日本股市目標(biāo)位,稱對(duì)于日本企業(yè)改革的預(yù)期以及相對(duì)于海外市場(chǎng)
-
全球熱訊:蘋(píng)果宣布推出 visionOS 軟件開(kāi)發(fā)包,開(kāi)發(fā)者下月可在 Vision Pro 硬件上測(cè)試 app
蘋(píng)果公司北京時(shí)間6月22日宣布推出visionOS軟件開(kāi)發(fā)包(SDK),支持開(kāi)發(fā)
-
視焦點(diǎn)訊!微軟在香港正式推出 Bing 聊天機(jī)器人
6月22日,據(jù)《香港經(jīng)濟(jì)日?qǐng)?bào)》報(bào)道,微軟在香港正式推出Bing聊天機(jī)器人
-
美股牛市不穩(wěn)?高盛:若美經(jīng)濟(jì)步入衰退 標(biāo)普 500 料大跌 23%|全球滾動(dòng)
財(cái)聯(lián)社6月22日訊(編輯黃君芝)高盛(GoldmanSachs)在最新報(bào)告中表示
-
《秀我中國(guó) | 新時(shí)代中國(guó)鄉(xiāng)村志(第四集):千年梯田 十年新生》
松花江網(wǎng),是經(jīng)國(guó)家互聯(lián)網(wǎng)信息辦公室批準(zhǔn)的國(guó)家一類新聞網(wǎng)站,吉林省重
-
華貴人壽保險(xiǎn)可信嗎?怎么買? 天天時(shí)訊
可信。監(jiān)管合規(guī)性:華貴人壽保險(xiǎn)嚴(yán)格遵守監(jiān)管機(jī)構(gòu)的規(guī)章制度,按照法律
-
增額終身壽險(xiǎn)定義是什么?有什么用?-焦點(diǎn)觀察
增額終身壽險(xiǎn)是一種壽險(xiǎn),它與傳統(tǒng)的終身壽險(xiǎn)相比,在保障的基礎(chǔ)上增加
-
太平百萬(wàn)醫(yī)療優(yōu)缺點(diǎn)有哪些?一年交多少錢?-環(huán)球速訊
優(yōu)點(diǎn):全面保障:太平百萬(wàn)醫(yī)療保險(xiǎn)提供了全面的醫(yī)療保障,覆蓋住院醫(yī)療
-
環(huán)球看熱訊:泰康健康有約終身重大疾病保險(xiǎn)H款怎么樣?靠譜嗎?
泰康健康有約終身重大疾病保險(xiǎn)H款是一款特定類型的重大疾病保險(xiǎn)產(chǎn)品。
-
商業(yè)意外險(xiǎn)的賠償范圍有哪些?一年多少錢?
商業(yè)意外險(xiǎn)的賠償范圍通常包括以下幾個(gè)方面:醫(yī)療費(fèi)用賠償:商業(yè)意外險(xiǎn)
精彩推薦
- 2023年西藏戶外(露營(yíng))徒步大會(huì)舉行-滾動(dòng)
- 端午節(jié)來(lái)臨 拉薩各類粽子火熱上市
- 西藏阿里:法潤(rùn)雪域邊關(guān) “八五”普法...
- 《雪蓮花盛開(kāi)的地方》臺(tái)前幕后的故事-最...
- 全球球精選!西藏林芝以智慧監(jiān)管守護(hù)食...
- 第五屆藏博會(huì)這些本地特色產(chǎn)品賣得火-全...
- 珠峰自然保護(hù)區(qū)雪豹數(shù)量超過(guò)100只-天天短訊
- 北京市調(diào)整公立醫(yī)院醫(yī)療服務(wù)價(jià)格 新增1...
- 四川攀枝花一男子因多次辱罵110接警員被行拘
- 鄉(xiāng)村振興要擺脫流量誤區(qū)|環(huán)球觀點(diǎn)
閱讀排行
精彩推送
- 天璣曲面屏之王!vivo X90s 上...
- 谷歌幽默新廣告嘲笑 iPhone 過(guò)...
- 全球球精選!保護(hù)中國(guó)海外投資利...
- 天天信息:賈躍亭發(fā)文致歉!
- 天天快資訊丨微軟在香港正式推出...
- “超市界海底撈”董事長(zhǎng)宣布退休...
- 高新區(qū)召開(kāi)危化品重大事故隱患專...
- 每日消息!美國(guó)文學(xué)亨利詹姆斯課...
- 最新:百萬(wàn)醫(yī)療保險(xiǎn)購(gòu)買流程是什...
- 速訊:泰康人壽逸安衛(wèi)年金險(xiǎn)亮點(diǎn)...
- 平安百萬(wàn)醫(yī)療電話是多少?電話投...
- 福祿康瑞2018重疾險(xiǎn)20年后可以拿...
- 世界速讀:國(guó)壽康寧終身重大疾病...
- 周浩 在創(chuàng)新路上奮勇前行
- 今日播報(bào)!電力微網(wǎng)格織出居民“...
- 世界最資訊丨端午出游好去處,OP...
- 環(huán)球熱點(diǎn)!通用機(jī)器人里程碑?谷...
- 通訊!中國(guó)柔性 OLED 市占首超...
- 福特 CEO 嘲諷特斯拉 Cybertr...
- 三年虧損 614 億,東航“玩不...
- 理想吹響城市 NOA 號(hào)角:激光...
- 共享按摩椅,我一秒鐘都不想坐|...
- 每日看點(diǎn)!華為爆出大動(dòng)作!將有...
- “中國(guó)天眼”發(fā)現(xiàn)迄今軌道周期最...
- 哪種百萬(wàn)醫(yī)療險(xiǎn)保證續(xù)保?續(xù)保流...
- 泰康人壽逸安衛(wèi)有什么投保規(guī)則?...
- tomo放療百萬(wàn)醫(yī)療可以報(bào)銷嗎?百...
- 少兒百萬(wàn)醫(yī)療保險(xiǎn)推薦?有必要買...
- 每日資訊:水滴百萬(wàn)醫(yī)療險(xiǎn)保障范...
- 內(nèi)地買家攪動(dòng)香港樓市,馮小剛離...