科技生活| 反思能力通過多項測試 GPT-4準確度升近30%

即使不太可能的六個月暫停人工智能開發計劃繼續進行,似乎GPT-4也有能力實現巨大的飛躍,只要它認真審視一下自己。研究人員已經讓GPT對自己的工作進行了批評,使其性能提升30%

研究人員Noah ShinnAshwin Gopinath寫道:「人類不是每天都在開發新技術,利用曾經被認為是人類智能所特有的決策過程來達到最先進的標準。但是,這正是我們所做的。」

「反思」(Reflexion)技術採用了GPT-4已經令人印象深刻的執行各種測試的能力,並引入了「一個框架,允許人工智能代理模仿人類一樣的自我反思並評估其性能」。有效地,它引入了額外的步驟,讓GPT-4設計測試來批判自己的答案,尋找錯誤和誤區,然後根據它發現的情況重寫其解決方案。

該團隊將其技術用於幾個不同的性能測試。在由模型從未見過的164Python編程問題組成的HumanEval測試中,GPT-4的得分創下了67%的紀錄,但使用反思技術,其得分躍升至非常令人印象深刻的88%

Alfworld測試中,該測試挑戰人工智能通過在各種互動環境中執行幾種不同的允許行動來作出決定和解決多步驟任務的能力,反思技術將GPT-4的性能從73%左右提升到接近完美的97%,在134項任務中只有4項失敗。

在另一項名為HotPotQA的測試中,語言模型被賦予了對維基百科的訪問權,然後在可能的13,000個問題/答案對中給出100個,「挑戰代理人對內容的解析和對幾個支持文件的推理」。在這項測試中,GPT-4的準確率只有34%,但帶有反思能力的GPT-4成功地做得更好,達到54%

越來越多的時候,解決人工智能問題的方法似乎是更多的人工智能。在某些方面,這感覺有點像生成式對抗網絡,其中兩個人工智能互相磨練技能,例如,一個試圖生成無法與「真實」圖像區分的圖像,而另一個試圖區分假的和真的。但在這種情況下,GPT既是作者又是編輯,努力改善自己的輸出。

圖片:Northwestern University/MIT

T09

---------------------------------------------

>>>立即瀏覽【移民百答】欄目:新移民抵埗攻略,老華僑也未必知道的事,移民、工作、居住、食玩買、交通、報稅、銀行、福利、生育、教育。

>>>即讀【新移民專欄】:新移民第一身經驗,與你分享當下年輕移民生活日常大小事,即讀「新移民專欄」。

>>>下載【星島新聞(加拿大版) 】App,隨時看到最新最快新聞:
iPhone:https://apple.co/2IBi812
Android:https://bit.ly/2Pe8anu

>>>訂閱【加拿大星島網電郵快訊】,每天可收到最快新聞資訊電郵:
https://www.singtao.ca/subscribe/singtao.php

>>>立即關注加拿大星島新聞網TG Channel,讓加國新聞無遺漏全天候向你推送:
https://t.me/singtaoca

>>>訂閱CCUE YouTube 頻道,查看更多吃喝玩樂、生活資訊影片。
點擊以下6大平台 接收加拿大新聞及生活資訊
share to wechat

延伸閱讀

延伸閱讀

【巴黎奧運|多圖】一文看全世界各地運動員開幕服裝 邊套最靚?

Walmart 最新一期店內優惠(7月25日至7月31日)

咸美頓深夜兩車相撞 事件中4人死傷

省政府擬增加藥物名冊 通過後或能在藥房購買14種新藥

都市網新聞