详细调试信息 - getPostsByCategory:
当前 cat_name: 科技生活
传入的 cat_slugs: %e7%a7%91%e6%8a%80%e7%94%9f%e6%b4%bb
当前页码: 1
is_lifetime: false
时间条件: 其他欄目 Default - 2023年1月1日后
查询结果:
找到文章数: 155
最大页数: 16
当前返回文章ID数: 10
文章IDs: 6305358, 6305329, 6303731, 6298959, 6295806, 6295732, 6293921, 6289721, 6287532, 6287441
第1页第一篇文章日期: 2023-06-30
第1页最后一篇文章日期: 2023-06-12

科技生活| 反思能力通過多項測試 GPT-4準確度升近30%

即使不太可能的六個月暫停人工智能開發計劃繼續進行,似乎GPT-4也有能力實現巨大的飛躍,只要它認真審視一下自己。研究人員已經讓GPT對自己的工作進行了批評,使其性能提升30%

研究人員Noah ShinnAshwin Gopinath寫道:「人類不是每天都在開發新技術,利用曾經被認為是人類智能所特有的決策過程來達到最先進的標準。但是,這正是我們所做的。」

「反思」(Reflexion)技術採用了GPT-4已經令人印象深刻的執行各種測試的能力,並引入了「一個框架,允許人工智能代理模仿人類一樣的自我反思並評估其性能」。有效地,它引入了額外的步驟,讓GPT-4設計測試來批判自己的答案,尋找錯誤和誤區,然後根據它發現的情況重寫其解決方案。

該團隊將其技術用於幾個不同的性能測試。在由模型從未見過的164Python編程問題組成的HumanEval測試中,GPT-4的得分創下了67%的紀錄,但使用反思技術,其得分躍升至非常令人印象深刻的88%

Alfworld測試中,該測試挑戰人工智能通過在各種互動環境中執行幾種不同的允許行動來作出決定和解決多步驟任務的能力,反思技術將GPT-4的性能從73%左右提升到接近完美的97%,在134項任務中只有4項失敗。

在另一項名為HotPotQA的測試中,語言模型被賦予了對維基百科的訪問權,然後在可能的13,000個問題/答案對中給出100個,「挑戰代理人對內容的解析和對幾個支持文件的推理」。在這項測試中,GPT-4的準確率只有34%,但帶有反思能力的GPT-4成功地做得更好,達到54%

越來越多的時候,解決人工智能問題的方法似乎是更多的人工智能。在某些方面,這感覺有點像生成式對抗網絡,其中兩個人工智能互相磨練技能,例如,一個試圖生成無法與「真實」圖像區分的圖像,而另一個試圖區分假的和真的。但在這種情況下,GPT既是作者又是編輯,努力改善自己的輸出。

圖片:Northwestern University/MIT

T09

---------------------------------------------

>>>星島網WhatsApp爆料熱線(416)6775679,爆料一經錄用,薄酬致意。

>>>立即瀏覽【移民百答】欄目:新移民抵埗攻略,老華僑也未必知道的事,移民、工作、居住、食玩買、交通、報稅、銀行、福利、生育、教育。
點擊以下6大平台 接收加拿大新聞及生活資訊

延伸閱讀

延伸閱讀

【港人社區】多倫多港人社區發起籌款 支持加港圖書館發展

毒品危機攻入安省圖書館 保安一年施逾40次救命針

【消費情報】本周各大華人超市最新優惠出爐(2月27日起)

2月26日焦點新聞 (A1電台YouTube頻道)