AI 競賽 | Claude 3 勁過GPT-4?基準測試膺最聰明模型

[星島綜合報道]在這些下一代智能AI上工作一定是一種怪異的體驗。隨著Anthropic宣布在一系列基準測試中測試過的最聰明模型,研究人員回憶起一個令人不寒而慄的時刻,那就是Claude 3意識到自己正在被評估。

Anthropic是由一群資深的OpenAI團隊成員在2021年創立的,他們因為不同意OpenAI決定與微軟密切合作而分道揚鑣。該公司的Claude和Claude 2 AI一直與GPT模型競爭,但Anthropic和Claude都還沒有真正進入公眾視野。

這種情況可能會隨著Claude 3的出現而改變,因為Anthropic現在聲稱在一系列多模態測試中超越了GPT-4和Google的Gemini 1.0模型,設定了「在廣泛的認知任務中」的新行業基準。

那麼有什麼不同呢?三個不同的Claude 3模型都將推出200,000個令牌的上下文窗口,但它們都能夠在給定「超過一百萬個令牌」的輸入後產生幾乎即時的回應。

把這放在上下文中,托爾斯泰的1200頁、580,000字的史詩巨著《戰爭與和平》是一本相當厚重的書,但它可能壓縮到大約750,000個令牌。所以Claude 3可以接受遠超過一本《戰爭與和平》的輸入數據量,並在同時理解所有這些數據的同時,提供「幾乎即時」的答案。

Anthropic表示,Claude 3比其先前的模型更不可能拒絕回答被認為接近安全和體面的護欄的問題。但另一方面,該團隊表示它也經過了精心測試,很難被破解。

它的設計傾向於商業用戶,Anthropic表示,它更擅長遵循「複雜的多步驟指令」,並且「特別擅長遵守品牌聲音和回應指南,以及開發我們的用戶可以信賴的面向客戶的體驗。」它強大的視覺能力賦予它下一代的能力,能夠理解和處理照片、圖表、圖形、流程圖和技術圖表。它在解決超難問題方面也特別擅長。

以下是它在其中設定了新的AI行業紀錄的一些基準測試:

值得注意的是,Claude 3的零訓練數學能力大大超過了GPT-4的4至8次訓練嘗試,其在HumanEval編碼測試上的能力也絕對出色。

業者或會注意到,Google的Gemini 1.5和OpenAI的GPT-4 Turbo模型目前沒有相等的基準數據,所以雖然Claude 3是統計表上的王者,但這兩個模型在現實世界中可能還是有優勢。

而且,正如現在應該非常清楚的那樣,OpenAI幾乎肯定已經訓練了GPT-5,甚至可能是超越它的東西,並且正在進行對齊和測試。就像Sora被發布來埋葬Gemini 1.5在新聞周期中一樣,我們確信OpenAI已經準備好了其他重磅炸彈,在必要時投放。

從這個意義上講,OpenAI今天似乎沒有發布任何東西,這可能更多地說明了它對Anthropic作為一個真正的競爭對手的看法,而不是說明誰擁有最聰明的模型。

不過,Claude確實很敏銳 - 也許對於公司用來評估其模型的測試來說太敏銳了。在「大海撈針」測試中,一個隨機的句子被埋在大量的信息中,模型被問到一個與這個句子相關的問題,Claude給出的回應似乎轉過身直接看著研究人員。

我們可能會越來越多地期待這些事情的發生,因為現有和較老的語言模型的大量信息現在已經成為新模型訓練的一部分。

當然,了解從事AI工作的公司對「自我意識」究竟意味著什麼,以及人工通用智能當前的定義是什麼,肯定會很有趣。因為看起來,在未來幾年內,我們將需要對這些概念有一些非常清晰的定義,或者可能是幾個月,又或者在這個領域,可能是幾周。

圖片:Anthropic AI

T10

---------------------------------------------

>>>立即瀏覽【移民百答】欄目:新移民抵埗攻略,老華僑也未必知道的事,移民、工作、居住、食玩買、交通、報稅、銀行、福利、生育、教育。

>>>即讀【新移民專欄】:新移民第一身經驗,與你分享當下年輕移民生活日常大小事,即讀「新移民專欄」。

>>>下載【星島新聞(加拿大版) 】App,隨時看到最新最快新聞:
iPhone:https://apple.co/2IBi812
Android:https://bit.ly/2Pe8anu

>>>訂閱【加拿大星島網電郵快訊】,每天可收到最快新聞資訊電郵:
https://www.singtao.ca/subscribe/singtao.php

>>>立即關注加拿大星島新聞網TG Channel,讓加國新聞無遺漏全天候向你推送:
https://t.me/singtaoca

>>>訂閱CCUE YouTube 頻道,查看更多吃喝玩樂、生活資訊影片。
點擊以下6大平台 接收加拿大新聞及生活資訊
share to wechat

延伸閱讀

延伸閱讀

達美航空波音起飛即傳巨響 返航落地驚見「逃生梯消失」

哥斯拉「突襲」東京都廳 8000人現場睇光影騷︱內附官方播放時間

伊拉克視同性戀關係為刑事罪 最高囚15年

淋巴癌|20歲男流汗發燒患淋巴癌病逝 醫生教分4大先兆 腫塊不痛要小心

都市網新聞