Meta新AI模型性能遭質疑官方否認作弊僅承認「在不同服務參差不齊」

2025年04月09日 02:57

科技巨頭Meta上周六（5日）推出了新AI模型Llama 4，包括較小型的Scout版本和標準版Maverick，並預覽了號稱「迄今最強大」的 Llama 4 Behemoth，但其後遭AI開發社區的強烈質疑。

Meta生成式AI負責人Ahmad Al-Dahle對此發聲明，承認模型「在不同服務中表現出參差不齊的質量」，解釋稱是因為Llama 4剛開發完就迅速發布，並承諾公司會盡快修復漏洞。此外，Al-Dahle明確否認Llama 4在訓練集中「刷分」作弊的指控，但未就具體測試數據差異作出詳細解釋。

Llama 4僅完成16%編程任務

據內媒報道，多位開發者測試後發現，Llama 4在實際應用中的表現與Meta官方宣傳存在顯著差距。在一項讓模型完成225項編程任務的基準測試中，Llama 4 Maverick僅完成16%編程任務，遠低於同級別的Gemini 2.5 Pro和Claude 3.7 Sonnet等競爭對手。

AI工程師Andriy Burkov在社交平台X發文指出，Meta宣稱Llama 4 Scout擁有1,000萬token的上下文窗口純屬「偽命題」，稱「實際上不會有任何模型針對超過25.6萬個token的提示詞進行訓練」。

Meta研究主管辭職惹質疑

隨著測試結果令人失望，業內開始懷疑Meta在各項評測中使用了經過特殊優化的「特供版」模型。前Meta研究員、現任AI2高級研究員Nathan Lambert比較測試後指出，在「大模型競技場」中獲得高分的Llama 4 Maverick與公開發布版本不同，前者是「經過對話性優化」的特殊版本。更引人關注的是，就在Llama 4發布前，在Meta工作了8年的AI研究主管Joelle Pineau宣布離職，更加深外界對該模型開發時「黑箱操作」的質疑。

---------------------------------------------

>>>星島網WhatsApp爆料熱線(416)6775679，爆料一經錄用，薄酬致意。

>>>立即瀏覽【生活百答】欄目：新移民抵埗攻略，老華僑也未必知道的事，移民、工作、居住、食玩買、交通、報稅、銀行、福利、生育、教育。

點擊以下6大平台接收加拿大新聞及生活資訊