Meta新AI模型性能遭质疑官方否认作弊仅承认“在不同服务参差不齐”

2025年04月09日 02:57

科技巨头Meta上周六（5日）推出了新AI模型Llama 4，包括较小型的Scout版本和标准版Maverick，并预览了号称“迄今最强大”的 Llama 4 Behemoth，但其后遭AI开发社区的强烈质疑。

Meta生成式AI负责人Ahmad Al-Dahle对此发声明，承认模型“在不同服务中表现出参差不齐的质量”，解释称是因为Llama 4刚开发完就迅速发布，并承诺公司会尽快修复漏洞。此外，Al-Dahle明确否认Llama 4在训练集中“刷分”作弊的指控，但未就具体测试数据差异作出详细解释。

Llama 4仅完成16%编程任务

据内媒报道，多位开发者测试后发现，Llama 4在实际应用中的表现与Meta官方宣传存在显著差距。在一项让模型完成225项编程任务的基准测试中，Llama 4 Maverick仅完成16%编程任务，远低于同级别的Gemini 2.5 Pro和Claude 3.7 Sonnet等竞争对手。

AI工程师Andriy Burkov在社交平台X发文指出，Meta宣称Llama 4 Scout拥有1,000万token的上下文窗口纯属“伪命题”，称“实际上不会有任何模型针对超过25.6万个token的提示词进行训练”。

Meta研究主管辞职惹质疑

随着测试结果令人失望，业内开始怀疑Meta在各项评测中使用了经过特殊优化的“特供版”模型。前Meta研究员、现任AI2高级研究员Nathan Lambert比较测试后指出，在“大模型竞技场”中获得高分的Llama 4 Maverick与公开发布版本不同，前者是“经过对话性优化”的特殊版本。更引人关注的是，就在Llama 4发布前，在Meta工作了8年的AI研究主管Joelle Pineau宣布离职，更加深外界对该模型开发时“黑箱操作”的质疑。

---------------------------------------------

>>>星岛网WhatsApp爆料热线(416)6775679，爆料一经录用，薄酬致意。

>>>立即浏览【生活百答】栏目：新移民抵埗攻略，老华侨也未必知道的事，移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。

点击以下6大平台接收加拿大新闻及生活资讯