DeepSeek推V4新模型 市场憧憬国产芯片需求增 中芯曾飙逾11%
中国AI初创企业DeepSeek宣布推出全新开源AI旗舰模型“V4 Flash”及“V4 Pro”系列,宣称在编程基准测试表现出色并支援百万级上下文窗口。受消息带动,市场憧憬国产芯片需求增加,刺激半导体股份周五造好,中芯国际(981)曾飙逾11%。不过,公司坦言目前面临算力紧张的情况,预料下半年采用华为芯片后成本方会显著下降;同时,公司亦面临美国政府针对其涉嫌违规使用英伟达芯片的审查。
支援百万级上下文窗口
DeepSeek自推出R1模型后,相隔一年再推新模型,V4系列采用“混合注意力架构”(Hybrid Attention Architecture),支援高达100万个Token的上下文窗口,意味着用户可将整个代码库或长篇文件作为单一提示词输入。另外,DeepSeek表示,该模型在编程基准测试中表现顶级,并在推理和智能体任务方面取得重大进展。
资料显示,该模型采用“专家混合”(MoE)技术,每项任务最多激活370亿个参数,令推理成本远低于同类前沿模型。惟公司强调,虽然V4性能较最顶尖模型仍落后约3至6个月,但其设计初衷是能够部署于较廉价的基础设施上,从根本上降低成本。
下半年引华为芯片降成本
DeepSeek在微信发文表示,受算力紧张影响,V4 Pro系列的服务容量极度有限。不过,公司预期今年下半年华为的升腾950芯片计算集群投入运作后,模型定价将大幅下降。
受消息影响,市场憧憬新模型将带动国产芯片需求,本港半导体股份周五造好。中芯国际股价曾飙升达11.7%,华虹半导体(1347)更急升逾19.4%。相较之下,竞争对手智谱(2513)相关股份则最多挫12.8%。
美国政府忧其违规用英伟达芯片
DeepSeek在海外市场则面临监管及同业指控压力,美国政府怀疑DeepSeek在内蒙古的数据中心,使用受出口禁令限制的英伟达 Blackwell处理器,美国官员去年已开始对此展开调查。此外,OpenAI及Anthropic早前指控DeepSeek透过“模型蒸馏”(Distillation)技术,利用对手模型的输出数据来训练自身AI能力。
>>>星岛网WhatsApp爆料热线(416)6775679,爆料一经录用,薄酬致意。
>>>立即浏览【生活百答】栏目:新移民抵埗攻略,老华侨也未必知道的事,移民、工作、居住、食玩买、交通、报税、银行、福利、生育、教育。
