国产万亿参数大模型引发热议,但并非万众期待的 DeepSeek V4
3月12日消息,近期国产大模型领域动态频传。作为备受瞩目的明星产品,DeepSeek V4 虽屡次传出即将发布的消息,但均未如期亮相。目前,新一轮关于大模型的讨论再次升温。
此次热议的焦点源于 OpenRouter 平台上出现的两款新模型。其中,代号为 Hunter Alpha 的模型据称拥有 1万亿参数,支持 1M(约100万)上下文长度,并具备多模态输出能力。另一款代号为 Healer Alpha 的模型,上下文长度达到 262K,同样支持多模态,且输出速度更快,但其具体参数量尚未公布。
外界一度猜测 Hunter Alpha 可能就是即将发布的 DeepSeek V4。然而,知名AI大模型评测专家 @karminski-牙医 指出,该模型并非 V4,而很可能是智谱公司的新一代旗舰大模型。回顾 DeepSeek 一贯的产品发布风格,其通常不会在 OpenRouter 等平台进行前期测试,而是倾向于低调上线,随后通过社群发布简短公告予以确认。因此,Hunter Alpha 是 DeepSeek V4 的可能性确实较低。

关于 DeepSeek V4 的近期传闻与可信度分析
尽管 Hunter Alpha 并非 V4,但关于 DeepSeek V4 本身的传闻近期也层出不穷。网络流传的信息称,V4 将具备 1万亿参数,采用 MOE(混合专家)架构,激活参数量为 320亿,支持 1M 上下文 并原生集成多模态能力。尤为值得注意的是,传闻称 V4 将针对 昇腾910C平台 进行优化,而非仅适配英伟达或AMD等国外芯片。
不过,上述爆料的整体可信度普遍被认为不高。目前相对更可信的线索来自知名量化专家 @bdsqlsz,其被发现在 HuggingFace 平台上传了 DeepSeek-V4-INT8 的权重文件。这一举动暗示 V4 将支持 INT8 量化算法,更重要的是,它通常意味着模型已进入发布前的最后阶段。
另有供应链消息称,DeepSeek 已要求供应商在 6月20日 前确保服务稳定,团队近期正在进行最终的压力测试,发布已近在咫尺。
总而言之,虽然具体发布时间仍未确定,但种种迹象表明 DeepSeek V4 的发布正在稳步推进。值得期待的产品,值得耐心等待。

评论
发表评论