Nucleus-Image开源,17B参数推理仅激活2B,无后训练基准超Imagen4

robot
摘要生成中

ME News 消息,4 月 16 日(UTC+8),据 动察 Beating 监测,Nucleus AI 团队发布文生图模型 Nucleus-Image,同步开源模型权重、训练代码和训练数据集,许可证为 Apache 2.0,可商用。模型采用稀疏混合专家(MoE)扩散变换器架构,总参数量 17B,分布在每层 64 个路由专家中,每次推理仅激活约 2B 参数,推理成本显著低于同参数量级的密集模型。 在三项标准基准上,Nucleus-Image 与闭源头部模型持平甚至超越:GenEval 得分 0.87,与千问图像模型持平,空间位置子项(0.85)居所有对比模型之首;DPG-Bench 得分 88.79,综合排名第一;OneIG-Bench 得分 0.522,超过谷歌 Imagen4(0.515)和 Recraft V3(0.502)。以上成绩全部来自纯预训练,未做 DPO、强化学习或人类偏好调优。Nucleus AI 官方称这是「该质量级别上首个全开源 MoE 扩散模型」。 训练数据从网络大规模爬取,经多轮过滤、去重和美学评分后保留 7 亿张图片,生成 15 亿图文对;训练分三阶段从 256 到 1024 分辨率逐步推进,共 170 万步。文本编码器使用 Qwen3-VL-8B-Instruct,通过 diffusers 库调用,并内置跨去噪步骤的文本 KV 缓存,进一步降低推理开销。 对需要在本地部署图像生成的开发者来说,17B 参数但只需激活 2B 的设计意味着消费级 GPU 也有运行空间。完整开源(权重 + 训练代码 + 数据集)相对罕见------多数开源图像模型只放权重,数据集和训练细节仍封闭,这也是文生图领域可复现研究的主要瓶颈之一。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论