Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。
在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。
微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Anthropic、OpenAI 投资自 2026 年开始以来在零售加密交易中累计超过 11 亿美元
据彭博报道,自 2026 年初以来,散户投资者已向私营 AI 公司衍生品的杠杆交易投入约 11.3 亿美元。加密平台 Ventuals 和 PreStocks 支持 24 小时交易,包括 Anthropic、OpenAI 和 SpaceX 等公司,同时不授予直接的交易权限。
GateNews3 分钟前
高通资深人士 Alex Katouzian 出任英特尔客户端计算与物理 AI 执行副总裁
据英特尔称,5 月 5 日,Alex Katouzian 作为执行副总裁兼客户端计算与物理 AI 部门总经理加入公司。Katouzian 之前曾担任高通移动、计算和 XR 业务的执行副总裁兼总经理。英特尔也
GateNews3 分钟前
谷歌的 AI 概览每小时提供数千万条错误答案;Gemini 3 准确率为 91%
据《纽约时报》报道,谷歌的 AI 概览功能在使用 Gemini 3 时的准确率为 91%,这意味着它每小时都会给出数千万条不正确的答案。根据谷歌每年处理超过 5 万亿次搜索,这相当于几十万条不准确的回答。
GateNews11 分钟前
Anthropic 准备主动式助手 Orbit,连接六款工具,包括 GitHub 和 Figma
根据 Beating 监测到的代码发现,Anthropic 正在准备一项名为 Orbit 的新主动助理功能,它可连接 Gmail、Slack、GitHub、Calendar、Drive 和 Figma。该功能使用选择加入(opt-in)的机制,并能基于已连接的工作工具生成个性化简报,同时
GateNews55 分钟前
Vertex Ventures 支持新加坡 AI 初创公司 ReN3,$5M 在 5 月 5 日投入
根据 Vertex Ventures 东南亚和印度的说法,总部位于新加坡的企业 AI 初创公司 ReN3 在 5 月 5 日获得了 500 万美元的种子轮融资,以扩展其在东南亚的业务并投资于产品开发。该公司计划进一步深化其渠道合作伙伴
GateNews1小时前
OpenAI 为 Intune 应用推出 ChatGPT,并提供原生的 Microsoft 集成
据 Telegram 频道 Beating 称,OpenAI 已发布适用于 Intune 的 ChatGPT,这是一款面向企业和教育机构的独立 iOS 应用。该应用原生集成 Microsoft Intune,允许 IT 部门通过其统一端点管理 pr 进行管理
GateNews1小时前