Gate News 消息,4月27日——Google DeepMind 的资深产品经理、Google AI Studio 的产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应当建立各自的定制基准,用于衡量 AI 模型的性能。他将其描述为一种方法:让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”
目前,多数公司依赖公开排行榜来选择 AI 模型,但这些排行榜衡量的是通用能力,而往往与特定的业务场景不匹配。Kilpatrick 举了一个合同审查公司的例子,该公司最关心的是条款提取的准确性——这一能力在公开基准中缺失,因而无法评估模型在该任务上的表现。定制基准带来两项关键优势:首先,它们使公司能够针对自身的业务任务来评估每一次模型更新,并选择在其实际用例中表现最佳的模型,而不是只看总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而推动在对公司业务而言重要的领域实现持续优化。
Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在实施这种做法,并表示“这里可以创造出大量的 alpha”。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Anthropic 准备主动式助手 Orbit,连接六款工具,包括 GitHub 和 Figma
根据 Beating 监测到的代码发现,Anthropic 正在准备一项名为 Orbit 的新主动助理功能,它可连接 Gmail、Slack、GitHub、Calendar、Drive 和 Figma。该功能使用选择加入(opt-in)的机制,并能基于已连接的工作工具生成个性化简报,同时
GateNews15 分钟前
Vertex Ventures 支持新加坡 AI 初创公司 ReN3,$5M 在 5 月 5 日投入
根据 Vertex Ventures 东南亚和印度的说法,总部位于新加坡的企业 AI 初创公司 ReN3 在 5 月 5 日获得了 500 万美元的种子轮融资,以扩展其在东南亚的业务并投资于产品开发。该公司计划进一步深化其渠道合作伙伴
GateNews33 分钟前
OpenAI 为 Intune 应用推出 ChatGPT,并提供原生的 Microsoft 集成
据 Telegram 频道 Beating 称,OpenAI 已发布适用于 Intune 的 ChatGPT,这是一款面向企业和教育机构的独立 iOS 应用。该应用原生集成 Microsoft Intune,允许 IT 部门通过其统一端点管理 pr 进行管理
GateNews35 分钟前
Palantir 报告称 Q1 收入激增 85%,至 16330亿美元,40 条法则(Rule of 40)得分达到 145%
根据 Palantir 2026 年第一季度财报,该数据分析和 AI 软件公司的第一季度营收达到 16330亿美元,同比增长 85%,创下其有史以来最高的增长率。该公司的 Rule of 40 得分(一项衡量综合增长和盈利能力的指标)飙升至
GateNews55 分钟前
Meta 寻求 130 亿美元融资,用于德克萨斯州 AI 数据中心,由摩根士丹利和摩根大通牵头
据 Beating 称,Meta 正寻求为其在德克萨斯州的人工智能数据中心筹集约 130 亿美元融资,摩根士丹利和摩根大通正在牵头推动。知情人士表示,该融资结构主要由债务构成,剩余部分为股权,据知情人士
GateNews1小时前
Lattice Semiconductor 于 5 月 4 日以 16.5 亿美元收购 AMI,扩展至 AI 基础设施软件
据路透社报道,Lattice Semiconductor 于 5 月 4 日宣布,将以 16.5 亿美元收购 AMI,这是一家固件和基础设施软件公司,以便更深入地拓展 AI 系统管理和云基础设施。
AMI 专注于 BIOS 固件以及 Baseboard Management Controller (BMC) 软件
GateNews1小时前