New Relic 推出 AI Agent 平台:1 次把"Agent 失控成本"讲透

Agent 上线不是"模型选型",而是"生产系统治理"。New Relic 这次押注的就是可观测与治理

New Relic 推出 AI Agent 平台:1 次把”Agent 失控成本”讲透

Agent 上线不是”模型选型”,而是”生产系统治理”。New Relic 这次押注的就是可观测与治理


开篇

2 月 24 日,New Relic 发布了一个新产品:Agentic Platform。

表面上看,这又是一个”AI Agent 平台”。但仔细看完官方文档和发布会信息,我发现它的定位很特别——不是帮你”搭建 Agent”,而是帮你”管住 Agent”。

这篇文章我把核心功能、监控清单、竞品对比全部整理好了。如果你正在考虑把 Agent 接入生产环境,这篇能帮你少走弯路。


一、Agent 会把成本跑飞:4 种失控形态

为什么需要专门监控 AI Agent?因为 Agent 失控的方式,比传统服务多得多。

1. Token 调用费失控

多 Agent 互相调用,工具链路变长,单次请求的 token 消耗和外部 API 调用次数可能指数级上升。

如果没有按”会话/任务”聚合成本,财务只会看到账单在涨,但不知道钱花在哪了。

2. 延迟失控

Agent 编排越复杂,端到端延迟越容易被某个工具调用、检索或重试拖垮。

没有 trace 级证据,就只能”猜是模型慢”,但实际可能是某个工具接口超时。

3. 质量失控

Agent 的失败不一定报错:可能是检索错误、工具返回脏数据、决策走偏、结果不可复现。

必须把”质量指标”纳入监控面板,而不是只看成功率。

4. 权限与动作失控

Agent 能”做事”就意味着要接权限:工单系统、发布系统、云资源、告警渠道。

没有 RBAC(基于角色的访问控制)和审计日志,出事后无法追责与复盘。

这 4 种失控形态,是 New Relic 这次产品设计的核心出发点。


二、New Relic Agentic Platform 到底是什么

官方定位很明确:给 SRE 和运维团队一个”可视化、可治理”的 Agent 平台,让操作从被动监控走向可控执行。

核心能力拆解:

无代码 Agent Builder

拖拽式界面,把”排障经验、巡检流程、告警处理 SOP”做成可复用的 Agent 工作流。

不需要写代码,运维人员自己就能搭建。

预置 Agent

官方提供一组”预构建专家 Agent”,示例包含 SRE Nerd,用来缩短落地时间。

动态运行时

不是只跑固定脚本,而是针对复杂故障做多步推理,并能适配新场景。

MCP 支持

通过 Model Context Protocol(MCP)把 Agent 安全接到外部工具和数据源,强调”安全工具访问”。

治理:RBAC + 审计日志

细粒度权限控制 + 全量审计日志,这是生产可用的关键点。

内置评测引擎

持续评测用来建立对 Agent 自主动作的信任,上线前和上线后都要评估,避免版本迭代越改越差。

可用性

当前为 Preview(预览)阶段,作为 New Relic Intelligent Observability Platform 的一部分提供给客户。


三、AI Agent Monitoring:多 Agent 系统的可观测抓手

New Relic 在发布会里把痛点说得很直白:多 Agent 的 agent-agent mesh(网状调用)必须可视化,否则问题只会在网状调用里扩散。

官方列出的可观测能力:

Service Map

展示 Agent 之间的交互关系图,包括 Agent-to-Agent、Agent-to-Tool、Agent-to-Model。

Agent 性能概览

请求数、平均延迟、错误率等核心指标。

Trace Drill-down

下钻到某个被调用的 agent 或 tool 的 trace,定位具体卡点和异常点。

这 3 个能力,是监控多 Agent 系统的基础。

同时,New Relic 的 AI Monitoring(更偏应用侧的 AI APM)也在文档里明确支持端到端可视化:performance(性能)、cost(成本)、quality(质量)。

支持的模型供应商包括 OpenAI、Bedrock、DeepSeek 等。


四、可复现的 Agent 监控清单

以下清单基于 New Relic 对 AI monitoring 与 Agentic AI monitoring 的公开能力描述整理,可作为”实测操作清单”。

A. 拓扑与链路(先把系统画出来)

  • 必做面板:Agent Service Map
  • 必看字段:关键链路的调用次数、扇出数(fan-out)、重试次数

B. 性能(别等用户骂”卡”了才查)

  • P50/P95/P99 端到端延迟(按会话/任务/意图分类)
  • 每个 agent/tool 的平均延迟、错误率
  • 关键告警:P95 延迟突增、单个工具调用异常变慢

C. 成本(最容易被忽略,但最致命)

  • 会话级成本聚合(按用户/项目/环境/版本)
  • token 变化趋势(配合调用链路长度一起看)
  • 关键告警:单次会话 token 暴涨、某个 agent 的调用次数短时间翻倍

D. 质量(不报错 ≠ 正确)

  • 成功率(是否完成任务/是否命中预期结构化输出)
  • 需要人工接管率(handoff rate)
  • 回答被用户纠正/重试率
  • 与 New Relic 内置评测引擎呼应:上线前/上线后都要持续评测

E. 治理与审计(生产可用的底线)

  • RBAC:按”Agent 能做什么动作”切权限,而不是按”谁能看面板”切权限
  • 审计日志:每次 agent 动作、触发来源、参数、结果
  • 关键告警:非预期的高危动作、权限策略变更

五、竞品对比:3 档选择

1. New Relic(可观测平台扩展到 Agent)

  • 强项:把 Agent 放进现有 APM、日志、告警体系里做统一治理
  • 强调生产环境 RBAC、审计、评测与 MCP 集成
  • 更适合:已经用 New Relic 做 APM 的企业团队

2. Datadog LLM Observability(更偏全链路追踪 + 评估)

  • 能力关键词:端到端 tracing、输入输出、延迟、token 成本、错误
  • 附带评估、安全评估等
  • 注意点:按产品/用量计费,需要结合现有订阅结构评估

3. Splunk AI Agent Monitoring(同样主打性能/质量/成本)

  • 官方定位:监控与排障 AI agents 和应用的性能、质量、成本
  • 提供内置体验(Agents 页面、依赖图、服务图等)

4. LangSmith(更贴近研发侧)

  • Tracing + Evaluation + 实验管理
  • 定价结构:包含 seat(每席位月费)+ trace volume(按 trace 量)

总结

New Relic 这次的产品,核心不是”帮你搭建 Agent”,而是”帮你管住 Agent”。

对于想把 Agent 接入生产环境的企业,这个思路更务实:

  • 先监控,再优化
  • 先治理,再扩展
  • 先可控,再自主

价格参考:New Relic 官方免费层每月 100GB 免费数据摄取,提供 Unlimited free basic users,无需信用卡即可开始。


这 4 种 Agent 失控形态,你遇到过哪种?

或者你正在用哪个平台监控 AI Agent?来评论区分享一下你的经验和踩过的坑。

如果觉得这篇文章有用,点个”在看”,让更多做 AI 落地的朋友看到。