New Relic 推出 AI Agent 平台：1 次把"Agent 失控成本"讲透

2026-03-06

Agent 上线不是"模型选型"，而是"生产系统治理"。New Relic 这次押注的就是可观测与治理

New Relic 推出 AI Agent 平台：1 次把”Agent 失控成本”讲透

Agent 上线不是”模型选型”，而是”生产系统治理”。New Relic 这次押注的就是可观测与治理

开篇

2 月 24 日，New Relic 发布了一个新产品：Agentic Platform。

表面上看，这又是一个”AI Agent 平台”。但仔细看完官方文档和发布会信息，我发现它的定位很特别——不是帮你”搭建 Agent”，而是帮你”管住 Agent”。

这篇文章我把核心功能、监控清单、竞品对比全部整理好了。如果你正在考虑把 Agent 接入生产环境，这篇能帮你少走弯路。

一、Agent 会把成本跑飞：4 种失控形态

为什么需要专门监控 AI Agent？因为 Agent 失控的方式，比传统服务多得多。

1. Token 调用费失控

多 Agent 互相调用，工具链路变长，单次请求的 token 消耗和外部 API 调用次数可能指数级上升。

如果没有按”会话/任务”聚合成本，财务只会看到账单在涨，但不知道钱花在哪了。

2. 延迟失控

Agent 编排越复杂，端到端延迟越容易被某个工具调用、检索或重试拖垮。

没有 trace 级证据，就只能”猜是模型慢”，但实际可能是某个工具接口超时。

3. 质量失控

Agent 的失败不一定报错：可能是检索错误、工具返回脏数据、决策走偏、结果不可复现。

必须把”质量指标”纳入监控面板，而不是只看成功率。

4. 权限与动作失控

Agent 能”做事”就意味着要接权限：工单系统、发布系统、云资源、告警渠道。

没有 RBAC（基于角色的访问控制）和审计日志，出事后无法追责与复盘。

这 4 种失控形态，是 New Relic 这次产品设计的核心出发点。

二、New Relic Agentic Platform 到底是什么

官方定位很明确：给 SRE 和运维团队一个”可视化、可治理”的 Agent 平台，让操作从被动监控走向可控执行。

核心能力拆解：

无代码 Agent Builder

拖拽式界面，把”排障经验、巡检流程、告警处理 SOP”做成可复用的 Agent 工作流。

不需要写代码，运维人员自己就能搭建。

预置 Agent

官方提供一组”预构建专家 Agent”，示例包含 SRE Nerd，用来缩短落地时间。

动态运行时

不是只跑固定脚本，而是针对复杂故障做多步推理，并能适配新场景。

MCP 支持

通过 Model Context Protocol（MCP）把 Agent 安全接到外部工具和数据源，强调”安全工具访问”。

治理：RBAC + 审计日志

细粒度权限控制 + 全量审计日志，这是生产可用的关键点。

内置评测引擎

持续评测用来建立对 Agent 自主动作的信任，上线前和上线后都要评估，避免版本迭代越改越差。

可用性

当前为 Preview（预览）阶段，作为 New Relic Intelligent Observability Platform 的一部分提供给客户。

三、AI Agent Monitoring：多 Agent 系统的可观测抓手

New Relic 在发布会里把痛点说得很直白：多 Agent 的 agent-agent mesh（网状调用）必须可视化，否则问题只会在网状调用里扩散。

官方列出的可观测能力：

Service Map

展示 Agent 之间的交互关系图，包括 Agent-to-Agent、Agent-to-Tool、Agent-to-Model。

Agent 性能概览

请求数、平均延迟、错误率等核心指标。

Trace Drill-down

下钻到某个被调用的 agent 或 tool 的 trace，定位具体卡点和异常点。

这 3 个能力，是监控多 Agent 系统的基础。

同时，New Relic 的 AI Monitoring（更偏应用侧的 AI APM）也在文档里明确支持端到端可视化：performance（性能）、cost（成本）、quality（质量）。

支持的模型供应商包括 OpenAI、Bedrock、DeepSeek 等。

四、可复现的 Agent 监控清单

以下清单基于 New Relic 对 AI monitoring 与 Agentic AI monitoring 的公开能力描述整理，可作为”实测操作清单”。

A. 拓扑与链路（先把系统画出来）

必做面板：Agent Service Map
必看字段：关键链路的调用次数、扇出数（fan-out）、重试次数

B. 性能（别等用户骂”卡”了才查）

P50/P95/P99 端到端延迟（按会话/任务/意图分类）
每个 agent/tool 的平均延迟、错误率
关键告警：P95 延迟突增、单个工具调用异常变慢

C. 成本（最容易被忽略，但最致命）

会话级成本聚合（按用户/项目/环境/版本）
token 变化趋势（配合调用链路长度一起看）
关键告警：单次会话 token 暴涨、某个 agent 的调用次数短时间翻倍

D. 质量（不报错 ≠ 正确）

成功率（是否完成任务/是否命中预期结构化输出）
需要人工接管率（handoff rate）
回答被用户纠正/重试率
与 New Relic 内置评测引擎呼应：上线前/上线后都要持续评测

E. 治理与审计（生产可用的底线）

RBAC：按”Agent 能做什么动作”切权限，而不是按”谁能看面板”切权限
审计日志：每次 agent 动作、触发来源、参数、结果
关键告警：非预期的高危动作、权限策略变更

五、竞品对比：3 档选择

1. New Relic（可观测平台扩展到 Agent）

强项：把 Agent 放进现有 APM、日志、告警体系里做统一治理
强调生产环境 RBAC、审计、评测与 MCP 集成
更适合：已经用 New Relic 做 APM 的企业团队

2. Datadog LLM Observability（更偏全链路追踪 + 评估）

能力关键词：端到端 tracing、输入输出、延迟、token 成本、错误
附带评估、安全评估等
注意点：按产品/用量计费，需要结合现有订阅结构评估

3. Splunk AI Agent Monitoring（同样主打性能/质量/成本）

官方定位：监控与排障 AI agents 和应用的性能、质量、成本
提供内置体验（Agents 页面、依赖图、服务图等）

4. LangSmith（更贴近研发侧）

Tracing + Evaluation + 实验管理
定价结构：包含 seat（每席位月费）+ trace volume（按 trace 量）

总结

New Relic 这次的产品，核心不是”帮你搭建 Agent”，而是”帮你管住 Agent”。

对于想把 Agent 接入生产环境的企业，这个思路更务实：

先监控，再优化
先治理，再扩展
先可控，再自主

价格参考：New Relic 官方免费层每月 100GB 免费数据摄取，提供 Unlimited free basic users，无需信用卡即可开始。

这 4 种 Agent 失控形态，你遇到过哪种？

或者你正在用哪个平台监控 AI Agent？来评论区分享一下你的经验和踩过的坑。

如果觉得这篇文章有用，点个”在看”，让更多做 AI 落地的朋友看到。