[AI开发2]AI开发量化指标
2026/1/7大约 2 分钟
[AI开发2]AI开发量化指标
1、主要看tpm而非rpm指标
- rpm(Requests Per Minute)和**tpm( Tokens per Minute)**指标
典型的火山引擎监控里rpm是会跟随token长度动态调整的,一切以tpm用满为准,其实rpm很难说支持多少,那个只是个理论值!【就像我们一个CPU密集型任务QPS可能打很高,但是一个AI密集型任务,但机器就是可能打不了很高,因为太废资源了】
- 1、咱们在做 AI 的流控,可以不再使用传统的QPS去流控(或者说可以做,但是没那么准)应该使用 tpm 去继续流控会更准
TPM:每分钟AI能“写多少字”
定义:TPM全称是Tokens Per Minute(每分钟处理tokens数),衡量模型每分钟能处理的文本量(包括输入和输出)。例如,TPM=30万,意味着每分钟最多处理30万个“文字单位”(tokens)。
为什么关键?
- 长文本处理:输入或输出太长会占用更多tokens,可能触发限额。比如写一篇千字文章,可能比10条短消息更费“额度”。
- 计费依据:很多平台按TPM收费,控制成本的关键。
举例:如果某模型TPM=30万,而每个汉字≈2个tokens,那么每分钟最多能处理约15万汉字的输入或输出。超过这个量,请求就会被“拒签”。
RPM:每分钟能请求AI多少次,我觉得是一个比较类似QPS的度量,但是因为AI往往持续时间长,所以创造了1个RPM的术语,但是其实还是不太准!
RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问【但是很显然,也要看token输出数目,可能能回答更多,也可能更少!】
RPM和TPM是大模型时代的新度量衡!理解它们就像掌握新工具的使用说明书。
2、首Token延(TTFT)时和每分钟Token输出
- 首Token延时【TTFT(time to first token)】:从发送请求到收到第一个字的时间,直接影响用户体验
- 每分钟Token输出:衡量模型生成效率,越高说明“打字越快”
- 典型的,比如美团的longcat模型就专攻这个
附录、国内大模型供应商的rpm指标
| 厂商 | 模型 | 默认RPM | 默认TPM |
|---|---|---|---|
| 百度 | 文心3.5 | 300 | 30万 |
| 百度 | 文心4.0 | 120 | 12万 |
| 阿里云 | 千问-max | 1200 | 100万 |
| 阿里云 | 千问-plus | 15000 | 120万 |
| 火山引擎 | 豆包-pro-32k | 10000 | 800万 |
- 数据来源:百度、阿里、火山引擎等厂商公开信息。