[AI开发2]AI开发量化指标

whoway2026/1/7大约 2 分钟

1、主要看tpm而非rpm指标

典型的火山引擎监控里rpm是会跟随token长度动态调整的，一切以tpm用满为准，其实rpm很难说支持多少，那个只是个理论值！【就像我们一个CPU密集型任务QPS可能打很高，但是一个AI密集型任务，但机器就是可能打不了很高，因为太废资源了】

TPM：每分钟AI能“写多少字”

定义：TPM全称是Tokens Per Minute（每分钟处理tokens数），衡量模型每分钟能处理的文本量（包括输入和输出）。例如，TPM=30万，意味着每分钟最多处理30万个“文字单位”（tokens）。

为什么关键？

举例：如果某模型TPM=30万，而每个汉字≈2个tokens，那么每分钟最多能处理约15万汉字的输入或输出。超过这个量，请求就会被“拒签”。

RPM：每分钟能请求AI多少次，我觉得是一个比较类似QPS的度量，但是因为AI往往持续时间长，所以创造了1个RPM的术语，但是其实还是不太准！

RPM全称是Requests Per Minute（每分钟请求数），表示大模型每分钟能处理的请求次数。比如，某模型设置RPM=300，就意味着每分钟最多响应300次用户提问【但是很显然，也要看token输出数目，可能能回答更多，也可能更少！】

RPM和TPM是大模型时代的新度量衡！理解它们就像掌握新工具的使用说明书。

厂商	模型	默认RPM	默认TPM
百度	文心3.5	300	30万
百度	文心4.0	120	12万
阿里云	千问-max	1200	100万
阿里云	千问-plus	15000	120万
火山引擎	豆包-pro-32k	10000	800万