衡量大模型推理性能的有两个指标,分别是系统吞吐(TPS,Tokens Per Second)和并发数(Concurrency)。其中,系统吞吐指的是单位时间内模型处理的Token数量,它直接影响实时交互场景的流畅性;而并发数则是模型同时处理多个请求的能力,它直接影响系统的扩展性。
如果要将衡量指标更进一步细化,那么可以再加上TTFT(Time to First Token,生成首个Token所需时间)和TPOT(Time Per Output Token,每生成一个Token所需的时间)。模型的整体推理延迟(Latency)就可以根据这两个指标计算出来(计算公式为:Latency=TTFT+TPOT×生成Token数)。