throughput

Categoria: modelos e inferência

Quantidade de requisições de inferência que o endpoint do modelo consegue processar por unidade de tempo, determinando a capacidade de escala do agente sob carga.