max output tokens

Categoria: modelos e inferência

Parâmetro que limita o número máximo de tokens na resposta gerada pelo modelo, controlando o tamanho da saída e evitando respostas excessivamente longas ou custos inesperados.