thinking budget

Categoria: modelos e inferência

Limite de tokens alocados para o raciocínio interno do modelo (extended thinking), controlando quanto "pensamento" o modelo pode realizar antes de responder. Mais budget geralmente melhora a qualidade em tarefas difíceis, mas aumenta custo e latência.