limite de tokens
Categoria: modelos e inferência
Quantidade máxima de tokens que o modelo consegue processar em uma única interação, incluindo a pergunta do usuário, o contexto fornecido e a resposta gerada. Quando o limite é atingido, informações são cortadas.