limite de tokens

Categoria: modelos e inferência

Quantidade máxima de tokens que o modelo consegue processar em uma única interação, incluindo a pergunta do usuário, o contexto fornecido e a resposta gerada. Quando o limite é atingido, informações são cortadas.