streaming

Categoria: modelos e inferência

Modo de entrega da resposta do modelo onde os tokens são enviados incrementalmente conforme são gerados, em vez de esperar a geração completa. Reduz a latência percebida pelo usuário.