real-time inference

Categoria: modelos e inferência

Inferência com latência suficientemente baixa para suportar interações em tempo real, onde o usuário espera uma resposta conversacional sem atrasos perceptíveis.