batch processing

Categoria: modelos e inferência

Processamento de múltiplas requisições de inferência em lote, acumulando entradas e processando-as juntas para otimizar throughput e custo, em vez de processar uma a uma em tempo real.