multimodal

Categoria: modelos e inferência

Capacidade de um modelo de processar e gerar múltiplos tipos de mídia (texto, imagem, áudio, vídeo), permitindo que o agente interprete screenshots, analise fotos ou transcreva áudio como parte de seu fluxo.