multimodal
Categoria: modelos e inferência
Capacidade de um modelo de processar e gerar múltiplos tipos de mídia (texto, imagem, áudio, vídeo), permitindo que o agente interprete screenshots, analise fotos ou transcreva áudio como parte de seu fluxo.