vision-language model
Categoria: modelos e inferência
Modelo que combina compreensão de imagens e texto, capaz de analisar conteúdo visual (gráficos, capturas de tela, documentos digitalizados) e responder perguntas sobre ele em linguagem natural.