vision-language model

Categoria: modelos e inferência

Modelo que combina compreensão de imagens e texto, capaz de analisar conteúdo visual (gráficos, capturas de tela, documentos digitalizados) e responder perguntas sobre ele em linguagem natural.