VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉 - 安全 - 程序园

皇甫佳文 发表于 2025-11-18 18:30:02

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

01 论文概述

论文名称：VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
—— 新一代前沿多模态基础模型，赋能图像与视频深度理解

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

颖顿庐 发表于 2025-11-30 01:09:39

热心回复！

页: [1]

程序园's Archiver

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉