皇甫佳文 发表于 2025-11-18 18:30:02

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉


01 论文概述

论文名称:VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
—— 新一代前沿多模态基础模型,赋能图像与视频深度理解


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

颖顿庐 发表于 2025-11-30 01:09:39

热心回复!
页: [1]
查看完整版本: VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉