找回密码
 立即注册
首页 业界区 安全 小米又开源了,一个多模态大模型,一个生不逢时的推理大 ...

小米又开源了,一个多模态大模型,一个生不逢时的推理大模型

蓬庄静 6 天前
1.png

2.png

大家好,我是 Ai 学习的老章
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型
咱们挨个看一下情况
MiMo-VL-7B 系列

MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入
3.png

技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files
4.png

其中
MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。
MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习,无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。
MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B(这个模型我在这篇文章中有介绍1 张 4090,本地部署多模态大模型,部署后我测试了几个图片理解问题,感觉 7B 做到这个程度,无可挑剔)
5.png

评估方面,感觉吹牛的可能性比较大
在一般的视觉语言理解中,MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀
6.png

在多模态推理中,SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。
7.png

MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型,MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。
PS:GUI 就是各种计算机操作的图形界面
8.png

MiMo-VL-7B 系列,既没有试用,又没有详细的本地部署文档,这一块,跟阿里差远了。
我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B
改天部署试试
MiMo-7B-RL-0530 系列

模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files 技术报告:https://arxiv.org/abs/2505.07608`
昨天小米还开源了 MiMo-7B-RL,太生不逢时了,赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528,还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,我用 2 张英伟达 4090 本地部署了,深得我心
模型细节就不看了,文末我用大模型基于小米这篇论文绘制了 PPT,感兴趣可以细看。
总结就是,在训练数据、预训练和后训练阶段都进行了优化,号称是在数学和代码推理任务上表现出色,达到了与 OpenAI o1-mini 相当的性能。
9.png

部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦
  1. # Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code
复制代码
这个我就更懒的测试了,铁定不如DeepSeek-R1-0528-Qwen3-8B
小米这篇论文,我转成了 PPT,感兴趣看看

<strong>制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册