登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
园子
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP申请
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
小米又开源了,一个多模态大模型,一个生不逢时的推理大 ...
小米又开源了,一个多模态大模型,一个生不逢时的推理大模型
[ 复制链接 ]
蓬庄静
6 天前
大家好,我是 Ai 学习的老章
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
昨天,小米又开源了 MiMo-VL-7B 系列多模态大模型、MiMo-7B-RL-0530 系列推理模型
咱们挨个看一下情况
MiMo-VL-7B 系列
MiMo-VL-7B 系列多模态大模型支持文字、图像、视频输入
技术报告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-VL-7B-RL/files
其中
MiMo-VL-7B-SFT 是经过投影器预热、视觉 - 语言对齐、通用多模态预训练和长上下文监督微调四个阶段预训练而得。
MiMo-VL-7B-RL 是 SFT 基础上引入了混合在线强化学习,无缝集成涵盖感知准确性、视觉基础精度、逻辑推理能力和人机偏好等多种奖励信号。
MiMo-VL-7B-RL 在多个方面都强于同等参数的 Qwen2.5-VL-7B(这个模型我在这篇文章中有介绍1 张 4090,本地部署多模态大模型,部署后我测试了几个图片理解问题,感觉 7B 做到这个程度,无可挑剔)
评估方面,感觉吹牛的可能性比较大
在一般的视觉语言理解中,MiMo-VL-7B 模型比同参数甚至更高参数的开源模型都优秀
在多模态推理中,SFT 和 RL 模型在这几项基准测试中均显著优于所有比较的开源基线。
MiMo-VL-7B-RL 具有出色的 GUI 理解和定位能力。作为一个通用的 VL 模型,MiMo-VL 达到了与专门针对 GUI 的模型相当甚至更优的表现。
PS:GUI 就是各种计算机操作的图形界面
MiMo-VL-7B 系列,既没有试用,又没有详细的本地部署文档,这一块,跟阿里差远了。
我真的蛮好奇是否真的可以吊打 Qwen2.5-VL-7B
改天部署试试
MiMo-7B-RL-0530 系列
模型文件:https://www.modelscope.cn/models/XiaomiMiMo/MiMo-7B-RL-0530/files 技术报告:https://arxiv.org/abs/2505.07608`
昨天小米还开源了 MiMo-7B-RL,太生不逢时了,赶上了DeepSeek R1 最新版本模型——DeepSeek-R1-0528,还有DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,我用 2 张英伟达 4090 本地部署了,深得我心
模型细节就不看了,文末我用大模型基于小米这篇论文绘制了 PPT,感兴趣可以细看。
总结就是,在训练数据、预训练和后训练阶段都进行了优化,号称是在数学和代码推理任务上表现出色,达到了与 OpenAI o1-mini 相当的性能。
部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦
# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code
复制代码
这个我就更懒的测试了,铁定不如DeepSeek-R1-0528-Qwen3-8B
小米这篇论文,我转成了 PPT,感兴趣看看
<strong>制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
如何优雅上线、下线?原来 大厂应用 是这样 优雅发布的!
在 .NET 中将 EF Core 升级到 9.0.5 MySQL 连接提示 get_LockReleaseBehavior
【鸿蒙生态学堂03】应用程序框架基础
开源情报中批判性思维因人工智能而逐渐衰落
微软又退出中国。。。
sshd服务
AppFreeze与资源泄漏能力开放及常见问题定位方法介绍
人工智能将如何影响语言的演变?
【UAP】使用 .NET Core App 编写 UAP
【一步步开发AI运动APP】一、写在最前
HarmonyOS 5.0 分布式数据协同与跨设备同步
不是哥们,26 岁程序员,去种头发了?
在Ubuntu中部署.NET 8 Minimal WebAPI项目
记录---前端图像五兄弟:网络 URL、Base64、Blob、ArrayBuffer、本地路径,全整明白!
MOSN(Modular Open Smart Network)是一款主要使用 Go 语言开发的云原生网络代理平台
华为云昇腾专区重磅上线!带你入门昇腾AI技术与DeepSeek实践
Datawhale速通百炼RAG应用-Task1
JavaScript基础
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
蓬庄静
6 天前
关注
0
粉丝关注
12
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9986
森萌黠
9994
里豳朝
9994
4
背竽
9994
5
猷咎
9992
6
凶契帽
9992
7
柴古香
9992
8
黎瑞芝
9992
9
松菊
9992
10
尝琨
9992
查看更多