
MiMo-V2.5系列模型
在Agent领域实现三大突破:
一、技术性能登顶
基准测试全面领先
GDPVal-AA(Elo)1581分,ClawEval 63.8分,τ³-Bench 72.9分
超越DeepSeek V4-Pro/Kimi K2.6等开源模型
Token效率较Kimi提升42%,
成本优势显著
双模型
架构 V2.5-Pro:1T参数专攻复杂Agent任务
V2.5:310B全模态模型
均支持1M上下文窗口,MIT协议完全开源
二、生态激励创新
百万亿Token激励计划
提供100T
免费Token助力开发者
支持商业部署与二次开发
极速部署适配
当天实现vLLM/SGLang支持
架构
一、整体架构总览
MiMo 是一个统一的多模态大语言模型,核心设计思路是:
- 把 文本、图像 / 视频、音频 三种不同模态的输入,全部转换成统一的 Token 序列。
- 喂给同一个共享的主干网络
MiMo Hybrid-SWA Backbone进行处理。 - 最后通过
LM Head(语言模型头)和MTP Block(多 Token 预测模块)输出文本结果。
简单说:“多模态输入 → 统一编码 → 单一大模型理解 → 文本输出”。
二、分模块深度解读
1. 输入层:三种模态的处理流水线
这一层的核心目标是:把不同格式的原始数据,转换成模型能理解的 Token。
(1)文本输入(最右侧)
- 输入:用户的文字指令(比如图中的
User: What's in this video?)。 - 处理:直接用文本 Tokenizer 转换为 Text Tokens(黄色方块)。
- 特点:最直接,无需额外投影,直接加入统一序列。
(2)图像 / 视频输入(中间)
这是多模态模型的视觉处理核心:
- 输入:图片或视频帧序列(图里的汽车视频帧)。
- 步骤 1:
MiMo ViT(视觉 Transformer)对图像 / 视频帧进行特征提取,把像素数据转换成高维视觉特征。
- 步骤 2:
Visual Projector(视觉投影器)把 ViT 输出的视觉特征,投影成和文本 Token 维度一致的 Visual Tokens(绿色方块)。
- 特点:支持图片和视频,统一处理为视觉 Token。
(3)音频输入(最左侧)
- 输入:原始音频波形(图里的声波图)。
- 步骤 1:
Audio Tokenizer(音频分词器)把连续的音频信号切成小段,提取基础特征。
- 步骤 2:
Local Transformer(局部 Transformer)对音频特征进行初步建模,捕捉音频的时序信息(比如语调、节奏)。
- 步骤 3:
Audio Projector(音频投影器)把音频特征投影成统一维度的 Audio Tokens(蓝色方块)。
- 特点:专门的音频处理流水线,适配语音、环境音等多类音频输入。
2. 统一序列层:多模态 Token 的融合
三种模态处理完后,会拼接成一个完整的序列:
Audio Tokens + Visual Tokens + Text Tokens
这个序列会一起送入主干网络,实现真正的多模态融合,而不是文本和视觉分开处理再简单拼接。
3. 核心:MiMo Hybrid-SWA Backbone
这是整个模型的 “大脑”,所有 Token 的理解、关联、推理都在这里完成。
Hybrid(混合):说明它是一个混合架构,同时处理不同模态的 Token。SWA(推测为 Sliding Window Attention / 滑动窗口注意力):这类技术常见于超长上下文模型,比如支持 1M Token 上下文窗口,既能高效处理长序列,又能降低计算成本。
- 特点:所有模态的 Token 共享同一个主干网络,实现跨模态的深度理解。
4. 输出层:文本生成
主干网络处理完后,通过两个部分生成最终的文本输出:
LM Head(语言模型头)这是标准大模型的输出层,把主干网络的隐藏状态映射成词汇表概率,生成下一个 Token。
MTP Block(Multi-Token Prediction / 多 Token 预测模块)这是一个效率优化模块,支持一次预测多个未来的 Token,能显著提升生成速度和 Token 效率(对应你之前海报里 “Token 效率较 Kimi 提升 42%” 的技术支撑)。
Run MiMo-V2.5-Pro with ATOM on AMD Instinct GPUs
docker run -d -it \
–ipc=host \
–network=host \
–privileged \
–cap-add=CAP_SYS_ADMIN \
–device=/dev/kfd \
–device=/dev/dri \
–device=/dev/mem \
–group-add video \
–cap-add=SYS_PTRACE \
–security-opt seccomp=unconfined \
–shm-size 32G \
–entrypoint “/bin/bash” \
–name mimov25pro \
aigmkt/mimo-v2.5-pro-atom:latest
Refer:
https://mimo.xiaomi.com/mimo-v2-5
https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
https://huggingface.co/XiaomiMiMo
文章摘自:https://www.cnblogs.com/wintersun/p/19949267


