小米MiMo-V2.5系列模型开源|flask|六狼博客|技术博客|技术论坛|六狼网络|六狼科技|六狼IT|六狼星球

2026年4月29日

| 没有评论

MiMo-V2.5系列模型

在Agent领域实现三大突破：

一、技术性能登顶

基准测试全面领先

GDPVal-AA（Elo）1581分，ClawEval 63.8分，τ³-Bench 72.9分

超越DeepSeek V4-Pro/Kimi K2.6等开源模型

Token效率较Kimi提升42%，

成本优势显著

双模型

架构 V2.5-Pro：1T参数专攻复杂Agent任务

V2.5：310B全模态模型

均支持1M上下文窗口，MIT协议完全开源

二、生态激励创新

百万亿Token激励计划

提供100T

免费Token助力开发者

支持商业部署与二次开发

极速部署适配

当天实现vLLM/SGLang支持

架构

一、整体架构总览

MiMo 是一个统一的多模态大语言模型，核心设计思路是：

把 文本、图像 / 视频、音频 三种不同模态的输入，全部转换成统一的 Token 序列。
喂给同一个共享的主干网络 MiMo Hybrid-SWA Backbone 进行处理。
最后通过 LM Head（语言模型头）和 MTP Block（多 Token 预测模块）输出文本结果。

简单说：“多模态输入 → 统一编码 → 单一大模型理解 → 文本输出”。

二、分模块深度解读

1. 输入层：三种模态的处理流水线

这一层的核心目标是：把不同格式的原始数据，转换成模型能理解的 Token。

（1）文本输入（最右侧）

输入：用户的文字指令（比如图中的 User: What's in this video?）。
处理：直接用文本 Tokenizer 转换为 Text Tokens（黄色方块）。
特点：最直接，无需额外投影，直接加入统一序列。

（2）图像 / 视频输入（中间）

这是多模态模型的视觉处理核心：

输入：图片或视频帧序列（图里的汽车视频帧）。
步骤 1：MiMo ViT（视觉 Transformer）
对图像 / 视频帧进行特征提取，把像素数据转换成高维视觉特征。
步骤 2：Visual Projector（视觉投影器）
把 ViT 输出的视觉特征，投影成和文本 Token 维度一致的 Visual Tokens（绿色方块）。
特点：支持图片和视频，统一处理为视觉 Token。

（3）音频输入（最左侧）

输入：原始音频波形（图里的声波图）。
步骤 1：Audio Tokenizer（音频分词器）
把连续的音频信号切成小段，提取基础特征。
步骤 2：Local Transformer（局部 Transformer）
对音频特征进行初步建模，捕捉音频的时序信息（比如语调、节奏）。
步骤 3：Audio Projector（音频投影器）
把音频特征投影成统一维度的 Audio Tokens（蓝色方块）。
特点：专门的音频处理流水线，适配语音、环境音等多类音频输入。

2. 统一序列层：多模态 Token 的融合

三种模态处理完后，会拼接成一个完整的序列：

Audio Tokens + Visual Tokens + Text Tokens

这个序列会一起送入主干网络，实现真正的多模态融合，而不是文本和视觉分开处理再简单拼接。

3. 核心：`MiMo Hybrid-SWA Backbone`

这是整个模型的 “大脑”，所有 Token 的理解、关联、推理都在这里完成。

Hybrid（混合）：说明它是一个混合架构，同时处理不同模态的 Token。
SWA（推测为 Sliding Window Attention / 滑动窗口注意力）：
这类技术常见于超长上下文模型，比如支持 1M Token 上下文窗口，既能高效处理长序列，又能降低计算成本。
特点：所有模态的 Token 共享同一个主干网络，实现跨模态的深度理解。

4. 输出层：文本生成

主干网络处理完后，通过两个部分生成最终的文本输出：

LM Head（语言模型头）
这是标准大模型的输出层，把主干网络的隐藏状态映射成词汇表概率，生成下一个 Token。
MTP Block（Multi-Token Prediction / 多 Token 预测模块）
这是一个效率优化模块，支持一次预测多个未来的 Token，能显著提升生成速度和 Token 效率（对应你之前海报里 “Token 效率较 Kimi 提升 42%” 的技术支撑）。

Run MiMo-V2.5-Pro with ATOM on AMD Instinct GPUs

docker run -d -it \
     –ipc=host \
     –network=host \
     –privileged \
     –cap-add=CAP_SYS_ADMIN \
     –device=/dev/kfd \
     –device=/dev/dri \
     –device=/dev/mem \
     –group-add video \
     –cap-add=SYS_PTRACE \
     –security-opt seccomp=unconfined \
     –shm-size 32G \
     –entrypoint “/bin/bash” \
     –name mimov25pro \
     aigmkt/mimo-v2.5-pro-atom:latest

Refer:

https://mimo.xiaomi.com/mimo-v2-5

https://github.com/XiaomiMiMo/MiMo-V2.5-ASR

https://huggingface.co/XiaomiMiMo

文章摘自：https://www.cnblogs.com/wintersun/p/19949267

一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

六狼博客

架构