小米MiMo-V2.5系列模型开源


MiMo-V2.5系列模型

在Agent领域实现三大突破:

一、技术性能登顶​

基准测试全面领先​

GDPVal-AA(Elo)1581分,ClawEval 63.8分,τ³-Bench 72.9分

超越DeepSeek V4-Pro/Kimi K2.6等开源模型

Token效率较Kimi提升42%,

成本优势显著

双模型

架构​ V2.5-Pro:1T参数专攻复杂Agent任务

V2.5:310B全模态模型

均支持1M上下文窗口,MIT协议完全开源

二、生态激励创新​

百万亿Token激励计划​

提供100T

免费Token助力开发者

支持商业部署与二次开发

极速部署适配​

当天实现vLLM/SGLang支持

架构

一、整体架构总览

MiMo 是一个统一的多模态大语言模型,核心设计思路是:

  1. 文本、图像 / 视频、音频 三种不同模态的输入,全部转换成统一的 Token 序列。
  2. 喂给同一个共享的主干网络 MiMo Hybrid-SWA Backbone 进行处理。
  3. 最后通过 LM Head(语言模型头)和 MTP Block(多 Token 预测模块)输出文本结果。

简单说:“多模态输入 → 统一编码 → 单一大模型理解 → 文本输出”


二、分模块深度解读

1. 输入层:三种模态的处理流水线

这一层的核心目标是:把不同格式的原始数据,转换成模型能理解的 Token。

(1)文本输入(最右侧)
  • 输入:用户的文字指令(比如图中的 User: What's in this video?)。
  • 处理:直接用文本 Tokenizer 转换为 Text Tokens(黄色方块)
  • 特点:最直接,无需额外投影,直接加入统一序列。
(2)图像 / 视频输入(中间)

这是多模态模型的视觉处理核心:

  • 输入:图片或视频帧序列(图里的汽车视频帧)。
  • 步骤 1:MiMo ViT(视觉 Transformer)

    对图像 / 视频帧进行特征提取,把像素数据转换成高维视觉特征。

  • 步骤 2:Visual Projector(视觉投影器)

    把 ViT 输出的视觉特征,投影成和文本 Token 维度一致的 Visual Tokens(绿色方块)

  • 特点:支持图片和视频,统一处理为视觉 Token。
(3)音频输入(最左侧)
  • 输入:原始音频波形(图里的声波图)。
  • 步骤 1:Audio Tokenizer(音频分词器)

    把连续的音频信号切成小段,提取基础特征。

  • 步骤 2:Local Transformer(局部 Transformer)

    对音频特征进行初步建模,捕捉音频的时序信息(比如语调、节奏)。

  • 步骤 3:Audio Projector(音频投影器)

    把音频特征投影成统一维度的 Audio Tokens(蓝色方块)

  • 特点:专门的音频处理流水线,适配语音、环境音等多类音频输入。


2. 统一序列层:多模态 Token 的融合

三种模态处理完后,会拼接成一个完整的序列:

Audio Tokens + Visual Tokens + Text Tokens

这个序列会一起送入主干网络,实现真正的多模态融合,而不是文本和视觉分开处理再简单拼接。


3. 核心:MiMo Hybrid-SWA Backbone

这是整个模型的 “大脑”,所有 Token 的理解、关联、推理都在这里完成。

  • Hybrid(混合):说明它是一个混合架构,同时处理不同模态的 Token。
  • SWA(推测为 Sliding Window Attention / 滑动窗口注意力)

    这类技术常见于超长上下文模型,比如支持 1M Token 上下文窗口,既能高效处理长序列,又能降低计算成本。

  • 特点:所有模态的 Token 共享同一个主干网络,实现跨模态的深度理解。


4. 输出层:文本生成

主干网络处理完后,通过两个部分生成最终的文本输出:

  1. LM Head(语言模型头)

    这是标准大模型的输出层,把主干网络的隐藏状态映射成词汇表概率,生成下一个 Token。

  2. MTP Block(Multi-Token Prediction / 多 Token 预测模块)

    这是一个效率优化模块,支持一次预测多个未来的 Token,能显著提升生成速度和 Token 效率(对应你之前海报里 “Token 效率较 Kimi 提升 42%” 的技术支撑)。

Run MiMo-V2.5-Pro with ATOM on AMD Instinct GPUs

docker run -d -it \
     –ipc=host \
     –network=host \
     –privileged \
     –cap-add=CAP_SYS_ADMIN \
     –device=/dev/kfd \
     –device=/dev/dri \
     –device=/dev/mem \
     –group-add video \
     –cap-add=SYS_PTRACE \
     –security-opt seccomp=unconfined \
     –shm-size 32G \
     –entrypoint “/bin/bash” \
     –name mimov25pro \
     aigmkt/mimo-v2.5-pro-atom:latest

Refer:

https://mimo.xiaomi.com/mimo-v2-5

https://github.com/XiaomiMiMo/MiMo-V2.5-ASR

https://huggingface.co/XiaomiMiMo

文章摘自:https://www.cnblogs.com/wintersun/p/19949267