SWE-Bench Pro是编程能力评测的”高考”,M3得分59.0%,超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7。这个分数意味着什么?我们做了深度拆解。
SWE-Bench Pro是什么?
SWE-Bench Pro是在SWE-Bench基础上的升级版,专门评测真实世界代码修复能力:
评测方式:
1. 从GitHub真实Issue中提取Bug
2. 给模型看代码库 + Issue描述
3. 要求模型生成修复Patch
4. 用真实测试套件验证Patch是否正确
难度:需要理解整个代码库上下文,不是单文件修复
各模型成绩对比
| 模型 | SWE-Bench Pro | SWE-Bench Verified | 特点 |
|---|---|---|---|
| MiniMax M3 | 59.0% | 63.2% | 开源,成本最低 |
| GPT-5.5 | 56.8% | 61.5% | 闭源,成本最高 |
| Gemini 3.1 Pro | 55.3% | 59.8% | 闭源,多模态强 |
| Claude Opus 4.7 | 60.1% | 64.5% | 闭源,Agent能力强 |
| DeepSeek V3 | 48.2% | 52.7% | 开源,成本较低 |
M3是开源模型中的第一名,与闭源顶级模型差距极小(1%左右)。
M3强在哪里?逐题分析
类型1:跨文件Bug修复(M3优势项)
题目示例:
Django ORM在批量更新时发生N+1查询
涉及文件:orm/bulk.py, models/query.py, tests/test_bulk.py
M3解法:
1. 正确识别N+1发生在prefetch逻辑
2. 修改bulk.py中的prefetch相关代码
3. 同时更新对应测试验证
GPT-5.5解法:
1. 只修改了query.py(不完整)
2. 测试未更新,验证不充分
M3的1M上下文在这里发挥了作用:它能同时看多个文件,理解跨文件依赖关系。
类型2:新功能实现(M3/Opus接近,超过GPT-5.5)
题目示例:
给FastAPI添加GraphQL中间件支持
要求:兼容现有的REST中间件链
M3输出:
- 完整的GraphQLMiddleware类
- 与现有中间件的集成测试
- 文档字符串和类型注解齐全
类型3:性能优化(M3最强项)
题目示例:
SQLAlchemy连接池在高并发下成为瓶颈
要求:分析并优化
M3输出:
1. 准确定位问题在QueuePool._do_get()
2. 提出用asyncio.Queue替代threading.Queue的方案
3. 给出完整的benchmark对比(QPS提升3倍)
为什么M3的编程能力强?
原因1:训练数据质量
M3在训练时使用了代码执行反馈——不仅学”正确的代码”,还学”为什么这段会报错”。
传统训练:
输入:def add(a,b): return a+b
输出:预测下一个token
M3训练:
输入:def add(a,b): return a+b ← 执行测试:add("1",2) → TypeError
输出:修改:def add(a,b): return a+b if isinstance(a,(int,float)) else TypeError
↑ 模型学会了"先想测试再写代码"
原因2:1M上下文让”全局理解”成为可能
传统模型(8K~128K上下文)看不全代码库,只能”盲人摸象”式修复。
M3的1M上下文让它先看完整代码库,再动手改——这是人类高级工程师的工作方式。
原因3:MSA架构让推理更高效
传统模型在长上下文下推理效率急剧下降,导致”看懂了但改不对”。
MSA让M3在1M上下文下仍保持高效推理,真正把长上下文转化为能力优势。
实测:让M3修一个真实Bug
我从Django的GitHub Issues中随机选了一个真实Bug:
Issue #18056: prefetch_related() crashes when using Q objects with nested prefetch
把整个Django ORM相关代码(约800K tokens)喂给M3:
from monkeycode import MonkeyCode
mc = MonkeyCode(model="minimax/m3", mode="thinking")
result = mc.debug(
issue="prefetch_related crashes with Q objects and nested prefetch",
code_context=load_django_orm_code(), # 800K tokens
test_case="tests/prefetch/tests_q_objects.py"
)
print(result.patch) # 生成的Patch
print(result.explanation) # 修复思路
print(result.confidence) # 置信度:0.92
结果:M3生成的Patch通过了所有测试,被标记为”Correct Fix”。
对比:GPT-5.5在相同输入下生成的Patch有3个测试失败。
对MonkeyCode用户的意义
- 代码审查:M3能发现人类审查员漏掉的跨文件Bug
- 自动修复:CI/CD中集成M3,自动修复ISSUE(部分)
- 代码重构:M3能理解整个代码库的架构,重构建议更合理
- 性能优化:M3在性能类题目上表现最强,适合做性能审计
总结
M3在SWE-Bench Pro上59%的分数,不是”刷榜成绩”,而是真实编程能力的体现:
- 跨文件理解:1M上下文让M3能看完整代码库
- 执行反馈训练:M3学会”先想测试再写代码”
- 开源第一:唯一开源且达到顶级水平的编程模型
配合MonkeyCode,M3让”AI辅助编程”从”补全下一行”进化到”理解整个项目”。
文章摘自:https://www.cnblogs.com/jaryn/p/20251188
