2024-2026年最新视频质量评价方法调研报告
VBench
论文:VBench: Comprehensive Benchmark Suite for Video Generative Models
发表:CVPR 2024 (Highlight)
代码:https://github.com/Vchitect/VBench
主要使用传统 CV 模型(DINO、CLIP、GRiT、RAFT 等)作为评估器,评估视频生成质量的多个维度。
动机
现有视频生成评价存在三个核心问题:
- 指标粗糙:FVD 等指标只给出单一分数,无法揭示模型在不同维度上的优劣
- 维度耦合:没有将”视频生成质量”这个复杂概念拆解为可独立评估的子维度
- 缺乏人类对齐验证:自动指标是否真正反映人类偏好缺乏系统验证
方法
将”视频生成质量”拆解为 16 个分层、解耦的评测维度,每个维度有专门的 prompt 集合和评估方法:
视频质量(Video Quality)维度 — 评估生成视频本身的视觉质量:
| 维度 | 评估方法 | 说明 |
|---|---|---|
| 主体一致性 (Subject Consistency) | DINO 特征相似度 | 视频中主体对象是否保持外观一致 |
| 背景一致性 (Background Consistency) | CLIP 特征相似度 | 背景场景是否保持连贯 |
| 时间闪烁 (Temporal Flickering) | 相邻帧像素差异 | 视频是否存在帧间闪烁 |
| 运动平滑度 (Motion Smoothness) | RAFT 光流估计 | 运动轨迹是否流畅自然 |
| 动态程度 (Dynamic Degree) | 光流幅度统计 | 运动幅度是否合理(非静态/非过度) |
| 美学质量 (Aesthetics) | LAION 美学预测器 | 帧级美学评分 |
| 图像质量 (Image Quality) | MUSIQ 质量预测器 | 单帧清晰度、噪声等 |
| 时序质量 (Temporal Quality) | 视频质量评估模型 | 整体时间维度质量 |
条件一致性(Video-Condition Consistency)维度 — 评估视频与条件(文本/图像)的对齐:
| 维度 | 评估方法 | 说明 |
|---|---|---|
| 对象类别 (Object Class) | CLIP 图文匹配 | 生成的对象是否与文本描述一致 |
| 多对象 (Multiple Objects) | CLIP + 对象检测 | 多个对象是否都被正确生成 |
| 颜色 (Color) | CLIP 颜色属性匹配 | 物体颜色是否正确 |
| 空间关系 (Spatial Relationship) | 布局分析 | 对象间的空间位置关系是否正确 |
| 场景 (Scene) | CLIP 场景匹配 | 场景类型是否正确 |
| 风格 (Style) | CLIP 风格匹配 | 艺术风格是否符合描述 |
| 动作 (Action) | 动作识别模型 | 动作类型是否正确 |
| 综合一致性 (Overall Consistency) | 综合评分 | 文本-视频整体对齐度 |
优点
- 解耦式评估框架,每个维度独立评分,可精确诊断模型优劣
- 各维度与人类判断的 Spearman 相关系数平均达 0.92
- 提供标准化 prompt 集和评估流水线,开源代码促进社区采用
缺点
- 主要面向 T2V,I2V 支持有限
- 依赖传统 CV 模型(DINO、CLIP),缺乏 MLLM 的深层语义理解能力
- 不评估可信性、安全性、物理合理性等维度
- 大规模评估时计算开销较大
与其他论文的区别
- 与 Video-Bench / VideoScore / Q-Align 等 MLLM 方法不同,VBench 完全依赖传统 CV 模型
- 比 FETV、T2V-CompBench 等专项基准范围更全面
VBench++
论文:VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
发表:TPAMI 2025
代码:https://github.com/Vchitect/VBench
还是主要使用传统 CV 模型作为评估器,只不过增加了I2V。
动机
- VBench 仅支持 T2V:实际应用中 I2V、长视频生成同样重要,需要统一评测框架
- 缺乏可信性评估:生成视频可能包含偏见、有害内容、版权问题,需要专门评测
方法
I2V 评测核心维度:主体身份保持(DINO/CLIP 特征)、场景一致性、运动自然度(光流分析)、时序连贯性、可信性(安全检测)。
优点
- 首个系统性地为 I2V 评测设计专门框架
- 引入可信性维度,为视频生成安全部署提供评测基础
- 覆盖 T2V、I2V、长视频生成,保持向后兼容
缺点
- 仍主要依赖传统 CV 模型,未充分利用 MLLM
- I2V 评测维度可能未完全覆盖所有 I2V 特有挑战
- 可信性评测仍处于早期阶段
- 长视频评测能力有限
与其他论文的区别
- 保持传统 CV 模型路线同时扩展维度
- 新增可信性维度
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
论文:VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
代码:https://github.com/Vchitect/VBench
除了传统cv模型,用了LLaVA-Video-7B-Qwen2和Qwen2.5-7B-Ininstruction测了运动合理性等指标。
动机
- 现有评测停留在表面质量:主要评估”像不像”,缺乏对内在真实性(物理规律、因果关系)的评测
- I2V 评测需求增长:SVD、CogVideoX 等 I2V 模型大量涌现,需要专门评测框架
- 自动指标与人类偏好仍有差距:需要更贴近人类判断的评估维度
方法
在 VBench 1.0 基础上新增/强化 I2V 特有维度:
- 首帧保真度:生成视频首帧与输入图像的一致性
- 主体保持度:视频中主体对象在输入图像中的语义/外观保持
- 运动合理性:生成运动是否符合物理规律
优点
- 聚焦内在真实性(物理规律、因果关系),超越表面质量评估
- 评估”行为是否合理”而非仅”外观是否像”
缺点
- 物理合理性评估仍有限,需要更复杂的评估模型
- 复杂因果关系的评估能力有限
- 与人类判断的对齐验证尚不如 VBench 1.0 充分
与其他论文的区别
- 聚焦内在真实性(物理、因果),其他基准不具备
- 超越 VBench 和 VBench++ 的表面质量与对齐评估
- 比 EvalCrafter、Video-Bench 更强调物理正确性
EvalCrafter(代码未公开)
论文:EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
发表:CVPR 2024
代码:未公开
动机
- 现有学术指标过于简单:FVD、IS 仅关注分布匹配,忽略文本-视频对齐
- 大模型能力多维:单一指标无法全面评估
- 运动和一致性被忽略:这是视频生成区别于图像生成的核心,但之前的评价方法几乎不涉及
方法
三阶段评测流程:
- Prompt 构建:利用 LLM(ChatGPT)分析真实用户 prompt 分布,构建覆盖多样场景的评测 prompt 集
- 多维度客观指标评测(70+ 指标,约 18 个大类):
- 视觉质量:DOVER 视频质量评分、Warping Error
- 运动质量:RAFT 光流估计、运动平滑度、时序一致性
- 文本-视频对齐:CLIP Score、BLIP2 图文匹配、MLLM 语义理解
- I2V 专项:Motion Fidelity 指标
- 人类对齐的最终评分:通过回归模型将客观指标与人类偏好对齐,训练加权系数
优点
- 首次系统性地将 MLLM 引入视频生成评测的多维度框架
- 70+ 指标覆盖面广,包含 I2V 专项 Motion Fidelity 指标
- 人类对齐的加权评分方法使客观指标更好反映人类偏好
- LLM 构建的 prompt 集覆盖真实用户使用场景
缺点
- 代码未公开,可复现性受限
- MLLM 仅作为辅助语义评估器,非核心评估引擎
- 回归式人类对齐可能无法泛化到新模型
- 评估流水线复杂,计算开销大
与其他论文的区别
- 与 VBench 不同:使用混合流水线(LLM-as-a-Judge + 传统视觉算法),VBench 仅用传统 CV 模型
- 与 Video-Bench 不同:MLLM 仅用于语义评分,Video-Bench 以 MLLM 为核心评估器
- 与 AIGV-Assessor 不同:是评测流水线而非训练好的模型
- 与 VideoScore 不同:用回归做人类对齐,VideoScore 微调 MLLM 做奖励模型
Video-Bench(全面使用 MLLM)
论文:Video-Bench: Human-Aligned Video Generation Benchmark
发表:CVPR 2025
代码:https://github.com/Video-Bench/Video-Bench
动机
- 传统指标与人类偏好脱节:FVD、CLIP Score 等与人类判断的相关性低
- 现有 LLM-based 方法理解有限:对视频质量指标和跨模态一致性的理解深度不够
- 评测维度不全面:现有基准要么只评视觉质量,要么只评条件对齐
方法
第一篇系统性地在所有维度上全面使用 MLLM 的工作。
双维度评估框架:
| 维度大类 | 具体维度 |
|---|---|
| 视频-条件对齐 | 对象匹配、属性匹配、动作匹配、空间关系、风格匹配 |
| 视频质量 | 画面清晰度、时序连贯性、运动合理性、美学质量、无伪影 |
两大 MLLM 驱动技术:
- Chain-of-Query(链式查询):分步查询 MLLM(先问对象→再问一致性→综合判断),类似人类逐步分析
- Few-shot Scoring(少样本评分):给 MLLM 展示少量已标注的”好/中/差”示例,参照评分
与人类偏好的 Spearman 相关系数达到 0.733。
优点
- 首个全面以 MLLM 为核心评估器的工作
- Chain-of-Query 提升可解释性和准确性
- Few-shot Scoring 通过参照示例提升评分一致性
- 高人类对齐度(Spearman 0.733),显著优于传统方法
- 支持 T2V 和 I2V 评测
缺点
- 强依赖底层 MLLM 质量,不同 MLLM 可能导致不同结果
- 逐维度运行 MLLM 查询,计算成本高
- 0.733 相关性仍有提升空间
与其他论文的区别
- :以 MLLM 为核心评估器,人类对齐度更高
- 与 VideoScore 不同:无需微调
- 与 Q-Align 不同:Chain-of-Query 结构化评估 vs 离散等级评分;覆盖质量和对齐两个维度
AIGV-Assessor(训练好的评估模型,支持 T2V 不支持 I2V)
论文:AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM
发表:CVPR 2025
代码:https://github.com/wangjiarui153/AIGV-Assessor
动机
- AIGV 存在独特失真:AI 生成视频的失真模式(不真实物体、不自然运动)与传统 UGC 视频截然不同
- 现有 VQA 模型对 AIGV 评估不足:传统 VQA 模型训练于真实世界视频,无法捕捉 AIGV 特有质量问题
- 缺乏大规模 AIGV 质量数据集:缺少系统性构建的、带多维标注的数据集
方法
构建大规模 AIGV 质量数据集 AIGVQA-DB:36,576 个视频、15 个 T2V 模型、370,000+ 条专家评分。
四维质量评估体系:静态质量、时间平滑度、动态程度、文本-视频对应。
模型架构:空间视觉编码器 (ViT) + 时间视觉编码器 (SlowFast) → 时空投影模块 → LMM 框架 (LLaMA) → 质量分数 + 偏好预测。
三阶段训练:时空投影模块训练 → 质量回归微调 → 成对比较微调。
优点
- 大规模 AIGV 专用质量数据集(AIGVQA-DB,370K+ 专家评分),填补数据空白
- 专为 AIGV 失真设计的架构(ViT + SlowFast + LLaMA)
- 双输出:质量分数回归 + 成对偏好预测
- 三阶段训练策略逐步构建评估能力
缺点
- 仅支持 T2V 评测,不支持 I2V
- 仅 4 个质量维度,比 VBench(16 维度)粗
- 需要在特定数据集上训练,泛化到新模型/失真类型可能受限
- 无可解释性机制(如 Chain-of-Query),仅输出分数
与其他论文的区别
- 与 VBench 不同:是训练好的评估模型(4 维度,LMM 架构)
- 与 EvalCrafter 不同:端到端训练模型 vs 混合评测流水线
- 与 Video-Bench 不同:微调 LMM + 专用架构 vs 通用 MLLM + prompt 工程
- 与 VideoScore 不同:4 维度 + ViT/SlowFast/LLaMA 架构 vs 5 维度 + Mantis 架构
- 与 FineVQ 不同:聚焦 AIGV 质量 vs UGC 视频质量
VideoScore(微调MLLM)
论文:VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
发表:EMNLP 2024
代码:https://github.com/TIGER-AI-Lab/VideoScore
微调的Mantis-8B-Idefics2
动机
- 自动视频指标发展滞后:没有现有指标能够对生成视频给出可靠分数
- 核心瓶颈是缺乏大规模人类标注数据集:训练可靠的自动评估器需要大量多维度的人类反馈数据
- RLHF 需要可靠的奖励模型:视频生成模型的强化学习优化需要模拟人类偏好的自动评分器
方法
构建 VideoFeedback 数据集:37,600 个合成视频、11 个视频生成模型、多维度人类评分。
五维评估体系:视觉质量、时序一致性、动态程度、文本对齐、综合得分(各 1.0–4.0 分)。
模型基于 Mantis(多模态 LLM)初始化,通过 VideoFeedback 数据集微调。Spearman 相关系数达到 77.1,比之前最佳指标高约 50 个百分点,可作为 RLHF 的奖励模型使用。
优点
- 大规模数据集(37,600 视频,11 个模型),多维度人类评分
- Spearman 相关系数 77.1,显著优于传统指标
- 可直接用作 RLHF/DPO 训练的奖励模型
- 后续版本 VideoScore2 进一步改进
与其他论文的区别
- 微调 MLLM ,主要讲的是训练这样一个评估模型的方法
Q-Align(LoRA 微调,提供hf模型)
论文:Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels
发表:ICML 2024
代码:https://github.com/Q-Future/Q-Align
动机
- LMM 有潜力做视觉评分,但缺乏训练方法:GPT-4V 等模型展示了初级视觉质量感知能力,但准确性不足
- 人类评分的本质是离散等级判断:人类评估者使用离散的文字描述等级(如”极好/好/一般/差/极差”),而非精确数值
- 直接让 LMM 预测分数效果不佳:连续分数预测与 LLM 的文本生成范式不匹配
方法
离散文字等级教学法:定义 5 个离散质量等级,每个等级用文字描述,让 LMM 学习在这些等级中选择最匹配的描述。
统一模型 OneAlign:将图像质量评估(IQA)、图像美学评估(IAA)、视频质量评估(VQA)三个任务统一到一个模型中。在三个任务上均达到 SOTA,离散等级方法显著优于直接预测分数的方法。
优点
- 离散文字等级范式桥接了 LMM 文本处理与连续质量分数的鸿沟
- 统一模型 OneAlign 同时处理 IQA、IAA、VQA 三个任务
- 多个基准上达到 SOTA
- 支持 HuggingFace 免安装使用,LoRA 微调仅需 2 块 RTX 3090
- 跨失真类型和内容的泛化能力强
缺点
- 依赖 mPLUG-Owl2 架构
- 固定离散尺度可能无法捕捉连续回归方法能捕捉的细微质量差异
FineVQ(预训练的权重)
论文:FineVQ: Fine-Grained User Generated Content Video Quality Assessment
发表:CVPR 2025 (Spotlight)
代码:https://github.com/IntMeGroup/FineVQ
动机
- 现有 VQA 只给总分:缺乏细粒度的质量描述
- UGC 视频质量问题多样:模糊、抖动、曝光、压缩伪影等需要分别评估
- 缺乏细粒度标注数据
方法
构建 FineVD 数据集:6,104 个 UGC 视频,每个多维度质量分数和文字描述。
三合一评估能力:
- 质量评级:离散等级(差/一般/好/极好)
- 质量评分:各维度精确分数
- 质量归因:具体指出哪里有问题、为什么
架构:视频 → 3D-CNN 时空特征提取 → 文本特征对齐 → LLM 推理 → 多维质量输出。使用 3D-CNN 捕捉时空特征,比传统 2D 网络多出约 37% 的运动信息。
优点
- 首个大规模细粒度 UGC 视频质量评估数据集(FineVD)
- 三合一能力覆盖不同用户需求
- 3D-CNN 有效捕捉时空特征,运动信息捕捉提升 37%
- 质量归因功能提供可操作的质量问题洞察
- 在 UGC 视频质量评估基准上达到 SOTA
缺点
- 专注 UGC 视频,泛化到 AI 生成视频可能不足
- 3D-CNN 架构实时应用时计算成本高
- 数据集规模(6,104 视频)训练超大模型可能受限
- 质量维度预定义,可能未覆盖所有质量方面
- 主要在中国 UGC 平台评估,跨文化泛化不确定
与其他论文的区别
- 提供质量归因文字描述,而非仅输出分数
- 使用 3D-CNN 做时序建模,而非 Transformer
T2V-CompBench(T2V)
论文:T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-Video Generation
发表:CVPR 2025
代码:https://github.com/KaiyueSun98/T2V-CompBench
动机
- 现有 T2V 模型在组合性任务上表现不佳:多物体、属性、动作及动态变化的组合生成是核心难点
- 缺乏组合性评测基准
- 组合性是衡量模型真正理解能力的关键
方法
七类组合性评测维度:
| 类别 | 示例 | 评估方法 |
|---|---|---|
| 单对象 + 属性 | “一只红色的猫” | MLLM 属性判断 |
| 多对象 | “一只猫和一只狗” | 对象检测 + MLLM |
| 对象 + 动作 | “一只猫在跳跃” | 动作识别 + MLLM |
| 属性 + 动作 | “一只红色的猫在跳跃” | 综合判断 |
| 空间关系 | “猫在桌子上方” | 空间推理 + MLLM |
| 时间变化 | “猫从左走到右” | 时序分析 + MLLM |
| 复杂组合 | 多属性 + 多对象 + 动作 | 综合 MLLM 推理 |
三类评估指标:MLLM-based 指标(Grid-LLaVA、D-LLaVA)、传统自动指标(CLIP Score)、人工评估。
优点
- 专攻”组合性”生成能力,这是当前模型的关键失败点
- 多指标验证(MLLM + CLIP + 人工),评估更可靠
- 提供标准化测试平台,可诊断属性泄漏等具体失败模式
缺点
- 主要面向 T2V,未显式处理 I2V 中的组合性失败
- 使用 Grid-LLaVA 作为主要指标,计算成本高于 CLIP
- 复杂组合类别中,自动指标难以区分部分失败和完全失败
与其他论文的区别
- 与 VBench 不同:VBench 覆盖 16 个广泛维度,CompBench 深入语义准确性的子集
- 与 EvalCrafter 不同:EvalCrafter 是通用评测框架,CompBench 是组合能力的”压力测试”
- 与 Video-Bench 不同:Video-Bench 用 MLLM 评所有维度,CompBench 用 MLLM 专评组合约束
FETV(T2V)
论文:FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation
发表:ECCV 2024
代码:https://github.com/linzhiqiu/FETV
动机
- 现有 T2V 评估过于粗糙:FVD 等指标只给出一个整体分数,无法细粒度分析
- 需要分解式评估:一个视频可能视觉质量好但文本对齐或时序一致性有问题
方法
细粒度的 T2V 评估维度分解:
- 文本-视频对齐:属性绑定、动作正确性、空间关系
- 视频质量:视觉清晰度、美学质量
- 时序质量:一致性、平滑度、闪烁
- 组合能力:多物体、复杂场景的正确生成
结合人工评估和自动指标(CLIP-based、GPT-4-based),针对不同能力维度设计专用测试 prompt。
优点
- T2V 基准中最细粒度的属性级评估分解(主体、动作、场景、风格、镜头运动)
- 结合人工评估和自动指标(CLIP、GPT-4),评估更全面
- 诊断能力强,可精确定位模型弱点(时序一致性 vs 运动 vs 属性绑定)
- 标准化可复现框架
缺点
- 重度依赖人工标注,成本高、不可完全扩展
- 自动指标(FVD、CLIPSIM)在细粒度层面仍难以匹配人类判断
- 可能无法跟上快速演进的 T2V 模型(Sora、Runway Gen-3 等)
与其他论文的区别
- 与 VBench 不同:更细粒度的属性级子分类 vs 16 个广泛维度
- 与 EvalCrafter 不同:EvalCrafter 覆盖更多维度,FETV 对特定属性分析更深
- 与 Video-Bench 不同:Video-Bench 以 LLM 自动评估为主,FETV 保留大量人工评估
- 独特优势:诊断具体失败模式的能力比多数基准更详细
GenAI-Bench(T2I)
论文:GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation
发表:NeurIPS 2024
代码:https://github.com/genaibenchmark/genai-bench
动机
- 生成式 AI 评估标准不统一:不同团队使用不同指标和数据集
- 需要更难的测试用例:现有基准的 prompt 相对简单,无法区分顶级模型
方法
构建更具挑战性的评估 prompt 集,使用新颖的、分布外概念组合系统性测试组合理解能力(属性绑定、空间关系、计数)。引入基于人类偏好的 Elo 排名系统,多层级 prompt 复杂度(简单、组合、空间),通过视觉-语言模型(CLIP、BLIP、Gemini)实现可扩展评估。主要面向 T2I(文生图)评测,视频生成支持为扩展能力。
优点
- 系统性测试组合理解能力,使用分布外概念组合避免模型”记忆”
- 多层级 prompt 复杂度可细粒度评估模型能力
- 使用人类偏好判断而非简单二元匹配,评估信号更丰富
- 通过 CLIP/BLIP/Gemini 实现可扩展评估,减少人工标注依赖
- 揭示关键失败模式:属性绑定错误、计数失败(>3 物体)、空间关系误解
缺点
- 主要面向文生图(T2I),视频生成支持有限
- 依赖 FID 和 CLIPScore,这些指标存在已知问题
- 英文中心 prompt,全球适用性受限
- 未评估安全性/有害内容
与其他论文的区别
- 与 T2V-CompBench 不同:GenAI-Bench 聚焦图像组合性,T2V-CompBench 扩展到视频的时空组合性
- 与 FETV 不同:GenAI-Bench 测试概念组合性(新颖组合),FETV 聚焦视频细粒度属性评估
- 与 VBench 不同:GenAI-Bench 以图像为主 + 组合性重点,VBench 以视频为主 + 广泛质量维度
- 独特优势:强调分布外/未见概念组合测试,区分真正理解 vs 记忆常见共现
文章摘自:https://www.cnblogs.com/dinosauria/p/20630174
