2024-2026年最新视频质量评价方法调研报告

2024-2026年最新视频质量评价方法调研报告

VBench

论文:VBench: Comprehensive Benchmark Suite for Video Generative Models
发表:CVPR 2024 (Highlight)
代码https://github.com/Vchitect/VBench

主要使用传统 CV 模型(DINO、CLIP、GRiT、RAFT 等)作为评估器,评估视频生成质量的多个维度。

动机

现有视频生成评价存在三个核心问题:

  1. 指标粗糙:FVD 等指标只给出单一分数,无法揭示模型在不同维度上的优劣
  2. 维度耦合:没有将”视频生成质量”这个复杂概念拆解为可独立评估的子维度
  3. 缺乏人类对齐验证:自动指标是否真正反映人类偏好缺乏系统验证

方法

将”视频生成质量”拆解为 16 个分层、解耦的评测维度,每个维度有专门的 prompt 集合和评估方法:

视频质量(Video Quality)维度 — 评估生成视频本身的视觉质量:

维度 评估方法 说明
主体一致性 (Subject Consistency) DINO 特征相似度 视频中主体对象是否保持外观一致
背景一致性 (Background Consistency) CLIP 特征相似度 背景场景是否保持连贯
时间闪烁 (Temporal Flickering) 相邻帧像素差异 视频是否存在帧间闪烁
运动平滑度 (Motion Smoothness) RAFT 光流估计 运动轨迹是否流畅自然
动态程度 (Dynamic Degree) 光流幅度统计 运动幅度是否合理(非静态/非过度)
美学质量 (Aesthetics) LAION 美学预测器 帧级美学评分
图像质量 (Image Quality) MUSIQ 质量预测器 单帧清晰度、噪声等
时序质量 (Temporal Quality) 视频质量评估模型 整体时间维度质量

条件一致性(Video-Condition Consistency)维度 — 评估视频与条件(文本/图像)的对齐:

维度 评估方法 说明
对象类别 (Object Class) CLIP 图文匹配 生成的对象是否与文本描述一致
多对象 (Multiple Objects) CLIP + 对象检测 多个对象是否都被正确生成
颜色 (Color) CLIP 颜色属性匹配 物体颜色是否正确
空间关系 (Spatial Relationship) 布局分析 对象间的空间位置关系是否正确
场景 (Scene) CLIP 场景匹配 场景类型是否正确
风格 (Style) CLIP 风格匹配 艺术风格是否符合描述
动作 (Action) 动作识别模型 动作类型是否正确
综合一致性 (Overall Consistency) 综合评分 文本-视频整体对齐度

优点

  • 解耦式评估框架,每个维度独立评分,可精确诊断模型优劣
  • 各维度与人类判断的 Spearman 相关系数平均达 0.92
  • 提供标准化 prompt 集和评估流水线,开源代码促进社区采用

缺点

  • 主要面向 T2V,I2V 支持有限
  • 依赖传统 CV 模型(DINO、CLIP),缺乏 MLLM 的深层语义理解能力
  • 不评估可信性、安全性、物理合理性等维度
  • 大规模评估时计算开销较大

与其他论文的区别

  • 与 Video-Bench / VideoScore / Q-Align 等 MLLM 方法不同,VBench 完全依赖传统 CV 模型
  • 比 FETV、T2V-CompBench 等专项基准范围更全面

VBench++

论文:VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
发表:TPAMI 2025
代码https://github.com/Vchitect/VBench

还是主要使用传统 CV 模型作为评估器,只不过增加了I2V。

动机

  1. VBench 仅支持 T2V:实际应用中 I2V、长视频生成同样重要,需要统一评测框架
  2. 缺乏可信性评估:生成视频可能包含偏见、有害内容、版权问题,需要专门评测

方法

I2V 评测核心维度:主体身份保持(DINO/CLIP 特征)、场景一致性、运动自然度(光流分析)、时序连贯性、可信性(安全检测)。

优点

  • 首个系统性地为 I2V 评测设计专门框架
  • 引入可信性维度,为视频生成安全部署提供评测基础
  • 覆盖 T2V、I2V、长视频生成,保持向后兼容

缺点

  • 仍主要依赖传统 CV 模型,未充分利用 MLLM
  • I2V 评测维度可能未完全覆盖所有 I2V 特有挑战
  • 可信性评测仍处于早期阶段
  • 长视频评测能力有限

与其他论文的区别

  • 保持传统 CV 模型路线同时扩展维度
  • 新增可信性维度

VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

论文:VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
代码https://github.com/Vchitect/VBench

除了传统cv模型,用了LLaVA-Video-7B-Qwen2和Qwen2.5-7B-Ininstruction测了运动合理性等指标。

动机

  1. 现有评测停留在表面质量:主要评估”像不像”,缺乏对内在真实性(物理规律、因果关系)的评测
  2. I2V 评测需求增长:SVD、CogVideoX 等 I2V 模型大量涌现,需要专门评测框架
  3. 自动指标与人类偏好仍有差距:需要更贴近人类判断的评估维度

方法

在 VBench 1.0 基础上新增/强化 I2V 特有维度:

  • 首帧保真度:生成视频首帧与输入图像的一致性
  • 主体保持度:视频中主体对象在输入图像中的语义/外观保持
  • 运动合理性:生成运动是否符合物理规律

优点

  • 聚焦内在真实性(物理规律、因果关系),超越表面质量评估
  • 评估”行为是否合理”而非仅”外观是否像”

缺点

  • 物理合理性评估仍有限,需要更复杂的评估模型
  • 复杂因果关系的评估能力有限
  • 与人类判断的对齐验证尚不如 VBench 1.0 充分

与其他论文的区别

  • 聚焦内在真实性(物理、因果),其他基准不具备
  • 超越 VBench 和 VBench++ 的表面质量与对齐评估
  • 比 EvalCrafter、Video-Bench 更强调物理正确性

EvalCrafter(代码未公开)

论文:EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
发表:CVPR 2024
代码:未公开

动机

  1. 现有学术指标过于简单:FVD、IS 仅关注分布匹配,忽略文本-视频对齐
  2. 大模型能力多维:单一指标无法全面评估
  3. 运动和一致性被忽略:这是视频生成区别于图像生成的核心,但之前的评价方法几乎不涉及

方法

三阶段评测流程:

  1. Prompt 构建:利用 LLM(ChatGPT)分析真实用户 prompt 分布,构建覆盖多样场景的评测 prompt 集
  2. 多维度客观指标评测(70+ 指标,约 18 个大类):
    • 视觉质量:DOVER 视频质量评分、Warping Error
    • 运动质量:RAFT 光流估计、运动平滑度、时序一致性
    • 文本-视频对齐:CLIP Score、BLIP2 图文匹配、MLLM 语义理解
    • I2V 专项:Motion Fidelity 指标
  3. 人类对齐的最终评分:通过回归模型将客观指标与人类偏好对齐,训练加权系数

优点

  • 首次系统性地将 MLLM 引入视频生成评测的多维度框架
  • 70+ 指标覆盖面广,包含 I2V 专项 Motion Fidelity 指标
  • 人类对齐的加权评分方法使客观指标更好反映人类偏好
  • LLM 构建的 prompt 集覆盖真实用户使用场景

缺点

  • 代码未公开,可复现性受限
  • MLLM 仅作为辅助语义评估器,非核心评估引擎
  • 回归式人类对齐可能无法泛化到新模型
  • 评估流水线复杂,计算开销大

与其他论文的区别

  • 与 VBench 不同:使用混合流水线(LLM-as-a-Judge + 传统视觉算法),VBench 仅用传统 CV 模型
  • 与 Video-Bench 不同:MLLM 仅用于语义评分,Video-Bench 以 MLLM 为核心评估器
  • 与 AIGV-Assessor 不同:是评测流水线而非训练好的模型
  • 与 VideoScore 不同:用回归做人类对齐,VideoScore 微调 MLLM 做奖励模型

Video-Bench(全面使用 MLLM)

论文:Video-Bench: Human-Aligned Video Generation Benchmark
发表:CVPR 2025
代码https://github.com/Video-Bench/Video-Bench

动机

  1. 传统指标与人类偏好脱节:FVD、CLIP Score 等与人类判断的相关性低
  2. 现有 LLM-based 方法理解有限:对视频质量指标和跨模态一致性的理解深度不够
  3. 评测维度不全面:现有基准要么只评视觉质量,要么只评条件对齐

方法

第一篇系统性地在所有维度上全面使用 MLLM 的工作。

双维度评估框架:

维度大类 具体维度
视频-条件对齐 对象匹配、属性匹配、动作匹配、空间关系、风格匹配
视频质量 画面清晰度、时序连贯性、运动合理性、美学质量、无伪影

两大 MLLM 驱动技术:

  1. Chain-of-Query(链式查询):分步查询 MLLM(先问对象→再问一致性→综合判断),类似人类逐步分析
  2. Few-shot Scoring(少样本评分):给 MLLM 展示少量已标注的”好/中/差”示例,参照评分

与人类偏好的 Spearman 相关系数达到 0.733。

优点

  • 首个全面以 MLLM 为核心评估器的工作
  • Chain-of-Query 提升可解释性和准确性
  • Few-shot Scoring 通过参照示例提升评分一致性
  • 高人类对齐度(Spearman 0.733),显著优于传统方法
  • 支持 T2V 和 I2V 评测

缺点

  • 强依赖底层 MLLM 质量,不同 MLLM 可能导致不同结果
  • 逐维度运行 MLLM 查询,计算成本高
  • 0.733 相关性仍有提升空间

与其他论文的区别

  • :以 MLLM 为核心评估器,人类对齐度更高
  • 与 VideoScore 不同:无需微调
  • 与 Q-Align 不同:Chain-of-Query 结构化评估 vs 离散等级评分;覆盖质量和对齐两个维度

AIGV-Assessor(训练好的评估模型,支持 T2V 不支持 I2V)

论文:AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM
发表:CVPR 2025
代码https://github.com/wangjiarui153/AIGV-Assessor

动机

  1. AIGV 存在独特失真:AI 生成视频的失真模式(不真实物体、不自然运动)与传统 UGC 视频截然不同
  2. 现有 VQA 模型对 AIGV 评估不足:传统 VQA 模型训练于真实世界视频,无法捕捉 AIGV 特有质量问题
  3. 缺乏大规模 AIGV 质量数据集:缺少系统性构建的、带多维标注的数据集

方法

构建大规模 AIGV 质量数据集 AIGVQA-DB:36,576 个视频、15 个 T2V 模型、370,000+ 条专家评分。

四维质量评估体系:静态质量、时间平滑度、动态程度、文本-视频对应。

模型架构:空间视觉编码器 (ViT) + 时间视觉编码器 (SlowFast) → 时空投影模块 → LMM 框架 (LLaMA) → 质量分数 + 偏好预测。

三阶段训练:时空投影模块训练 → 质量回归微调 → 成对比较微调。

优点

  • 大规模 AIGV 专用质量数据集(AIGVQA-DB,370K+ 专家评分),填补数据空白
  • 专为 AIGV 失真设计的架构(ViT + SlowFast + LLaMA)
  • 双输出:质量分数回归 + 成对偏好预测
  • 三阶段训练策略逐步构建评估能力

缺点

  • 仅支持 T2V 评测,不支持 I2V
  • 仅 4 个质量维度,比 VBench(16 维度)粗
  • 需要在特定数据集上训练,泛化到新模型/失真类型可能受限
  • 无可解释性机制(如 Chain-of-Query),仅输出分数

与其他论文的区别

  • 与 VBench 不同:是训练好的评估模型(4 维度,LMM 架构)
  • 与 EvalCrafter 不同:端到端训练模型 vs 混合评测流水线
  • 与 Video-Bench 不同:微调 LMM + 专用架构 vs 通用 MLLM + prompt 工程
  • 与 VideoScore 不同:4 维度 + ViT/SlowFast/LLaMA 架构 vs 5 维度 + Mantis 架构
  • 与 FineVQ 不同:聚焦 AIGV 质量 vs UGC 视频质量

VideoScore(微调MLLM)

论文:VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
发表:EMNLP 2024
代码https://github.com/TIGER-AI-Lab/VideoScore

微调的Mantis-8B-Idefics2

动机

  1. 自动视频指标发展滞后:没有现有指标能够对生成视频给出可靠分数
  2. 核心瓶颈是缺乏大规模人类标注数据集:训练可靠的自动评估器需要大量多维度的人类反馈数据
  3. RLHF 需要可靠的奖励模型:视频生成模型的强化学习优化需要模拟人类偏好的自动评分器

方法

构建 VideoFeedback 数据集:37,600 个合成视频、11 个视频生成模型、多维度人类评分。

五维评估体系:视觉质量、时序一致性、动态程度、文本对齐、综合得分(各 1.0–4.0 分)。

模型基于 Mantis(多模态 LLM)初始化,通过 VideoFeedback 数据集微调。Spearman 相关系数达到 77.1,比之前最佳指标高约 50 个百分点,可作为 RLHF 的奖励模型使用。

优点

  • 大规模数据集(37,600 视频,11 个模型),多维度人类评分
  • Spearman 相关系数 77.1,显著优于传统指标
  • 可直接用作 RLHF/DPO 训练的奖励模型
  • 后续版本 VideoScore2 进一步改进

与其他论文的区别

  • 微调 MLLM ,主要讲的是训练这样一个评估模型的方法

Q-Align(LoRA 微调,提供hf模型)

论文:Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels
发表:ICML 2024
代码https://github.com/Q-Future/Q-Align

动机

  1. LMM 有潜力做视觉评分,但缺乏训练方法:GPT-4V 等模型展示了初级视觉质量感知能力,但准确性不足
  2. 人类评分的本质是离散等级判断:人类评估者使用离散的文字描述等级(如”极好/好/一般/差/极差”),而非精确数值
  3. 直接让 LMM 预测分数效果不佳:连续分数预测与 LLM 的文本生成范式不匹配

方法

离散文字等级教学法:定义 5 个离散质量等级,每个等级用文字描述,让 LMM 学习在这些等级中选择最匹配的描述。

统一模型 OneAlign:将图像质量评估(IQA)、图像美学评估(IAA)、视频质量评估(VQA)三个任务统一到一个模型中。在三个任务上均达到 SOTA,离散等级方法显著优于直接预测分数的方法。

优点

  • 离散文字等级范式桥接了 LMM 文本处理与连续质量分数的鸿沟
  • 统一模型 OneAlign 同时处理 IQA、IAA、VQA 三个任务
  • 多个基准上达到 SOTA
  • 支持 HuggingFace 免安装使用,LoRA 微调仅需 2 块 RTX 3090
  • 跨失真类型和内容的泛化能力强

缺点

  • 依赖 mPLUG-Owl2 架构
  • 固定离散尺度可能无法捕捉连续回归方法能捕捉的细微质量差异

FineVQ(预训练的权重)

论文:FineVQ: Fine-Grained User Generated Content Video Quality Assessment
发表:CVPR 2025 (Spotlight)
代码https://github.com/IntMeGroup/FineVQ

动机

  1. 现有 VQA 只给总分:缺乏细粒度的质量描述
  2. UGC 视频质量问题多样:模糊、抖动、曝光、压缩伪影等需要分别评估
  3. 缺乏细粒度标注数据

方法

构建 FineVD 数据集:6,104 个 UGC 视频,每个多维度质量分数和文字描述。

三合一评估能力:

  • 质量评级:离散等级(差/一般/好/极好)
  • 质量评分:各维度精确分数
  • 质量归因:具体指出哪里有问题、为什么

架构:视频 → 3D-CNN 时空特征提取 → 文本特征对齐 → LLM 推理 → 多维质量输出。使用 3D-CNN 捕捉时空特征,比传统 2D 网络多出约 37% 的运动信息。

优点

  • 首个大规模细粒度 UGC 视频质量评估数据集(FineVD)
  • 三合一能力覆盖不同用户需求
  • 3D-CNN 有效捕捉时空特征,运动信息捕捉提升 37%
  • 质量归因功能提供可操作的质量问题洞察
  • 在 UGC 视频质量评估基准上达到 SOTA

缺点

  • 专注 UGC 视频,泛化到 AI 生成视频可能不足
  • 3D-CNN 架构实时应用时计算成本高
  • 数据集规模(6,104 视频)训练超大模型可能受限
  • 质量维度预定义,可能未覆盖所有质量方面
  • 主要在中国 UGC 平台评估,跨文化泛化不确定

与其他论文的区别

  • 提供质量归因文字描述,而非仅输出分数
  • 使用 3D-CNN 做时序建模,而非 Transformer

T2V-CompBench(T2V)

论文:T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-Video Generation
发表:CVPR 2025
代码https://github.com/KaiyueSun98/T2V-CompBench

动机

  1. 现有 T2V 模型在组合性任务上表现不佳:多物体、属性、动作及动态变化的组合生成是核心难点
  2. 缺乏组合性评测基准
  3. 组合性是衡量模型真正理解能力的关键

方法

七类组合性评测维度:

类别 示例 评估方法
单对象 + 属性 “一只红色的猫” MLLM 属性判断
多对象 “一只猫和一只狗” 对象检测 + MLLM
对象 + 动作 “一只猫在跳跃” 动作识别 + MLLM
属性 + 动作 “一只红色的猫在跳跃” 综合判断
空间关系 “猫在桌子上方” 空间推理 + MLLM
时间变化 “猫从左走到右” 时序分析 + MLLM
复杂组合 多属性 + 多对象 + 动作 综合 MLLM 推理

三类评估指标:MLLM-based 指标(Grid-LLaVA、D-LLaVA)、传统自动指标(CLIP Score)、人工评估。

优点

  • 专攻”组合性”生成能力,这是当前模型的关键失败点
  • 多指标验证(MLLM + CLIP + 人工),评估更可靠
  • 提供标准化测试平台,可诊断属性泄漏等具体失败模式

缺点

  • 主要面向 T2V,未显式处理 I2V 中的组合性失败
  • 使用 Grid-LLaVA 作为主要指标,计算成本高于 CLIP
  • 复杂组合类别中,自动指标难以区分部分失败和完全失败

与其他论文的区别

  • 与 VBench 不同:VBench 覆盖 16 个广泛维度,CompBench 深入语义准确性的子集
  • 与 EvalCrafter 不同:EvalCrafter 是通用评测框架,CompBench 是组合能力的”压力测试”
  • 与 Video-Bench 不同:Video-Bench 用 MLLM 评所有维度,CompBench 用 MLLM 专评组合约束

FETV(T2V)

论文:FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation
发表:ECCV 2024
代码https://github.com/linzhiqiu/FETV

动机

  1. 现有 T2V 评估过于粗糙:FVD 等指标只给出一个整体分数,无法细粒度分析
  2. 需要分解式评估:一个视频可能视觉质量好但文本对齐或时序一致性有问题

方法

细粒度的 T2V 评估维度分解:

  • 文本-视频对齐:属性绑定、动作正确性、空间关系
  • 视频质量:视觉清晰度、美学质量
  • 时序质量:一致性、平滑度、闪烁
  • 组合能力:多物体、复杂场景的正确生成

结合人工评估和自动指标(CLIP-based、GPT-4-based),针对不同能力维度设计专用测试 prompt。

优点

  • T2V 基准中最细粒度的属性级评估分解(主体、动作、场景、风格、镜头运动)
  • 结合人工评估和自动指标(CLIP、GPT-4),评估更全面
  • 诊断能力强,可精确定位模型弱点(时序一致性 vs 运动 vs 属性绑定)
  • 标准化可复现框架

缺点

  • 重度依赖人工标注,成本高、不可完全扩展
  • 自动指标(FVD、CLIPSIM)在细粒度层面仍难以匹配人类判断
  • 可能无法跟上快速演进的 T2V 模型(Sora、Runway Gen-3 等)

与其他论文的区别

  • 与 VBench 不同:更细粒度的属性级子分类 vs 16 个广泛维度
  • 与 EvalCrafter 不同:EvalCrafter 覆盖更多维度,FETV 对特定属性分析更深
  • 与 Video-Bench 不同:Video-Bench 以 LLM 自动评估为主,FETV 保留大量人工评估
  • 独特优势:诊断具体失败模式的能力比多数基准更详细

GenAI-Bench(T2I)

论文:GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation
发表:NeurIPS 2024
代码https://github.com/genaibenchmark/genai-bench

动机

  1. 生成式 AI 评估标准不统一:不同团队使用不同指标和数据集
  2. 需要更难的测试用例:现有基准的 prompt 相对简单,无法区分顶级模型

方法

构建更具挑战性的评估 prompt 集,使用新颖的、分布外概念组合系统性测试组合理解能力(属性绑定、空间关系、计数)。引入基于人类偏好的 Elo 排名系统,多层级 prompt 复杂度(简单、组合、空间),通过视觉-语言模型(CLIP、BLIP、Gemini)实现可扩展评估。主要面向 T2I(文生图)评测,视频生成支持为扩展能力。

优点

  • 系统性测试组合理解能力,使用分布外概念组合避免模型”记忆”
  • 多层级 prompt 复杂度可细粒度评估模型能力
  • 使用人类偏好判断而非简单二元匹配,评估信号更丰富
  • 通过 CLIP/BLIP/Gemini 实现可扩展评估,减少人工标注依赖
  • 揭示关键失败模式:属性绑定错误、计数失败(>3 物体)、空间关系误解

缺点

  • 主要面向文生图(T2I),视频生成支持有限
  • 依赖 FID 和 CLIPScore,这些指标存在已知问题
  • 英文中心 prompt,全球适用性受限
  • 未评估安全性/有害内容

与其他论文的区别

  • 与 T2V-CompBench 不同:GenAI-Bench 聚焦图像组合性,T2V-CompBench 扩展到视频的时空组合性
  • 与 FETV 不同:GenAI-Bench 测试概念组合性(新颖组合),FETV 聚焦视频细粒度属性评估
  • 与 VBench 不同:GenAI-Bench 以图像为主 + 组合性重点,VBench 以视频为主 + 广泛质量维度
  • 独特优势:强调分布外/未见概念组合测试,区分真正理解 vs 记忆常见共现

文章摘自:https://www.cnblogs.com/dinosauria/p/20630174