UCF101 (UCF101 Human Actions dataset)

​ UCF101 数据集是 UCF50 的扩展,由 13,320 个视频片段组成,分为 101 个类别。这 101 个类别可分为 5 种类型(身体运动、人与人之间的互动、人与物体之间的互动、演奏乐器和运动)。这些视频片段的总长度超过 27 小时。所有视频都是从 YouTube 上收集的,帧频固定为 25 FPS,分辨率为 320 × 240

​ 地址:https://www.crcv.ucf.edu/research/data-sets/ucf101/

  1. 数据集名称:UCF-101(2012)
  2. 总视频数:13,320个视频
  3. 总时长:27个小时
  4. 视频来源:YouTube采集
  5. 视频类别:101
  6. 视频类别组 :Human-Object Interaction(人与物体交互)、Body-Motion Only(单纯的肢体动作)、Human-Human Interaction(人与人交互)、Playing Musical Instruments(演奏乐器)、Sports(体育运动)
  7. 特点:
  • 每个类别的视频被分为25组,每组可包含4-7个视频,来自同一组的视频具有一些相似的特征,比如背景、人物等
  • 这些视频是在不受约束的环境中录制并上传至YouTube,包含相机运动、各种照明条件、部分遮挡、低质帧等特点。
  • 视频码率为 25FPS,分辨率为 320x240,avi格式,DivX编码方式,平均视频片段时长7.21秒。
  • 视频按照 v_X_gY_cZ.avi的格式命名,其中X表示类别、Y表示组、Y表示视频编号,例如:v_ApplyEyeMakeup_g03 c04.avi 表示 ApplyEyeMakeup 类别下,第03组的第04个视频。

BVI-DVC

​ 深度学习方法正越来越多地应用于视频压缩算法的优化,与传统方法相比,它能显著提高编码效率。这类方法通常采用卷积神经网络(CNN),而 CNN 是在内容覆盖范围相对有限的数据库上进行训练的。BVI-DVC 是一个用于训练基于 CNN 的编码工具的新的广泛且具有代表性的视频数据库,其中包含从 270p 到 2160p 不同空间分辨率的 772 个序列。实验结果表明,与现有的三个(常用的)图像/视频训练数据库相比,该数据库在编码增益方面有显著改善。

Alternative title A Training Database for Deep Video Compression
Creator(s) Fan Zhang, Di Ma, David Bull
Publication date 30 Nov 2021
Language eng
Publisher University of Bristol
Licence Non-Commercial Government Licence for public sector information
DOI 10.5523/bris.3h0hduxrq4awq2ffvhabjzbzi1
Citation Fan Zhang, Di Ma, David Bull (2021): BVI-DVC Part 1. https://doi.org/10.5523/bris.3h0hduxrq4awq2ffvhabjzbzi1
Total size 83.8 GiB

REDS

​ REDS(Realistic and Dynamic Scenes) 数据集是在 NTIRE19 挑战赛中提出的数据集,常用于视频去模糊和视频超分辨率任务。该数据集由 240 个训练视频序列, 30 个验证视频序列和 30 个测试视频序列组成,每个视频序列由 100 个分辨率为 720x1280 的连续视频帧构成。

​ REDS 数据集可以从其主页下载。对于视频超分辨率任务,应下载 train_sharptrain_sharp_bicubicval_sharpval_sharp_bicubic

​ 在 REDS 官方数据集中,训练集和验证集是可以公开获取的,而测试集是非公开的。最常见的使用方法是将原始的训练集和验证集合并作为训练集,选取原始训练集中的 4 个视频序列(‘000’, ‘011’, ‘015’ 和 ‘020’) 作为测试集,命名为REDS4。

​ 数据集的文件目录结构应如下所示:

data
├── REDS
│ ├── train_sharp
│ │ ├── 000
│ │ ├── 001
│ │ ├── ...
│ ├── train_sharp_bicubic
│ │ ├── X4
│ │ | ├── 000
│ │ | ├── 001
│ │ | ├── ...
├── REDS4
│ ├── sharp
│ ├── sharp_bicubic

MMEditing 中提供了 REDS 数据集的使用教程。仅运行以下命令就可以完成 REDS 数据集的准备:

python tools/dataset_converters/reds/preprocess_reds_dataset.py --root-path ./data/REDS

​ 如果想使用 LMDB 以获得更快的 IO 速度,可以通过以下命令来构建 LMDB 文件:

python tools/dataset_converters/reds/preprocess_reds_dataset.py --root-path ./data/REDS --make-lmdb

MMEditing 中也支持了将 REDS 数据集图像裁剪为子图以加快 IO 速度,可以运行以下命令:

python tools/dataset_converters/reds/crop_sub_images.py --data-root ./data/REDS  -scales 4

Vimeo-90K

​ Vimeo-90K 是一个大规模、高质量的视频数据集,提出自 Video Enhancement with Task-Oriented Flow。该数据集可被用作以下 4 个视频处理任务:视频插帧、视频去噪、视频去块和视频超分辨率。该数据集由 Triplet 数据集(用作视频插帧)和 Septuplet 数据集(用作视频去噪、视频去块和视频超分辨率)组成。Septuplet 数据集由 91701 个分辨率为 256x448 的 7 帧 视频序列组成。

​ Vimeo-90K 数据集可以从其主页下载。对于视频超分辨率任务,应下载 Septuplet dataset(82GB)

​ 数据集的文件目录结构应如下所示:

vimeo_septuplet
├── sequences
│ ├── 00001
│ │ ├── 0001
│ │ │ ├── im1.png
│ │ │ ├── im2.png
│ │ │ ├── ...
│ │ ├── 0002
│ │ ├── 0003
│ │ ├── ...
│ ├── 00002
│ ├── ...
├── sep_trainlist.txt
├── sep_testlist.txt

​ 原始的 Vimeo-90K 数据集没有提供下采样的视频序列,所以在使用前需要先生成下采样的 LR 视频序列。

MMEditing 中提供了 Vimeo-90K 数据集的使用教程。仅运行以下命令就可以生成下采样图像:

python tools/dataset_converters/vimeo90k/preprocess_vimeo90k_dataset.py --data-root ./data/vimeo90k

​ 如果想使用 LMDB 以获得更快的 IO 速度,可以通过以下命令来构建 LMDB 文件:

python tools/dataset_converters/vimeo90k/preprocess_vimeo90k_dataset.py --data-root ./data/vimeo90k --train_list ./data/vimeo90k/sep_trainlist.txt --gt-path ./data/vimeo90k/GT --lq-path ./data/Vimeo90k/BIx4  --make-lmdb

Vid4

​ Vid4 数据集是最流行的视频超分辨率测试集之一。该数据集由 4 个视频序列组成: ‘calendar’ (41 帧,分辨率为 576x720),’city’ (34 帧,分辨率为 576x704),’foliage’ (49 帧,分辨率为 480x720) 和 ‘walk’(47 帧,分辨率为 480x720)。

​ Vid4 数据集可以从这里下载。

MMEditing 中提供了 Vid4 数据集的使用教程

UDM10

​ UDM10 数据集是常用的视频超分辨率测试集。该数据集由 10 个视频序列组成,每个视频序列包含分辨率为 720x1272 的 32 个连续帧。

​ UDM10 数据集可以从这里下载。

MMEditing 中提供了 UDM10 数据集的使用教程

SPMCS

​ SPMCS 数据集由 30 个视频序列组成,每个视频序列包含分辨率为 540x960 的 31 个连续帧。每个视频序列包括 x2,x3 和 x4 倍下采样的输入图像和高分辨率的原始图像。

​ SPMCS 数据集可以从其主页或者从这里下载。

MMEditing 中提供了 SPMCS 数据集的使用教程