​ 数据是一切算法应用的基础,无论是监督学习需要标注好的数据进行训练,还是无监督学习需要对数据进行分析、考量,数据都是不可或缺的。一个任务或一项工程的大力度推进或发展离不开公开数据集的构建,重复的进行数据采集、标注是耗费人力和物力的,并且同一任务在不同数据集上的比较也是毫无意义的,所以公开数据集是十分重要的基础架构。

​ 目前做CBIR用得比较多且流行的有下面几个:

  • 手写数字图像库[MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges,这个库有共70,000张图片,每张图片的大小是28*28,共包含10类从数字0到9的手写字符图像,在图像检索里一般是直接使用它的灰度像素作为特征,特征维度为784维。

  • CIFAR-10 and CIFAR-100 datasets,这个数据库包含10类图像,每类6k,图像分辨率是32*32。另外还有一个CIFAR-100。如果嫌CIFAR-100小,还有一个更大的[Tiny Images Dataset,上面CIFAR-10和CIFAR-100都是从这个库里筛选出来的,这个库有80M图片。

  • Caltech101和Caltech256,从后面的数据可以看出它们分别有多少类了。虽然这两个库用于做图像分类用得很多,不过也非常适合做CBIR,前面给的两个数据库由于图像大小尺寸较小,在检索可视化的时候显示的效果不是很好。所以我比较推荐用Caltech256和Caltech101,Caltech256有接近30k的图片,用这个发发论文完全是没什么问题的。如果要做几百万的实际应用,那得另寻数据库。

  • INRIA Holidays,也是一个在做CBIR时用的很多的数据库,图像检索的论文里很多都会用这个数据库。该数据集是Herve Jegou研究所经常度假时拍的图片(风景为主),一共1491张图,500张query(一张图一个group)和对应着991张相关图像,已提取了128维的SIFT点4455091个,visual dictionaries来自Flickr60K。

  • Oxford Buildings Dataset,5k Dataset images,有5062张图片,是牛津大学VGG小组公布的,在基于词汇树做检索的论文里面,这个数据库出现的频率极高。

  • Oxford Paris,The Paris Dataset,oxford的VGG组从Flickr搜集了6412张巴黎旅游图片,包括Eiffel Tower等。

  • 201Books and CTurin180,The CTurin180 and 201Books Data Sets,2011.5,Telecom Italia提供于Compact Descriptors for Visual Search,该数据集包括:Nokia E7拍摄的201本书的封面图片(多视角拍摄,各6张),共1.3GB; Turin市180个建筑的视频图像,拍摄的camera有Galaxy S、iPhone 3、Canon A410、Canon S5 IS,共2.7GB。

  • Stanford Mobile Visual Search,Stanford Mobile Visual Search Dataset,2011.2,stanford提供,包括8种场景,如CD封面、油画等,每组相关图片都是采自不同相机(手机),所有场景共500张图;以后又发布了一个patch数据集,Compact Descriptors for Visual Search Patches Dataset,校对了相同patch。

  • UKBench,UKBench database,2006.7,Henrik Stewénius在他CVPR06文章中提供的数据集,图像都为640*480,每个group有4张图,文件接近2GB,提供visual words。

  • MIR-FLICKR,MIR-FLICKR-1M,2010,1M张Flickr上的图片,也提供25K子集下载。