图像检索数据集

数据是一切算法应用的基础，无论是监督学习需要标注好的数据进行训练，还是无监督学习需要对数据进行分析、考量，数据都是不可或缺的。一个任务或一项工程的大力度推进或发展离不开公开数据集的构建，重复的进行数据采集、标注是耗费人力和物力的，并且同一任务在不同数据集上的比较也是毫无意义的，所以公开数据集是十分重要的基础架构。

目前做CBIR用得比较多且流行的有下面几个:

手写数字图像库[MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges，这个库有共70,000张图片，每张图片的大小是28*28，共包含10类从数字0到9的手写字符图像，在图像检索里一般是直接使用它的灰度像素作为特征，特征维度为784维。
CIFAR-10 and CIFAR-100 datasets，这个数据库包含10类图像，每类6k，图像分辨率是32*32。另外还有一个CIFAR-100。如果嫌CIFAR-100小，还有一个更大的[Tiny Images Dataset，上面CIFAR-10和CIFAR-100都是从这个库里筛选出来的，这个库有80M图片。
Caltech101和Caltech256，从后面的数据可以看出它们分别有多少类了。虽然这两个库用于做图像分类用得很多，不过也非常适合做CBIR，前面给的两个数据库由于图像大小尺寸较小，在检索可视化的时候显示的效果不是很好。所以我比较推荐用Caltech256和Caltech101，Caltech256有接近30k的图片，用这个发发论文完全是没什么问题的。如果要做几百万的实际应用，那得另寻数据库。
INRIA Holidays，也是一个在做CBIR时用的很多的数据库，图像检索的论文里很多都会用这个数据库。该数据集是Herve Jegou研究所经常度假时拍的图片（风景为主），一共1491张图，500张query（一张图一个group）和对应着991张相关图像，已提取了128维的SIFT点4455091个，visual dictionaries来自Flickr60K。
Oxford Buildings Dataset，5k Dataset images，有5062张图片，是牛津大学VGG小组公布的，在基于词汇树做检索的论文里面，这个数据库出现的频率极高。
Oxford Paris，The Paris Dataset，oxford的VGG组从Flickr搜集了6412张巴黎旅游图片，包括Eiffel Tower等。
201Books and CTurin180，The CTurin180 and 201Books Data Sets，2011.5，Telecom Italia提供于Compact Descriptors for Visual Search，该数据集包括：Nokia E7拍摄的201本书的封面图片（多视角拍摄，各6张），共1.3GB； Turin市180个建筑的视频图像，拍摄的camera有Galaxy S、iPhone 3、Canon A410、Canon S5 IS，共2.7GB。
Stanford Mobile Visual Search，Stanford Mobile Visual Search Dataset，2011.2，stanford提供，包括8种场景，如CD封面、油画等，每组相关图片都是采自不同相机（手机），所有场景共500张图；以后又发布了一个patch数据集，Compact Descriptors for Visual Search Patches Dataset，校对了相同patch。
UKBench，UKBench database，2006.7，Henrik Stewénius在他CVPR06文章中提供的数据集，图像都为640*480，每个group有4张图，文件接近2GB，提供visual words。
MIR-FLICKR，MIR-FLICKR-1M，2010，1M张Flickr上的图片，也提供25K子集下载。