JPEG压缩/解压缩用于无线通信
最近有无线传输图像的需求,因为原图数据量很大,因此需要使用JPEG或其他压缩算法对原图进行压缩后再传输
图像文件和压缩标准
常见的图像文件后缀有.arw .bmp .jpg .png .gif .tif .svg
等
.arw
:arw是索尼相机的RAW图像格式。RAW格式可以称为是原始图片数据格式,可以进行更多的后期调整,图像文件中包括光圈、快门、ISO、GPS等相机信息。RAW是广大摄影爱好者的常用格式
.bmp
:BMP格式是微软公司制定的图形标准,最大的优点就是在PC上兼容度一流,几乎能被所有的图形软件“接受”,可称为通用格式,就算不装任何看图软件,用Windows的“画笔”一样可以看。其结构简单,未经过压缩,储存为bmp格式的图形不会失真,但文件比较大,而且不支持Alpha(透明背景)通道
.jpg
:JPG格式是目前网络上最流行的图形格式,它可以把文件容量压缩到最小的格式。JPG支持不同程度的压缩比,您可以视情况调整压缩倍率,压缩比越大,品质就越低;相反地,压缩比越小,品质就越好。不过要注意的一点是,这种压缩法属于有损压缩,文件的压缩会使得图形品质下降。JPEG(Joint Photographic Experts Group,联合图形专家组)是由CCITT(国际电报电话咨询委员会)和ISO(国际标准化组织)联合组成的一个图像专家组
.png
:PNG(Portable Network Graphics,可移植的网络图形格式)是一种新兴的网络图形格式,结合了GIF和JPEG的优点,具有存储形式丰富的特点。PNG最大色深为48bit,采用无损压缩方案存储,是一种位图文件。著名的Macromedia公司的Fireworks的默认格式就是PNG。比起JPG等其他格式多了Alpha通道
.gif
:CompuServe公司在1987年开发的图像文件格式。GIF采用LZW压缩算法来存储图象数据,并采用了可变长度等压缩算法。GIF的图像深度从1 bit到8 bit,也即GIF最多支持256种颜色的图像。GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像,如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上,就可构成一种最简单的动画
.tif
:pTIF格式可说是做平面设计上最常使用到的一种图形格式,因为是属于跨平台的格式,而且支持cmyk色,所以经常被用于印刷输出的场合。此外还有一个特色就是支持lzw压缩,属于无损压缩。TIFF(Tag Image File Format,Tag Image File Format)文件是由Aldus和Microsoft公司为扫描仪和桌上出版系统研制开发的一种较为通用的图像文件格式。TIFF支持多种编码方法,其中包括RGB无压缩、RLE压缩及JPEG压缩等
.svg
:SVG全称为Scalable Vector Graphics,意思为可缩放的矢量图形。它是基于XML(Extensible Markup Language),由World Wide Web Consortium(W3C)联盟进行开发的。严格来说应该是一种开放标准的矢量图形语言,可让你设计高分辨率的Web图形页面。用户可以直接用代码来描绘图像,可以用任何文字处理工具打开SVG图像,通过改变部分代码来使图像具有互交功能,并可以随时插入到HTML中通过浏览器来观看
JPEG
本文主要内容关于将JPEG用于无线通信中,所以仅简单介绍JPEG的基本原理
JPEG(Joint Photographic Experts Group)算法会分析图片的各个部分,找到并删除人眼不易察觉的元素。当使用JPEG算法压缩图片时,可以选一个叫“质量”(Quality)的可变数值来决定压缩的程度,当图像的质量从100%下降到0%时,图片文件的压缩程度也随之越来越高,从而减小了图片文件所占的空间。但是JPEG并不会改变图片的分辨率、像素数量。当图片压缩得越来越小时,可以看到图片的分辨率或像素的数量保持不变。但最终我们会得到这些有缺陷的方块,技术上叫“膺像”(artifacts)
JPEG算法有5个步骤组成:
- Color Space Conversion:色彩空间转换。从RGB转为YUV色彩空间。这个过程是可逆的,在转换过程中没有删除任何数据。Y亮度,Cb蓝色色度、Cr红色色度
- Chrominance Downsampling:色度缩减取样。将蓝色色度和红色色度分量层上的像素按照2×2个像素成一个区块划分,然后计算每个区块的色度平均值,并删掉重复的信息,然后缩小图像,使得含有一个平均值的由4个像素组成的区块只占一个像素的空间。因此那些我们眼睛不易感知的红蓝色度信息的量被缩减到原来的四分之一,而亮度保持不变,这样就导致图像的大小变成原来的一半。但是当我们查看图片时,蓝色和红色色度图层会被放大到跟亮度图层一样的大小,并根据亮度、蓝色色度、红色色度的值重新计算出RGB的值,由于各个像素的亮度可能不同,重新计算的各个像素上的RGB值也可能有变化
- Discrete Cosine Transform(DCT):离散余弦变换。人眼不擅长感知图像中的高频率元素,遍历图像的各个部分,并找到具有高频率的色度或亮度的像素频繁出现的区域,然后将这些人眼很难感知的元素删除。DCT不能压缩或缩小图像。基本思想是提取原始图像的某个通道如亮度(其余通道也做同样操作),将该通道分成多block,每个block是8×8像素,将像素值减去128,取值范围变为-128~127。敲定一个基础图像,将基础图像乘一个系数相加64次,每次系数不同,原始的64个像素变成64个系数
- Quantization:量化。经过DCT拥有一个8×8的常数表,对应于每个基础图像的使用情况。将常数表中的各个值除以量化表中的对应值,并将每个结果四舍五入为最接近的整数。量化表右下角数值较高,那里有人眼不擅长感知的高频数据,而数据较小的左上角,是人眼更易区分的样式所在。这样最后结果有很多0,这些是我们扔掉的人眼无法感知的数据。整张图像使用了一组相同的64个基础图像和两个量化表(一个用于亮度,另一个用于色度),以便将各个8×8的像素区块转化为几个数字和一大堆的0。压缩程度Quality就是改变量化表中的数值
- Run Length and Huffman Encoding:游程编码/哈夫曼编码。列出所有区块中的亮度和色度数值,但是采取之字形顺序,因为这样更有可能找到一连串的非0数。接下来在列出的数字中,使用游程编码算法,不列出所有的0,只是说有多少个0。这个只有十几个数字的列表,比64个像素分别由一个0~255的数字来表示的方法要压缩得多。之后使用霍夫曼编码。
JPEG解压缩上述步骤相反
JPEG文件存储格式
JPEG本身只有描述如何将一个视频/图片转换为字节的数据流(streaming),但并没有说明这些字节如何在任何特定的存储媒体上被封存起来
这里要对JPEG做一个补充说明,很多人把JPEG标准和JPEG文件格式理解成一个东西。然而实际并不是这样的,JPEG标准主要还是围绕编解码的部分(如DCT变换、量化、哈夫曼树等等),虽然在JPEG标准中也定义了“JPEG Interchange Format (JIF)”的文件存储格式,但是因为Encoder和Decoder完整实现JIF很困难,且JIF标准也存在一些缺陷,因此JIF并没有被推广开来。倒是后来出现的“**JPEG File Interchange Format (JFIF)” 和 “Exchange image file Format(Exif)**” 等新的存储格式成为了主流。Exif 也好 JFIF 也罢,他们都是遵循 JIF标准的,两者只是在JIF的基础上增加了一些各自的Marker
- JPEG是压缩标准,JPEG/JFIF和JPEG/EXIF是文件格式标准,不是一个概念,需要注意区分
- JPEG/EXIF文件格式标准是Camera产业联合会发布,主要用于摄像设备上,摄像产业把EXIF作为行业的元数据(metadata)交换格式
- JPEG/JFIF文件格式标准是为了方便JPEG压缩图像在广泛的平台和应用间以最小的存储空间代价进行交换而设计的,它不包含JPEG/TIFF标准任何高级特性
实际上EXIF作为数码相机独特存储的数据格式,添加在JFIF数据格式的APPn上
相比于BMP文件结构,JPEG文件结构要复杂得多。由于Exif和JFIF格式的都是遵循JIF的标准,在存储格式上沿袭了统一的 JPEG Marker
+ Compressed Data
的方式。整个文件根据不同的Marker划分成不同的标记段
。每个Marker的长度为固定的 2 Byte
Marker名称 | Marker内容 | 说明 |
---|---|---|
SOI | 0xFFD8 | Start Of Image |
SOF0 | 0xFFC0 | Start Of Frame 0 |
SOF2 | 0xFFC2 | Start of Frame 2 |
DHT | 0xFFC4 | Define Huffman Table(s) |
DQT | 0xFFDB | Define Quantization Table(s) |
DRI | 0xFFDD | Define Restart Interval |
SOS | 0xFFDA | Start of Scan |
RST0~RST7 | 0xFFD0 ~ 0xFFD7 | Restart |
APP0~APP15 | 0xFFE0 ~ 0xFFEF | Application-sepcific |
COM | 0xFFFE | Comment |
EOI | 0xFFD9 | End of Image |
上面这张表列举了JPEG 的主要 Marker。文件按照Marker的划分成不同的标记段
,每个标记段
结构轮廓一致,如下图所示。Detail Data
部分的结构根据不同的Marker的定义而进行不同的细分
SOI (0xFFD8) 和 EOI (0xFFD9) 作为JPEG文件的起止标志,不参照上图的数据划分。所有的JPEG文件的头两个字节一定是 0xFFD8 最后两个字节是 0xFFD9
JPEG文件格式详细介绍:
JPEG文件的存储格式有很多种,但最常用的是JFIF格式,即JPEG File Interchange Format。JPEG文件大体可以分为两个部分:
(1)标记码;由两个字节构成,其中,前一个字节是固定值0XFF代表了一个标记码的开始,后一个字节不同的值代表着不同的含义。需要提醒的是,连续的多个0XFF可以理解为一个0XFF,并表示一个标记码的开始。另外,标记码在文件中一般是以标记代码的形式出现的。例如,SOI的标记代码是0XFFD8,即,如果JPEG文件中出现了0XFFD8,则代表此处是一个SOI标记。
(2)压缩数据;一个完整的两字节标记码的后面,就是该标记码对应的压缩数据了,它记录了关于文件的若干信息。
一些典型的标记码,及其所代表的含义如下所示:
SOI,Start Of Image, 图像开始,标记代码为固定值0XFFD8,用2字节表示;
APP0,Application 0, 应用程序保留标记0,标记代码为固定值0XFFE0,用2字节表示;该标记码之后包含了9个具体的字段:
(1)数据长度:2个字节,用来表示(1)–(9)的9个字段的总长度,即不包含标记代码但包含本字段;
(2)标示符:5个字节,固定值0X4A6494600,表示了字符串“JFIF0”;
(3)版本号:2个字节,一般为0X0102,表示JFIF的版本号为1.2;但也可能为其它数值,从而代表了其它版本号;
(4)X,Y方向的密度单位:1个字节,只有三个值可选,0:无单位;1:点数每英寸;2:点数每厘米;
(5)X方向像素密度:2个字节,取值范围未知;
(6)Y方向像素密度:2个字节,取值范围未知;
(7)缩略图水平像素数目:1个字节,取值范围未知;
(8)缩略图垂直像素数目:1个字节,取值范围未知;
(9)缩略图RGB位图:长度可能是3的倍数,保存了一个24位的RGB位图;如果没有缩略位图(这种情况更常见),则字段(7)(8)的取值均为0;
APPn, Application n, 应用程序保留标记n(n=1—15),标记代码为2个字节,取值为0XFFE1–0XFFFF;包含了两个字段:
(1)数据长度,2个字节,表示(1)(2)两个字段的总长度;即,不包含标记代码,但包含本字段;
(2)详细信息:数据长度-2个字节,内容不定;
DQT,Define Quantization Table, 定义量化表;标记代码为固定值0XFFDB;包含9个具体字段:
(1)数据长度:2个字节,表示(1)和多个(2)字段的总长度;即,不包含标记代码,但包含本字段;
(2)量化表:数据长度-2个字节,其中包括以下内容:
(a)精度及量化表ID,1个字节,高4位表示精度,只有两个可选值,0:8位;1:16位;低4位表示量化表ID,取值范围为0–3;
(b)表项,64(精度取值+1)个字节,例如,8位精度的量化表,其表项长度为64(0+1)=64字节;
本标记段中,(2)可以重复出现,表示多个量化表,但最多只能出现4次;
SOFO,Start Of Frame, 帧图像开始,标记代码为固定值0XFFC0;包含9个具体字段:
(1)数据长度:2个字节,(1)–(6)共6个字段的总长度;即,不包含标记代码,但包含本字段;
(2)精度:1个字节,代表每个数据样本的位数;通常是8位;
(3)图像高度:2个字节,表示以像素为单位的图像高度,如果不支持DNL就必须大于0;
(4)图像宽度:2个字节,表示以像素为单位的图像宽度,如果不支持DNL就必须大于0;
(5)颜色分量个数:1个字节,由于JPEG采用YCrCb颜色空间,这里恒定为3;
(6)颜色分量信息:颜色分量个数*3个字节,这里通常为9个字节;并依此表示如下一些信息:
(a)颜色分量ID: 1个字节;
(b)水平/垂直采样因子:1个字节,高4位代表水平采样因子,低4位代表垂直采样因子;
(c)量化表:1个字节,当前分量使用的量化表ID;
本标记段中,字段(6)应该重复出现3次,因为这里有3个颜色分量;
DHT,Define Huffman Table定义Huffman表,标记码为0XFFC4;包含2个字段:
(1)数据长度,2个字节,表示(1)–(2)的总长度,即,不包含标记代码,但包含本字段;
(2)Huffman表,数据长度-2个字节,包含以下字段:
(a)表ID和表类型,1个字节,高4位表示表的类型,取值只有两个;0:DC直流;1:AC交流;低4位,Huffman表ID;需要提醒的是,DC表和AC表分开进行编码;
(b)不同位数的码字数量,16个字节;
(c)编码内容,16个不同位数的码字数量之和(字节);
本标记段中,字段(2)可以重复出现,一般需要重复4次。
DRI,Define Restart Interval,定义差分编码累计复位的间隔,标记码为固定值0XFFDD;
包含2个具体字段:
(1)数据长度:2个字节,取值为固定值0X0004,表示(1)(2)两个字段的总长度;即,不包含标记代码,但包含本字段;
(2)MCU块的单元中重新开始间隔:2个字节,如果取值为n,就代表每n个MCU块就有一个RSTn标记;第一个标记是RST0,第二个是RST1,RST7之后再从RST0开始重复;如果没有本标记段,或者间隔值为0,就表示不存在重开始间隔和标记RST;
SOS,Start Of Scan,扫描开始;标记码为0XFFDA,包含2个具体字段:
(1)数据长度:2个字节,表示(1)–(4)字段的总长度;
(2)颜色分量数目:1个字节,只有3个可选值,1:灰度图;3:YCrCb或YIQ;4:CMYK;
(3)颜色分量信息:包括以下字段,
(a)颜色分量ID:1个字节;
(b)直流/交流系数表ID,1个字节,高4位表示直流分量的Huffman表的ID;低4位表示交流分量的Huffman表的ID;
(4)压缩图像数据
(a)谱选择开始:1个字节,固定值0X00;
(b)谱选择结束:1个字节,固定值0X3F;
(c)谱选择:1个字节,固定值0X00;
本标记段中,(3)应该重复出现,有多少个颜色分量,就重复出现几次;本段结束之后,就是真正的图像信息了;图像信息直到遇到EOI标记就结束了;
EOI,End Of Image,图像结束;标记代码为0XFFD9;
另外,需要说明的是,在JPEG中0XFF具有标记的意思,所以在压缩数据流(真正的图像信息)中,如果出现了0XFF,就需要做特别处理了。方法是,如果在图像数据流中遇到0XFF,应该检测其紧接着的字符,如果是:
(1)0X00,表示0XFF是图像流的组成部分;需要进行译码;
(2)0XD9,表示与0XFF组成标记EOI,即,代表图像流的结束,同时,图像文件结束;
(3)0XD0–0XD7,组成RSTn标记,需要忽视整个RSTn标记,即不对当前0XFF和紧接着的0XDn两个字节进行译码,并按RST标记的规则调整译码变量;
(4)0XFF,忽略当前0XFF,对后一个0XFF进行判断;
(5)其它数值,忽然当前0XFF,并保留紧接着此数值用于译码;
需要说明的是,JPEG文件格式中,一个字(16位)的存储使用的是Motorola格式,而不是Intel格式。也就是说,一个字的高字节(高8位)在数据流的前面,低字节(低8位)在数据流的后面,与平时习惯的Intel格式有所不同。这种字节顺序问题的起因在于早期的硬件发展上。在8位CPU的时代,许多8位CPU都可以处理16位的数据,但它们显然是分两次进行处理的。这个时候就出现了先处理高位字节还是先处理低位字节的问题。以Intel为代表的厂家生产的CPU采用先低字节后高字节的方式;而以Motorola,IBM为代表的厂家生产的CPU则采用了先高字节后低字节的方式。Intel的字节顺序也称为little-endian,而Motorola的字节顺序就叫做big-endian。而JPEG/JFIF文件格式则采用了big-endian格式。下面的函数,实现了从intel格式到motolora格式的转换
JPEG用于无线图像传输
常用的JPEG算法库:opencv、simplejpeg、PyTurboJPEG等。这些算法库提供JPEG压缩和解压缩的API,当需要将原图进行压缩并存储时可以直接使用这些算法库实现。使用案例如下:
import numpy as np |
直接调用已有的算法库缺点是无法了解底层实现机制。这只是小问题,主要问题是无法直接用于无线通信,因为JPEG算法库提供的API都是将原图直接压缩成.jpg文件,支持在windows等系统上使用图像查看软件直接打开查看,虽然能直接打开查看压缩结果是一种优势,但这也意味着图像文件中包含了很多必要的Marker。如果将其在无线环境中传输,一旦Marker受损,则无法实现JPEG解压缩,理想情况是只有原始图像数据压缩后的数据受损,而Marker部分不受损才能实现解压缩,这在较差的实际环境中几乎不可能实现。而且在物理层传输对象是比特流,在通信系统中还需要使用信道编码降低误码率。因此不得不自己编写适用于无线环境传输的JPEG算法,即便是这样,也需要假设用于解压缩的一些关键信息在接收端无差错接收。因此参考网上已有的使用python实现JPEG算法:
import numpy as np |
上述算法仅仅展示了JPEG压缩和解压缩的过程,并且没有使用huffman编码,因为模拟无线环境传输时可以直接使用定长编码替代
通信系统在Decompress
函数中实现