复现DeepJSCC后,有一些想法

​ 这是关于图像语义传输的文章,发送和接收端都采用端到端联合设计的思路

当数据集为32×32×3的CIFAR10时:

​ encoder:16×16×16——>32×8×8——>32×8×8——>32×8×8——>16×8×8 最后一个16控制压缩率,目前1/6

​ decoder:32×8×8——>32×8×8——>32×8×8——>16×16×16——>3×32×32

当数据集为224×224×3的ImageNet时:

​ encoder:16×112×112——>32×56×56——>32×56×56——>32×56×56——>16×16×16 最后一个16控制压缩率,目前1/6

​ decoder:32×56×56——>32×56×56——>32×56×56——>16×112×112——>3×224×224

总结:从不同尺寸的输入图像可以看出,对于特征图的尺寸,最好严格按照×2或者÷2的规模变化,而对于特征维度可以宽松一点,压缩数据主要从特征维度(通道数)这里进行压缩。对于网络处理的中间步骤,即特征维度和特征图尺寸均处于中间位置时,可以多进行几次不改变尺寸和维度的CNN,用于融合语义和解出语义