关于DeepJSCC的思考

复现DeepJSCC后，有一些想法

这是关于图像语义传输的文章，发送和接收端都采用端到端联合设计的思路

当数据集为32×32×3的CIFAR10时：

encoder：16×16×16——>32×8×8——>32×8×8——>32×8×8——>16×8×8 最后一个16控制压缩率，目前1/6

decoder：32×8×8——>32×8×8——>32×8×8——>16×16×16——>3×32×32

当数据集为224×224×3的ImageNet时：

encoder：16×112×112——>32×56×56——>32×56×56——>32×56×56——>16×16×16 最后一个16控制压缩率，目前1/6

decoder：32×56×56——>32×56×56——>32×56×56——>16×112×112——>3×224×224

总结：从不同尺寸的输入图像可以看出，对于特征图的尺寸，最好严格按照×2或者÷2的规模变化，而对于特征维度可以宽松一点，压缩数据主要从特征维度（通道数）这里进行压缩。对于网络处理的中间步骤，即特征维度和特征图尺寸均处于中间位置时，可以多进行几次不改变尺寸和维度的CNN，用于融合语义和解出语义