0


【深度学习】图像超分实验:SRCNN/FSRCNN

图像超分即超分辨率,将图像从模糊的状态变清晰
本文为深度学习专业课的实验报告,完整的源码文件/数据集获取方式见文末

1.实验目标

输入大小为h×w的图像X,输出为一个sh×sw的图像 Y,s为放大倍数。

2.数据集简介

本次实验采用的是 BSDS500 数据集,其中训练集包含 200 张图像,验证集包含 100 张图像,测试集包含 200 张图像。
数据集来源:https://download.csdn.net/download/weixin_42028424/11045313

3.数据预处理

数据预处理包含两个步骤:

(1)将图片转换成YCbCr模式
由于RGB颜色模式色调、色度、饱和度三者混在一起难以分开,因此将其转换成 YcbCr 颜色模式,Y是指亮度分量,Cb表示 RGB输入信号蓝色部分与 RGB 信号亮度值之间的差异,Cr 表示 RGB 输入信号红色部分与 RGB 信号亮度值之间的差异。

(2)将图片裁剪成 300×300 的正方形
由于后面采用的神经网路输入图片要求长宽一致,而 BSDS500 数据集中的图片长宽并不一致,因此需要对其进行裁剪。这里采用的方式是先定位到每个图片中心,然后以图片中心为基准,向四个方向拓展 150 个像素,从而将图片裁剪成 300×300 的正方形。

相关代码:

  1. defis_image_file(filename):returnany(filename.endswith(extension)for extension in[".png",".jpg",".jpeg"])defload_img(filepath):
  2. img = Image.open(filepath).convert('YCbCr')
  3. y, _, _ = img.split()return y
  4. CROP_SIZE =300classDatasetFromFolder(Dataset):def__init__(self, image_dir, zoom_factor):super(DatasetFromFolder, self).__init__()
  5. self.image_filenames =[join(image_dir, x)for x in listdir(image_dir)if is_image_file(x)]
  6. crop_size = CROP_SIZE -(CROP_SIZE % zoom_factor)# 从图片中心裁剪成300*300
  7. self.input_transform = transforms.Compose([transforms.CenterCrop(crop_size),
  8. transforms.Resize(
  9. crop_size // zoom_factor),
  10. transforms.Resize(
  11. crop_size, interpolation=Image.BICUBIC),# BICUBIC 双三次插值
  12. transforms.ToTensor()])
  13. self.target_transform = transforms.Compose([transforms.CenterCrop(crop_size), transforms.ToTensor()])def__getitem__(self, index):input= load_img(self.image_filenames[index])
  14. target =input.copy()input= self.input_transform(input)
  15. target = self.target_transform(target)returninput, target
  16. def__len__(self):returnlen(self.image_filenames)

4.网络结构

本次实验尝试了SRCNN和FSRCNN两个网络。

4.1 SRCNN

SRCNN 由 2014 年 Chao Dong 等人提出,是深度学习在图像超分领域的开篇之作。其网络结构如下图所示:
在这里插入图片描述
该网络对于一个低分辨率图像,先使用双三次插值将其放大到目标大小,再通过三层卷积网络做非线性映射,得到的结果作为高分辨率图像输出。

作者对于这三层卷积层的解释:
(1)特征块提取和表示:此操作从低分辨率图像Y中提取重叠特征块,并将每个特征块表示为一个高维向量。这些向量包括一组特征图,其数量等于向量的维数。

(2)非线性映射:该操作将每个高维向量非线性映射到另一个高维向量。每个映射向量在概念上都是高分辨率特征块的表示。这些向量同样包括另一组特征图。

(3)重建:该操作聚合上述高分辨率patch-wise(介于像素级别和图像级别的区域)表示,生成最终的高分辨率图像。

各层结构:

  • 输入:处理后的低分辨率图像
  • 卷积层 1:采用 9×9 的卷积核
  • 卷积层 2:采用 1×1 的卷积核
  • 卷积层 3:采用 5×5 的卷积核
  • 输出:高分辨率图像

模型结构代码:

  1. classSRCNN(nn.Module):def__init__(self, upscale_factor):super(SRCNN, self).__init__()
  2. self.relu = nn.ReLU()
  3. self.conv1 = nn.Conv2d(1,64, kernel_size=5, stride=1, padding=2)
  4. self.conv2 = nn.Conv2d(64,64, kernel_size=3, stride=1, padding=1)
  5. self.conv3 = nn.Conv2d(64,32, kernel_size=3, stride=1, padding=1)
  6. self.conv4 = nn.Conv2d(32, upscale_factor **2,
  7. kernel_size=3, stride=1, padding=1)
  8. self.pixel_shuffle = nn.PixelShuffle(upscale_factor)
  9. self._initialize_weights()def_initialize_weights(self):
  10. init.orthogonal_(self.conv1.weight, init.calculate_gain('relu'))
  11. init.orthogonal_(self.conv2.weight, init.calculate_gain('relu'))
  12. init.orthogonal_(self.conv3.weight, init.calculate_gain('relu'))
  13. init.orthogonal_(self.conv4.weight)defforward(self, x):
  14. x = self.conv1(x)
  15. x = self.relu(x)
  16. x = self.conv2(x)
  17. x = self.relu(x)
  18. x = self.conv3(x)
  19. x = self.relu(x)
  20. x = self.conv4(x)
  21. x = self.pixel_shuffle(x)return x

4.2 FSRCNN

FSRCNN 由 2016 年 Chao Dong 等人提出,与 SRCNN 是相同作者。其网络结构如下图所示:
在这里插入图片描述
FSRCNN在SRCNN基础上做了如下改变:
1.FSRCNN直接采用低分辨的图像作为输入,不同于SRCNN需要先对低分辨率的图像进行双三次插值然后作为输入;
2.FSRCNN在网络的最后采用反卷积层实现上采样;
3.FSRCNN中没有非线性映射,相应地出现了收缩、映射和扩展;
4.FSRCNN选择更小尺寸的滤波器和更深的网络结构。

各层结构:

  • 输入层:FSRCNN不使用bicubic插值来对输入图像做上采样,它直接进入特征提取层
  • 特征提取层:采用1 × d × ( 5 × 5 )的卷积层提取
  • 收缩层:采用d × s × ( 1 × 1 ) 的卷积层去减少通道数,来减少模型复杂度
  • 映射层:采用s × s × ( 3 × 3 ) 卷积层去增加模型非线性度来实现LR → SR 的映射
  • 扩张层:该层和收缩层是对称的,采用s × d × ( 1 × 1 ) 卷积层去增加重建的表现力
  • 反卷积层:s × 1 × ( 9 × 9 )
  • 输出层:输出HR图像

模型结构代码:

  1. classFSRCNN(nn.Module):def__init__(self, scale_factor, num_channels=1, d=56, s=12, m=4):super(FSRCNN, self).__init__()
  2. self.first_part = nn.Sequential(
  3. nn.Conv2d(num_channels, d, kernel_size=5, padding=5//2),
  4. nn.PReLU(d))
  5. self.mid_part =[nn.Conv2d(d, s, kernel_size=1), nn.PReLU(s)]for _ inrange(m):
  6. self.mid_part.extend([nn.Conv2d(s, s, kernel_size=3, padding=3//2), nn.PReLU(s)])
  7. self.mid_part.extend([nn.Conv2d(s, d, kernel_size=1), nn.PReLU(d)])
  8. self.mid_part = nn.Sequential(*self.mid_part)
  9. self.last_part = nn.ConvTranspose2d(d, num_channels, kernel_size=9, stride=scale_factor, padding=9//2,
  10. output_padding=scale_factor-1)
  11. self._initialize_weights()def_initialize_weights(self):for m in self.first_part:ifisinstance(m, nn.Conv2d):
  12. nn.init.normal_(m.weight.data, mean=0.0, std=math.sqrt(2/(m.out_channels*m.weight.data[0][0].numel())))
  13. nn.init.zeros_(m.bias.data)for m in self.mid_part:ifisinstance(m, nn.Conv2d):
  14. nn.init.normal_(m.weight.data, mean=0.0, std=math.sqrt(2/(m.out_channels*m.weight.data[0][0].numel())))
  15. nn.init.zeros_(m.bias.data)
  16. nn.init.normal_(self.last_part.weight.data, mean=0.0, std=0.001)
  17. nn.init.zeros_(self.last_part.bias.data)defforward(self, x):
  18. x = self.first_part(x)
  19. x = self.mid_part(x)
  20. x = self.last_part(x)return x

5.评估指标

本次实验尝试了 PSNR 和 SSIM 两个指标。

5.1 PSNR

PSNR(Peak Signal to Noise Ratio)为峰值信噪比,计算公式如下:
在这里插入图片描述
其中,n为每像素的比特数。
PSNR 的单位是dB,数值越大表示失真越小,一般认为 PSNR 在 38 以上的时候,人眼就无法区分两幅图片了。

相关代码:

  1. defpsnr(loss):return10* log10(1/ loss.item())

5.2 SSIM

SSIM(Structural Similarity)为结构相似性,由三个对比模块组成:亮度、对比度、结构。

在这里插入图片描述

亮度对比函数

图像的平均灰度计算公式:
在这里插入图片描述
亮度对比函数计算公式:
在这里插入图片描述

对比度对比函数

图像的标准差计算公式:
在这里插入图片描述
对比度对比函数计算公式:
在这里插入图片描述

结构对比函数

结构对比函数计算公式:
在这里插入图片描述
综合上述三个部分,得到 SSIM 计算公式:
在这里插入图片描述
其中,

  1. α
  2. \alpha
  3. α,
  4. β
  5. \beta
  6. β,
  7. γ
  8. \gamma
  9. γ > 0,用来调整这三个模块的重要性。

SSIM 函数的值域为[0, 1], 值越大说明图像失真越小,两幅图像越相似。

相关代码:
由于pytorch没有类似tensorflow类似tf.image.ssim这样计算SSIM的接口,因此根据公式进行自定义函数用来计算

  1. """
  2. 计算ssim函数
  3. """# 计算一维的高斯分布向量defgaussian(window_size, sigma):
  4. gauss = torch.Tensor([exp(-(x - window_size//2)**2/float(2*sigma**2))for x inrange(window_size)])return gauss/gauss.sum()# 创建高斯核,通过两个一维高斯分布向量进行矩阵乘法得到# 可以设定channel参数拓展为3通道defcreate_window(window_size, channel=1):
  5. _1D_window = gaussian(window_size,1.5).unsqueeze(1)
  6. _2D_window = _1D_window.mm(
  7. _1D_window.t()).float().unsqueeze(0).unsqueeze(0)
  8. window = _2D_window.expand(
  9. channel,1, window_size, window_size).contiguous()return window
  10. # 计算SSIM# 直接使用SSIM的公式,但是在计算均值时,不是直接求像素平均值,而是采用归一化的高斯核卷积来代替。# 在计算方差和协方差时用到了公式Var(X)=E[X^2]-E[X]^2, cov(X,Y)=E[XY]-E[X]E[Y].defssim(img1, img2, window_size=11, window=None, size_average=True, full=False, val_range=None):# Value range can be different from 255. Other common ranges are 1 (sigmoid) and 2 (tanh).if val_range isNone:if torch.max(img1)>128:
  11. max_val =255else:
  12. max_val =1if torch.min(img1)<-0.5:
  13. min_val =-1else:
  14. min_val =0
  15. L = max_val - min_val
  16. else:
  17. L = val_range
  18. padd =0(_, channel, height, width)= img1.size()if window isNone:
  19. real_size =min(window_size, height, width)
  20. window = create_window(real_size, channel=channel).to(img1.device)
  21. mu1 = F.conv2d(img1, window, padding=padd, groups=channel)
  22. mu2 = F.conv2d(img2, window, padding=padd, groups=channel)
  23. mu1_sq = mu1.pow(2)
  24. mu2_sq = mu2.pow(2)
  25. mu1_mu2 = mu1 * mu2
  26. sigma1_sq = F.conv2d(img1 * img1, window, padding=padd,
  27. groups=channel)- mu1_sq
  28. sigma2_sq = F.conv2d(img2 * img2, window, padding=padd,
  29. groups=channel)- mu2_sq
  30. sigma12 = F.conv2d(img1 * img2, window, padding=padd,
  31. groups=channel)- mu1_mu2
  32. C1 =(0.01* L)**2
  33. C2 =(0.03* L)**2
  34. v1 =2.0* sigma12 + C2
  35. v2 = sigma1_sq + sigma2_sq + C2
  36. cs = torch.mean(v1 / v2)# contrast sensitivity
  37. ssim_map =((2* mu1_mu2 + C1)* v1)/((mu1_sq + mu2_sq + C1)* v2)if size_average:
  38. ret = ssim_map.mean()else:
  39. ret = ssim_map.mean(1).mean(1).mean(1)if full:return ret, cs
  40. return ret
  41. classSSIM(torch.nn.Module):def__init__(self, window_size=11, size_average=True, val_range=None):super(SSIM, self).__init__()
  42. self.window_size = window_size
  43. self.size_average = size_average
  44. self.val_range = val_range
  45. # Assume 1 channel for SSIM
  46. self.channel =1
  47. self.window = create_window(window_size)defforward(self, img1, img2):(_, channel, _, _)= img1.size()if channel == self.channel and self.window.dtype == img1.dtype:
  48. window = self.window
  49. else:
  50. window = create_window(self.window_size, channel).to(
  51. img1.device).type(img1.dtype)
  52. self.window = window
  53. self.channel = channel
  54. return ssim(img1, img2, window=window, window_size=self.window_size, size_average=self.size_average)

6.模型训练/测试

设定 epoch 为 500 次,保存验证集上 PSNR 最高的模型。两个模型在测试集上的表现如下表所示:
在这里插入图片描述
从结果可以发现,FSRCNN 的 PSNR 比 SRCNN 低,但 FSRCNN 的 SSIM 比 SRCNN 高,说明 PSNR 和 SSIM 并不存在完全正相关的关系。

训练/验证代码:

  1. model = FSRCNN(1).to(device)
  2. criterion = nn.MSELoss()
  3. optimizer = optim.Adam(model.parameters(), lr=1e-2)
  4. scheduler = MultiStepLR(optimizer, milestones=[50,75,100], gamma=0.1)
  5. best_psnr =0.0for epoch inrange(nb_epochs):# Train
  6. epoch_loss =0for iteration, batch inenumerate(trainloader):input, target = batch[0].to(device), batch[1].to(device)
  7. optimizer.zero_grad()
  8. out = model(input)
  9. loss = criterion(out, target)
  10. loss.backward()
  11. optimizer.step()
  12. epoch_loss += loss.item()print(f"Epoch {epoch}. Training loss: {epoch_loss /len(trainloader)}")# Val
  13. sum_psnr =0.0
  14. sum_ssim =0.0with torch.no_grad():for batch in valloader:input, target = batch[0].to(device), batch[1].to(device)
  15. out = model(input)
  16. loss = criterion(out, target)
  17. pr = psnr(loss)
  18. sm = ssim(input, out)
  19. sum_psnr += pr
  20. sum_ssim += sm
  21. print(f"Average PSNR: {sum_psnr /len(valloader)} dB.")print(f"Average SSIM: {sum_ssim /len(valloader)} ")
  22. avg_psnr = sum_psnr /len(valloader)if avg_psnr >= best_psnr:
  23. best_psnr = avg_psnr
  24. torch.save(model,r"best_model_FSRCNN.pth")
  25. scheduler.step()

测试代码:

  1. BATCH_SIZE =4
  2. model_path ="best_model_FSRCNN.pth"
  3. testset = DatasetFromFolder(r"./data/images/test", zoom_factor)
  4. testloader = DataLoader(dataset=testset, batch_size=BATCH_SIZE,
  5. shuffle=False, num_workers=NUM_WORKERS)
  6. sum_psnr =0.0
  7. sum_ssim =0.0
  8. model = torch.load(model_path).to(device)
  9. criterion = nn.MSELoss()with torch.no_grad():for batch in testloader:input, target = batch[0].to(device), batch[1].to(device)
  10. out = model(input)
  11. loss = criterion(out, target)
  12. pr = psnr(loss)
  13. sm = ssim(input, out)
  14. sum_psnr += pr
  15. sum_ssim += sm
  16. print(f"Test Average PSNR: {sum_psnr /len(testloader)} dB")print(f"Test Average SSIM: {sum_ssim /len(testloader)} ")

7.实图测试

为了直观感受两个模型的效果,我用自己拍摄的图进行实图测试,效果如下:
s=1(放大倍数=1)
在这里插入图片描述
当放大倍数=1时,SRCNN的超分结果比FSRCNN的超分效果要更好一些,这和两个模型平均 PSNR 的数值相吻合。

s=2(放大倍数=2)

在这里插入图片描述
当放大倍数=2时,SRCNN 的超分结果和 FSRCNN 的超分效果相差不大。

相关代码:

  1. # 参数设置
  2. zoom_factor =1
  3. model ="best_model_SRCNN.pth"
  4. model2 ="best_model_FSRCNN.pth"
  5. image ="tree.png"
  6. cuda ='store_true'
  7. device = torch.device("cuda:0"if torch.cuda.is_available()else"cpu")# 读取图片
  8. img = Image.open(image).convert('YCbCr')
  9. img = img.resize((int(img.size[0]* zoom_factor),int(img.size[1]* zoom_factor)), Image.BICUBIC)
  10. y, cb, cr = img.split()
  11. img_to_tensor = transforms.ToTensor()input= img_to_tensor(y).view(1,-1, y.size[1], y.size[0]).to(device)# 输出图片
  12. model = torch.load(model).to(device)
  13. out = model(input).cpu()
  14. out_img_y = out[0].detach().numpy()
  15. out_img_y *=255.0
  16. out_img_y = out_img_y.clip(0,255)
  17. out_img_y = Image.fromarray(np.uint8(out_img_y[0]), mode='L')
  18. out_img = Image.merge('YCbCr',[out_img_y, cb, cr]).convert('RGB')
  19. model2 = torch.load(model2).to(device)
  20. out2 = model2(input).cpu()
  21. out_img_y2 = out2[0].detach().numpy()
  22. out_img_y2 *=255.0
  23. out_img_y2 = out_img_y2.clip(0,255)
  24. out_img_y2 = Image.fromarray(np.uint8(out_img_y2[0]), mode='L')
  25. out_img2 = Image.merge('YCbCr',[out_img_y2, cb, cr]).convert('RGB')# 绘图显示
  26. fig, ax = plt.subplots(1,3, figsize=(20,20))
  27. ax[0].imshow(img)
  28. ax[0].set_title("原图")
  29. ax[1].imshow(out_img)
  30. ax[1].set_title("SRCNN恢复结果")
  31. ax[2].imshow(out_img2)
  32. ax[2].set_title("FSRCNN恢复结果")
  33. plt.show()
  34. fig.savefig(r"tree2.png")

源码获取

实验报告,完整的源码文件,数据集获取:
https://download.csdn.net/download/qq1198768105/85906814


本文转载自: https://blog.csdn.net/qq1198768105/article/details/125613142
版权归原作者 zstar-_ 所有, 如有侵权,请联系我们删除。

“【深度学习】图像超分实验:SRCNN/FSRCNN”的评论:

还没有评论