基于深度学习的图像分割方法文献综述

 2023-08-15 06:08
  1. 文献综述(或调研报告):

由于黄褐斑是一种色素性皮肤病,我们的工作与皮肤镜图像和临床图像上的色素性皮肤病的图像分割密切相关。在这里首先简要介绍一些传统的分割方法在这方面的应用,然后介绍相关的卷积神经网络的内容。

  1. 传统分割方法

色素性皮肤病图像分割传统的主流方法有:基于阈值的分割方法,基于边缘的分割方法,基于区域的方法。

在实际应用中,阈值分割算法被广泛使用,它有着很明显的特点,就是实现简单、性能稳定、计算量小。阈值分割的方法又可以分为全局阈值分割和自适应阈值分割。文献[1]总结了全局阈值分割算法的步骤。自适应阈值分割就是阈值的选取不再是通过人为设定,而是分割过程中通过计算得到,常见的阈值选取方法有:最大类间方差法(OTSU)、最佳熵法、矩不变法、模糊聚类法、极小误差法和共现矩阵法等。文献[2,13,14]中对图像的分割方法采用了直方图阈值分割,文献[3-4,15]中采用了自适应阈值分割算法对图像进行分割。在实际应用中,OTSU 阈值分割算法的采用率较高,因为它的计算量相对于其他算法较少,而且该算法对灰度和对比度并不敏感。

图像的边缘信息在人的视觉表现上比较明显,所以人对图像的边缘是非常敏感的,很容易被感知到。边缘容易被感知到的原因就在于,图像灰度级或者其他属性上存在突变,而这些突变的地方就是边缘。它表明一个区域的结束,同时也表明另一个区域的开始,这种不连续的间断性就是边缘。在图像分割领域,基于边缘的分割算法不断被提出。通常情况下,图像的这种不连续性大多通过求导来检测,但需要注意的是,图像是使用二维空间数据来表示的,而实际物体是三维结构,在转变过程中会存在信息遗漏的现象。此外,一些外在的因素,如光照不均、噪声等,都会对边缘的检测造成影响。因此,基于边缘的分割方法具有一定的局限性,在分 割带有噪声且较为复杂的图像时很难达到全分割的要求[12]。

边缘检测算子主要有以下四种(1)Roberts 算子,(2)Prewitt 算子,(3)Sobel 算子,(4)Canny 算子,(5)拉普拉斯高斯(Laplacian of Gaussian, LOG)算子。一个强大的边缘检测器是基于边缘的方法的核心,例如Canny算子,已经应用于皮肤病变图像[10, 11]。虽然探测器可以识别病变边缘,但生成的边缘是不连续的。此外,该方法对噪声敏感,产生的边缘很有可能不是皮损区域的一部分。

在基于区域的分割理论中,区域生长和区域分裂合并是较为常用的方法,下面简要介绍这两种方法:

  1. 区域生长分割方法。在图像分割领域,区域生长分割算法的思想一直都被作为研究热点。区域生长的主要原理是基于某种“一致性”的原则,按照这个原则将图像的像素点划分到相应区域来实现分割,最终达到该区域的最大化。起初,这些初始区域可能是很小的区域,甚至是单个像素,将相邻的具有相似性质(如灰度级、彩色、纹理、梯度等特性)的像素或区域归并到当前的区域中,进而实现目标区域的逐渐生长,直到目标区域没有符合“一致性”的像素点被归并为止。由上可知,区域生长的分割过程是一个迭代求解最优化的过程,因此,其计算过程的开销相对较大。
  2. 区域分裂合并分割方法。分裂合并相对于区域生长是相反的,其计算过程是区域生长的逆过程。区域分裂合并不需要先选定种子点,首先需要根据图像的特性制定一个准则 T,即表示像素点间的相似性度量。使用四叉树结构来表示原始图像。如果对于区域 R,T(R)=false,则将该区域 R 划分为四个子区域。若四个子区域中任意Ri有,T(Ri)=false,则将该子区域再划分为四个子区域;同时相邻的子区域进行“一致性”准则判断,如果相邻子区域满足准则为 True,则合并相邻子区域。根据这个原理进行计算,直到所有区域不再满足相似准则 T。

文章[12]通过实验对比以上两种基于区域的分割算法发现,在分割皮肤病图像时都不能获得理想的分割结果,使用区域生长和分裂合并分割后,图像都存在信息丢失严 重的现象。所以这两种分割方法都不能实现皮肤病图像的有效全分割。

  1. 基于深度学习的分割方法

在计算机视觉领域,全卷积网络(FCN)是比较有名的图像分割网络,医学图像处理方向,U-Net可以说是一个更加炙手可热的网络[7]。U-Net和FCN[9]非常的相似,U-Net比FCN稍晚提出来,但都发表在2015年,和FCN相比,U-Net的第一个特点是完全对称,也就是左边和右边是很类似的,而FCN的decoder相对简单,只用了一个deconvolution的操作,之后并没有跟上卷积结构。第二个区别就是skip connection,FCN用的是加操作(summation),U-Net用的是叠操作(concatenation)。这些都是细节,重点是它们的结构用了一个比较经典的思路,也就是编码和解码(encoder-decoder)。

另一篇[8]U-net 结构对U-net结构进行了优化,相比U-net结构提取了更多浅层次的信息,还进行了不同层次的剪枝操作。得益于对不同层次的特征的把握,U-net 在性能上比U-net提升很多。对于深度卷积网络,浅层主要学习低级的信息,随着网络越深,学习到更高级的特征映射。为了保持表达能力,我们通常需要增加特征图的数量(通道数),从而可以得到更深的网络。对于图像分类来说,由于我们只关注图像“是什么”(而不是位置在哪),因而我们可以通过阶段性对特征图降采样或者带步长的卷积(例如,压缩空间分辨率)。然而对于图像分割,我们希望我们的模型产生全分辨率语义预测。

参考文献

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。