- 文献综述(或调研报告):
- 注意力机制的背景和意义
注意力机制被广泛用于不同领域中。以计算机视觉领域为例,以CNN为主的深度学习方法在图像分类,目标检测,图像分割等任务上取得了不错的效果,但是也存在很多局限性,CNN运用了大量的局部稀疏连接,权重共享,池化操作等,这种处理方式虽然可以大大降低模型的复杂度(相较于全连接来说),使得CNN可以实现并胜任一些视觉任务,但是这种模型的设计会带来两个问题,一方面是CNN使用的优化算法(稀疏连接,权重共享,池化)虽然降低了模型的复杂度,但是会丢失很多信息(相较于全连接这种稠密连接而言),CNN是一种缓解模型复杂度和模型表达能力的一种有效手段,是一种平衡了深度学习方法性能和计算能力的有效手段。另一方面是卷积网络针对原始输入或者中间阶段的特征图进行处理的时候是对图像上所有的像素点一视同仁,并没有像人一样有目的性地进行定位、筛选关键的部分进行处理。对神经网络引入注意力机制就可以模仿人类观察客观世界物体的方式,可以定位到输入中最关键的部分进行不同的任务,提高神经网络的性能和效率。人脑处理信息过载的时候就是先处理最紧急的部分,所以在对神经网络引入注意力机制之后可以提高神经网络处理信息的能力。并且不会对网络造成更大的时间和内存开销。
- 注意力机制的发展和分类
注意力机制可以分成显著性(saliency)注意力和聚焦式(focus)注意力。
显著性(saliency)注意力是将Attention引入2D/3D图像研究的早期工作,Karen Simonya(2014) [6]等人在研究图像分类的时候,发现计算CNN网络最后一层FC的类得分梯度与原图进行映射的时候就可以获得一个Saliency Map,这个Saliency Map与待分类的物体的轮廓成正相关,可以用这个来指导其他视觉任务,如分割,检测,定位等等。Zhou(2016)[7]等人在研究图像分类任务的时候发现调整最后分类层的softmax的输入项,可以获得一个Class Activation Map,可以通过Class Activation Map看到待分类物体的位置信息,用这个信息可以做弱监督的目标检测。可以看到显著式注意力是被动的注意力,不需要人为干预指引或者任务指引,而是某种处理信息的手段造成了有这样的显著性特征。如这里的CNN网络,本意是用来图像分类,但在网络结构的深层就会有图像类别的定位信息的显著性图。这种显著性(saliency)注意力是无法训练的,因为是网络结构产生的必然结果。
聚焦式(focus)注意力则是一种主动注意力机制,是有目的的,依赖任务的,有可能有人为干预的主动去注意去聚焦到某一个具体对象的机制。这种注意力机制是可以放在网络结构中训练的,而我本次课程设计的研究重心就是这种聚焦式的注意力机制,以将聚焦式的注意力机制引入CNN中为例,这种机制的本质是人为改变原始输入或者中间的特征图,帮助卷积网络模型对输入向量的每个部分赋予不同的权重,抽取出更加关键的信息,从而可以使得模型能有更为准确的输出。聚焦式注意力机制分为两种,一种是hard-attention[8],例如反复的候选框(Region Proposal)、裁剪(crop)等操作,这样的注意力机制是无法进行微分求导的,是一个动态变化的过程,需要使用强化学习的方法来更新参数。另外一种则是soft-attention,soft-attention是一种可以微分的学习手段,最早是在seq-to-seq中提出。最近在注意力机制中被应用在图像任务上。将soft-attention引入CNN中处理图像的方式主要有在空间域(Spatial domain),通道域(channel domain),混合域(Mixed domain)。在空间域中引入soft-attention,Max Jaderberg(2016)[9]等人提出了Spatial Transformer Networks,可以找到空间中需要被关注的部分,并且这个Transformer具有旋转和缩放的功能,这是CNN网络所不具备的。在通道域中引入soft-attention,Hu(2017)[10]提出了Squeeze and Excitation网络结构,对channel进行特征重标定,可以突出channel中重要的部分,压缩不重要的部分。在混合域中引入soft-attention,Wang(2017)[11]等人提出了Residual Attention Network结构,本质是用了一种soft Mask作为attention map来实现分类任务的soft-attention,其中attention部分采用了对空间域和通道域合并处理的归一化方法。不同于Wang的方式,Fu(2019)[12]等人提出了Dual Attention Network结构,也是一种混合域的处理方式,将空间域和通道域分开进行self-attention的处理并进行融合以获得更好的表达,其中空间上研究任意两个位置之间的空间依赖性,在通道域中研究任意两个channel之间的依赖关系。
- 医学图像上的注意力机制的研究现状
目前,在医学图像上使用注意力机制主要还是沿用上述的方法,主要在3D的医学图像上对空间域,通道域进行聚焦式的软注意力机制的研究。Anne-Marie Rickmann[13]等人在空间域上采用对医学图像三个轴做了独立的平均池化再重新组合,保留原始图像以及内部特征块的三个轴的独立性。Ozan Oktay[14]等人提出的attention-unet结构则是在空间域采用了注意力机制,在Unet原有的解码框架中引入了门控环节,使用深层的特征图作为门控信号,从而指引网络生成attention map用来帮助网络提高分割精度。
综上所述,目前的注意力机制正在蓬勃发展,而在医学图像分割领域上使用注意力机制的研究工作主要集中在空间域和通道域上,对于本课题中所提出的“切片域”上并没有大量研究工作,因此,本课题旨在融合现有的注意力机制方法,设计不同注意力模块,并且着重对切片域上的注意力机制进行深入研究。最后将空间域、通道域、切片域上的注意力模块进行有机整合,探究注意力模块顺序对于图像分割精度的影响。
参考文献:
[1] Yann LeCun, Leacute;on Bottou, Yoshua Bengio, Patrick Haffner.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998.
[2] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks[C]. Advances in neural information processing systems,2012.
[3] Olaf Ronneberger, Philipp Fischer, Thomas Brox. Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-net: Convolutional networks for biomedical image segmentation[C].International Conference on Medical image computing and computer-assisted intervention,2015.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。