数据结构论坛

注册

 

发新话题 回复该主题

VisualTransformer一种新 [复制链接]

1#

看完本篇文章你将了解:

当前卷积神经网络的优缺点VisualTransformers如何通过学习CNN的工作原理来解决它的弱点VisualTransformers不同的变体

01当前卷积神经网络的优缺点

优点:

CNN具有翻译不变性和局部感受野受限等归纳偏差。位移不变性识别对象,即使其外观发生变化,如改变方向或放大或缩小

缺点:

专为图像设计它有一个特定领域的设计,并且不可扩展为领域无关的。CNN使用像素阵列,其中每个像素代表不同的重要性,并且是特定域的。CNN缺乏对图像的全局理解。它只寻找图像特征的存在,不了解特征之间的结构依赖性。计算能耗大:每个像素对目标任务的重要性不同,这会导致计算和表示的冗余。

02VisualTransformer

Transformer在NLP领域取得了巨大的成功,现在开始应用于图像领域。CNN使用像素阵列,而visualtransformer(ViT)将图像划分为可视标记。

ViT把一张图片分成固定大小的patch,线性嵌入它们,并将位置嵌入作为Transformer编码器的输入。

ViT在阵列和计算效率上超越了先进的CNN。

当ViT在足够的数据上训练时,它的计算资源需求要比最先进的CNN少四倍左右。

ViT和SOTA-CNN在不同数据集上的精度性能。资料来源:谷歌研究院的研究员NeilHoulsby和DirkWeissenborn,用于图像尺度识别的Transformers

ViT中的自我注意层允许全局的整合信息。ViT学习对patch的相对位置进行编码,从训练中重建数据结构。

03VisualTransformer的工作原理

图片来源:ANIMAGEISWORTH16X16WORDSRANSFORMERSFORIMAGERECOGNITIONATSCALE

图像首先被分割成固定尺寸的patch

大小为H*W的2D图像被分割成N个patch,其中N=H*W/P

如果图像的大小为48x48,并且patch大小为16x16,则图像将有9个patch。

自注意力的代价是二次的。如果我们把图像的每个像素作为输入,那么自注意力就需要每个像素

分享 转发
TOP
发新话题 回复该主题