您现在的位置是:首页 >技术教程 >经典transformer视觉模型总结网站首页技术教程

经典transformer视觉模型总结

嵌入式视觉 2023-05-13 12:00:02
简介经典transformer视觉模型总结

Vision Transformer 模型

ViT: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。

ViT 在 Transformer 架构的视觉模型的地位类似 ResNet 模型。因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了 Transformer 在 CV 领域应用的里程碑著作。

ViT 结构

ViT 算法的整体结构如下图所示。

vit_model_overview

我们知道在 Transformer 结构中,输入是一个二维的矩阵,矩阵的形状可以表示为 ( N , D ) (N,D)

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。