经典transformer视觉模型总结网站首页 技术教程

嵌入式视觉 2023-05-13 12:00:02

简介经典transformer视觉模型总结

Vision Transformer 模型

ViT: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。

ViT 在 Transformer 架构的视觉模型的地位类似 ResNet 模型。因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了 Transformer 在 CV 领域应用的里程碑著作。

ViT 算法的整体结构如下图所示。

vit_model_overview

我们知道在 Transformer 结构中，输入是一个二维的矩阵，矩阵的形状可以表示为

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结