1. 概述
VitPose是最近出来的一篇用Transformer结构做人体2D关键点估计的论文,采用比较简单的Transformer结构就能在MS COCO 测试集上取得比较好的结果,挺吸引人的。论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。
论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
论文地址:https://arxiv.org/abs/2204.12484
代码地址:https://github.com/ViTAE-Transformer/ViTPose
注:本文中框图和表格均来自原论文。

