人体姿态估计:卷积姿态学习机CPM
导读:人体姿态估计中常用的模式,就是用堆叠的漏斗模型去实现精密的关键点预测,并将上一阶段的预测结果用于当前阶段的先验知识,并以强制中间层监督的方式来解决梯度消失的问题。这一系列经典的操作,根源与这篇文章,即卷积姿态学习机,CPM。
【资料图】
目录
摘要介绍方法总结
摘要
Pose机为学习丰富的隐式空间模型提供了一个序列预测模型。这篇文章展示了一个姿态估计的系统设计,如何将卷积网络整合到pose机中以学习图像特征和图像相关的空间模型。文章的贡献在于,在结构化的预测任务中如关节姿态估计,隐式建模变量之间的长距离依赖关系。我们通过设计一个由卷积网络组成的顺序架构来实现,该网络直接在上一阶段的信念图上运行,对身体部位的位置产生了不断精细地估计,而不需要显式的图形模型式的推导。我们的方法通过提供一个强制中间监督的自然学习目标函数来解决训练过程中的梯度消失的典型问题,因此补充反向传播的梯度和调节学习过程。我们在标准的数据集如MPII,LSP和FLIC数据集上验证了领先的性能。
介绍
我们介绍了卷积姿态机用于关节点姿态识别。CPM继承了pose机架构的优点,即图像和多局部线索之间长距离依赖的隐式建模,学习与推荐的紧密集成,模块化的循序设计,以及将他们与卷积网络提供的优点结合起来:从数据中学习用于图像和空间上下文的特征表征的能力;一个可微的架构,允许反向传播用于全局联合训练;以及有效处理大数据集的能力。
CPM包含了一个序列的卷积网络,它重复产生每一个局部位置的2D信念图。在CPM的每一个阶段,由上一阶段产生的图像特征与信念图,作为当前阶段的输入。信念图为后续阶段的每个部位的空间不确定性提供了一个表达性的非参数编码,允许CPM去学习丰富的图像相关的部位之间关系的空间建模。取代使用图形建模或者专门的后续处理显式地解析信念图,我们学习卷积网络能够之间在中间层的信念图上操作,并学习隐式的部位之间关系的空间模型。整体提出的多阶段架构是完全可微的,因此能够使用反向传播以端到端的方式来训练。 A Convolutional Pose Machine consists of a sequence of predictors trained to make dense predictions at each image location. Here we show the increasingly refined estimates for the location of the right elbow in each stage of the sequence. (a) Predicting from local evidence often causes confusion. (b) Multi-part context helps resolve ambiguity. © Additional iterations help converge to a certain solution.一个CPM包含有序列组成的预测器,被训练成用于每个图像位置的密集预测。这里展示序列中每个阶段右手腕位置不断精细的预测。(a)从局部特征预测经常引起混淆;(b)多部位上下文有助于解决歧义;(c)额外的训练有助于收敛到一个确定的位置。
在CPM的某一特定阶段,部位信念的空间上下文为后续阶段提供了强有力的线索。因此,CPM的每一个阶段产生了针对每个部位位置的不断精细化估计的信念图,上图所示。为了获取部位之间长距离的交互,我们的序列预测网络的每一个阶段,网络的设计都出于在图像和信念图上实现更大感受野的目标。我们发现,通过实验,信念图上的更大感受野对于长距离的空间建模至关重要,并且有助于提升精度。
CPM的多卷积网络组成导致了一个具有多层网络的整体结构,在训练过程中会存在梯度弥散的风险。这个问题出现主要由于反向的梯度在多层网络中传播会降低强度。虽然最近的工作展示了中间层监督深度网络有助于学习,他们大多数局限于分类问题。在这篇文章中,展示了对于结构化的预测问题如姿态估计,CPM如何自然地提出一个系统框架,它通过网络定期地执行中间层监督来补充梯度和引导网络生成越来越精确的信念图。我们同样讨论了诸如此类序列预测问题的不同训练方法。
论文的主要贡献在于:通过一个序列的卷积架构来学习隐式的空间模型;一个系统的方法去设计和训练如此的架构去学习图像特征和图像相关的空间模型用于结构化的预测任务,同时不需要任何的图形模型类的推测。我们在标准的数据集合如MPII,LSP和FLIC等取得了领先的结果。
方法
Architecture and receptive fields of CPMs. We show a convolutional architecture and receptive fields across layers for a CPM with any T stages. The pose machine [29] is shown in insets (a) and (b), and the corresponding convolutional networks are shown in insets © and (d). Insets (a) and © show the architecture that operates only on image evidence in the first stage. Insets (b) and (d) shows the architecture for subsequent stages, which operate both on image evidence as well as belief maps from preceding stages. The architectures in (b) and (d) are repeated for all subsequent stages (2 to T ). The network is locally supervised after each stage using an intermediate loss layer that prevents vanishing gradients during training. Below in inset (e) we show the effective receptive field on an image (centered at left knee) of the architecture, where the large receptive field enables the model to capture long-range spatial dependencies such as those between head and knees. (Best viewed in color.)CPM的架构和视觉感受野。我们显示了一个卷积架构和在任一阶段中CPM的视觉感受野。pose机如插图(a)和(b)所示,响应的卷积网络显示在插图© 和(d)中。插图(a)和(c)显示第一阶段仅在图像证据上的卷积操作。插图(b)和(d)显示了后续阶段的架构,它在图像和上一阶段的信念图上操作。网络在每个阶段之后都使用中间损失层进行本地监督,以防止训练期间的梯度消失。插图(e)展示了架构中一幅图像(以左膝盖为中心)的有效视觉感受野,其中大视觉感受野使得模型能够在长距离的空间依赖性上建模,例如头与膝盖等。
总结
提示:
卷积姿态机器提供了端到端的架构用于解决在计算机视觉中结构化的预测问题,而不需要图形模型分割的推理。文章展示了一个序列架构由卷积网络组成,能够隐式地学习用于姿态的空间模型,通过在阶段中传达不断精确的信念图。计算机视觉的多个领域中,如语义标签,单图像深度估计和目标检测等,出现变量之间空间依赖性,将涉及把我们的工作扩展到这些问题中。但该模型对于密集的人群会出现失败的例子,以端到端的模型来处理多人场景是一个有挑战的问题,也是未来工作的有趣途径。
标签:
相关推荐:
最新新闻:
- 数据库设计中的关系模型——数据模型|环球最新
- 无纸化办公系统是什么?无纸化办公系统详解:当前滚动
- 世界观点:csv文件用什么打开?什么是CSV文件?
- 全球观热点:笔记本链接不上wifi怎么办?解决办法如下
- CronTrigger时间格式配置说明 常用示例介绍|世界快看点
- 天天快报!PCL出现“无法找到 pcl_commond.dll 文件程序无法执行”怎么解决?解决步骤
- 在Android系统中为什么需要广播机制? 最资讯
- 免费且超级好用的搜索引擎INSO上线 界面UI是采用FlatUI设计 视焦点讯
- 企业业绩考核有哪些规定?企业绩效考核管理制度|环球今热点
- 图片网站有哪些推荐?10个免费商用的图片网站分享|最新
- 人体姿态估计:卷积姿态学习机CPM
- 【世界快播报】以Windows身份验证登陆时报错18456怎么办?解决办法
- 工况密度和标况密度怎么换算?通常工况参数有哪些?:实时
- 世界报道:SMT生产线的组成及分类 你了解多少?
- 学原画需要做哪些技能?零基础原画学习攻略
- barnyard2 mysql_安装配置Snort和barnyard2
- T-MAC协议是什么?T-MAC协议详情介绍-今日聚焦
- 移动基站是什么?认识移动基站通信设备
- 世界热门:Exadata的防火墙端口是什么?详情介绍
- 如何快速学会一门编程语言?5种编程入门方法分享|世界消息
- 甄子丹《天龙八部之乔峰传》韩版海报 韩国定档1.25_报道
- 法拉第未来宣布重返CES 2023 FF91 Futurist将交付-天天简讯
- 《天龙八部之乔峰传》韩版海报 乔峰手持打狗棒
- 万代ROBOT魂系列手办推新品 《高达SEED》四足战斗名机
- 观点:《猎天使魔女:起源》通过ESRB评级 青少年级别
- 中国人2022年每天用手机时长创新高 达到近5小时 看点
- 廉价版特斯拉或明年推出:售价仅2.5万美元
- 《福星小子》新篇动画新预告 第二阶段1月5日开播_环球通讯
- 三亚18万天价酒店一房难求 迎来久违的火爆行情:环球热消息
- 《堡垒之夜》或2023年重返iOS平台 Epic老总发文暗示
- 曝任天堂将转战新掌机!《王国之泪》是最后一款NS大型第一方 当前滚动
- 【天天新视野】《逃离塔科夫》开发工作室Twitch帐户被封 官方暂未回应
- 众望所归!《艾尔登法环》获奖数即将超越《最后生还者2》_世界报道
- 天天观点:今晚发布 RTX4070 Ti定价确认:性价比4080高多了
- 桥本环奈参演《电影涅墨西斯:黄金螺旋之谜》 新剧照曝出-焦点报道
- 抖音推出桌面端聊天软件 提供Windows和Mac客户端 当前短讯
- 打印机彩打怎么设置?设置彩色打印教程
- dwf文件如何打开?打开dwf文件具体操作方法
- 电脑错误代码0xc0000005怎么回事?电脑错误代码0xc0000005解决方法
- pci和pcie的区别是什么?插槽区别规格详解
- 运行电容坏了有什么故障?电容器常见故障的维修方法
- Win11麦克风失灵用不了怎么回事?Win11麦克风失灵用不了解决方法
- 显卡交火是什么?独显核显能交火吗?
- 如何将ntfs转换为fat32?ntfs转fat32的方法
- 电脑外接键盘没反应如何解决?外接键盘突然没反应怎么办?
- 台式机开机显示器没反应怎么办?台式电脑开机后屏幕无显示处理方法
- 手动设置ip地址怎么填?IP地址进行设置步骤
- win7打印处理器不存在怎么办?打印处理器不存在怎么解决win7?
- 高端显卡有哪些型号?显卡范围对比及显卡评测
- 兄弟标签机使用教程 使用标签打印机注意事项
- 全美遭遇大雪袭击 “鹰眼”杰瑞米·雷纳扫雪身负重伤入院_全球快资讯
- 《异星工厂》销量突破350万 计划为Switch添加键盘鼠标支持
- 《我与机器子》TV动画MV宣传片 主题插曲LOL解禁|视讯
- 涨价!3月1日起iPhone14前机型电池保费将增169元-全球通讯
- 《战神5》英国销量超《西之绝境》 为去年新作第四名
- 《莱莎的炼金工房3》开发者访谈 邻家少女初长成:世界热讯
- 全球即时看!英国新一周实体游戏销量榜 《战神 诸神黄昏》重新登顶
- 鬼灭进击咒术新篇启动 日本动画2023年迎来第二黄金期
- 传闻:《塞尔达传说:王国之泪》将是任天堂Switch最后一款大型第一方游戏-焦点关注
- 《阿凡达2》票房突破14亿美元 达到回本线了!
- 疫后修复,各地进展如何?
- 元旦消费数据:出行半径扩大,酒店量价齐增,餐饮业态越轻复苏越快 天天速递
- 鼠标灵敏度怎么调?更改鼠标灵敏度方法
- 电脑连不上网怎么回事?电脑连不上网是什么原因?
- 电容规格型号大全 详细解读十七种常见电容
- 网线的接线顺序是什么?网线线序图解图文教程
- 电脑显示器闪屏抖动怎么回事?电脑出现闪屏解决方法
- 要换电池的要抓紧了!曝苹果从3月开始提高过保iPhone等电池更换价格|全球看点
- fn键在哪里有什么用?电脑的Fn键主要用途
- 联想键盘fn键怎么关闭?联想笔记本fn键开启和关闭教程
- 怎么清理电脑内存空间不足?快速清理电脑文件方法
- 华文彩云字体怎么设置?华文彩云是艺术字吗
- cydia闪退进不去怎么办?cydia闪退解决修复方法
- 4K分辨率有多少像素?4K和超高清一样吗?
- DNS是什么意思?DNS怎么设置?