论文笔记:第一人称视角视频中的行人轨迹预测

2017-12-07 18:49:01 来源:网络

原标题:论文笔记:第一人称视角视频中的行人轨迹预测

雷锋网AI科技评论按:本文为上海交通大学林天威为雷锋网AI科技评论撰写的独家稿件,得到了其指点和审核,雷锋网在此表示感谢。

视频中的人体动作分析是计算机视觉研究领域中的一个重要方向,包括动作分类,时序动作检测,时空动作检测等等方向。前几天日本东京大学在arXiv上放出的一篇论文(大概是CVPR投稿文章吧)提出了一个新的人体动作分析问题:第一人称视频中的行人轨迹预测问题,并提出了一个新的数据集以及一个新的行人轨迹预测算法。

论文的题目为:Future Person Localization in First-Person Videos [1] (arXiv 1711.11217)。这篇笔记主要对这篇论文进行内容上的提炼和整理,最后附上了自己对这篇论文的讨论。有问题欢迎留言指出~

问题定义

首先,此处所采用的第一人称视频(First-person videos)指可穿戴相机(wearable cameras)所拍摄的视频,比如GoPro,Google Glass等。基于第一人称视频相关的研究主要对应的应用领域包括盲人导航,AR等相关领域。

这篇文章所提出的Future Person Localization问题具体而言,就是已知t时刻及之前几帧图像中行人的相关信息,要求算法预测未来几帧中该行人会出现在图像中的什么位置。问题示意图如下图所示。关于这个任务的技术有很多的用途,比如帮助行人避开迎面走来的行人,或是帮助移动机器人来规划运动的路径。

算法构建

要构建行人轨迹预测算法,首先要确定要用什么信息/特征来进行行人轨迹的建模与学习。对于一小段视频中的行人,本文中主要提出了四种feature序列,如下所示:

1.行人检测框的位置序列(Location);

2.行人检测框的大小序列(Scale),在第一人称视角中,行人框的大小实际上隐含了透视投影的关系,即“近大远小”;

3.行人的骨架序列(Pose),骨架信息主要隐含了行人的动作,姿态,朝向等信息;

4.摄像机本身的运动信息(Ego-motion),由于第一人称视角中相机本身也是在不断运动的,所以相机本身的运动也不得不考虑进算法当中,具体而言,就是相机在每两帧之间的平移和旋转信息。

所以问题可以表示为,已知t时刻及前Tp帧的四种feature序列,要求预测后Tf帧的行人检测框位置序列。本文提出了一个很简单的基于1维卷积的网络,如下图所示:

网络的具体配置如下表所示,基本上就是1D-Conv+BN+ReLU的堆叠。最终的输出即为所需要的未来检测框位置序列。

First-Person Locomotion (FPL) 数据集

针对第一人称视频的行人轨迹预测这个问题,由于没有现成的数据库,所以作者自己采集了一个新的数据库,称作First-person locomotion (FPL) dataset。这个数据集是在东京的街头采集的,下图是数据集中的一些示例图像。

该数据集包含4.5小时的视频,包括大概5000段行人的轨迹。在每段轨迹中,本文采用1s的时间窗口,使用前10帧的信息作为输入特征,后10帧的行人轨迹作为输出标签。此处的定义不是特别明确,可能需要看后续公布的详细数据集信息。

那么数据集的这些标签信息是怎么得到的呢,该数据集并没有采用手工标注的形式,而是使用了几种算法来自动生成标注信息。首先,对于每帧图像,使用今年CMU开源的OpenPose[2]来提取场景中所有行人的骨架信息,根据骨架信息可以获得行人的检测框。其次,使用KCF[3]算法来进行帧间的行人跟踪,产生很多短的跟踪序列,再对这些短跟踪序列按照(1)图像特征相似性(2)位置相近性 这两个规则进行拼接,从而获得较长的跟踪序列。此处的特征相似性使用的是Faster-RCNN所提取的特征的余弦距离。通过上述操作,就可以得到行人相关的三种feature序列:行人位置,行人大小以及行人骨架序列。对于相机自身的运动信息,本文则采用了[5]中的算法来进行进行估计。通过上述操作,最终得到了5000段轨迹样本。

测评方式方面,本文采用了与[6]中相似的方式,使用Final Displacement Error (FDE)作为测评指标。FDE指标即最终预测轨迹和最终实际轨迹之间的L2距离。为了更加精细的评估,该数据集还把行人轨迹分为了1) toward 2) away 3)across三个子集,分别计算了FDE以及3个子集的平均FDE。

实验结果

这篇文章主要与如下几个方法进行了对比:

  • ConstVel: 该方法计算输入轨迹的速度和朝向,直接生成后续的轨迹

  • NNeighbor:在测试时,选取轨迹最像的16个训练集轨迹,通过平均来生成输出轨迹

  • Social LSTM[6]: 行人轨迹预测的一个state-of-the-art方法,不过并非提出于第一人称视角的场景。

实验结果如表所示:

可以看出本文方法比几个baseline还是要好很多的。

此外作者还对输入的几种特征进行了ablation study,结果如下表所示:

可见综合多种信息对于轨迹的预测效果有着显著的提高效果。

本文结果的可视化效果图如下所示。总体来说效果还不错。

个人讨论

以上为这篇文章的基本内容。可以看出,这篇文章主要在行人轨迹预测这个问题中进一步限定了场景(第一人称视角视频)并提出了对应的数据集和算法。虽然这篇文章提出的算法比较简单,但总体还是很有启发性的:

  • 在第一人称视角的场景下,这篇文章的方法基本涵盖了行人轨迹特征预测所能用到的各种信息,其中骨架信息和相机自身信息我认为是相当重要的。

  • 这个问题其实可以进一步拓展为运动相机场景下的行人轨迹预测问题,这样就能够用于智能驾驶等更多的应用场景中了。

  • 本文中的模型构建的非常简单,可能只是想做一个简单的baseline吧,采用LSTM网络或是构建更加复杂的特征融合算法应该能够获得更好的轨迹预测精度。

  • 本文提出的数据集在提取各种信息时,分别采用了kcf,openpose 和 ego-motion estimator 三种算法,其综合速度应该是不太理想的。所以想要将这个算法用到真实的场景下,还有很多算法优化,工程实现的工作要做。也很值得一做。

参考文献

[1] Takuma Yagi, et.al. Future Person Localization in First-Person Videos. In arXiv preprint arXiv: 1711.11217, 2017.

[2] Z. Cao, T. Simon, S.-E.Wei, and Y. Sheikh. Realtime multi- person 2d pose estimation using part affinity fields. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291 – 7299, 2017.

[3] J. F. Henriques, R. Caseiro, P. Martins, and J. Batista. High- speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(3):583–596, 2015.

[4] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with region proposal net- works. In Advances in Neural Information Processing Sys- tems, pages 1–9, 2015.

[5] T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. Unsuper- vised learning of depth and ego-motion from video. In Pro- ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851 – 1860, 2017.

[6] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 961–971, 2016.

,论文笔励志诗歌 记:第一人称视角视频中的行人轨迹预测

相关:

华为nova 2S除了更漂亮,还要在性能上称霸同级原标题:华为nova 2S除了更漂亮,还要在性能上称霸同级 对于线下产品们来说,拍照和自拍往往是它们最最最重视的方面,不过华为nova 2S可不这么想。因为这款主打线下市场的新机在主攻颜值、自拍的同时,居然还将曾经身为旗舰的麒麟960放了进去——这可是颗重磅炸弹。 华为nova 2S采用双面2.5D玻璃机身+金属中框设计,提供曜石黑、银钻灰、樱粉金、浅艾蓝和相思红5种机身配色。机身配备有一块6英..

回忆杀+商务范 金立高端翻盖旗舰W919工信部入网原标题:回忆杀+商务范 金立高端翻盖旗舰W919工信部入网 中关村在线消息:众所周知,金立的W系列手机一贯走的是高端商务路线,采用的都是经典的翻盖式设计,在契合高端商务人士用机需求的同时,还给人满满的回忆。目前,最新款的金立W919已经在工信部入网了,“证件照”也被曝出,我们这就来一起看看吧! 金立W919入网 从“证件照”中可以看到,金立W919依旧采用经典翻盖式设计,配备内外双屏幕,机身背部采用真皮材质,..

廉价版iPhone X或于明年上市 全面屏更大原标题:廉价版iPhone X或于明年上市 全面屏更大 【中关村在线新闻资讯】12月7日消息:iPhoneX全面屏和人脸识别确实有着不小的吸引力,不过面对如此高昂的价格,很多人还是选择放弃。不过现在有消息显示,苹果将会推出廉价版iPhoneX来扩大市场。 日本媒体Nikkei今天爆料称,苹果已经在准备廉价版的iPhoneX,将会在明年上市。据称,廉价版iPhoneX将使用成本低廉的LCD屏,背面也换上普通的金属壳。 但是iPhoneX标志性的全..

第49周天猫ZOL中国科技产品消费指数榜原标题:第49周天猫ZOL中国科技产品消费指数榜 作为中国领先的科技门户,中关村在线已经占据科技媒体用户市场72%份额、广告营收市场60%份额,每天透过电脑和移动终端访问中关村在线的用户已经突破800万,行业地位遥遥领先。同时,中关村在线也在不断寻求跨领域合作,为科技企业合作伙伴拓展更多的跨界用户群体。 作为国内最大的电子消费类产品交易平台,天猫电器城正在走向精准化、区隔化的运行模式,不会将营销规模进一步做..

三星领衔 今年第三季度全球手机销量恢复增长原标题:三星领衔 今年第三季度全球手机销量恢复增长 中关村在线消息:此前国外科技媒体报道,有市场调研机构通过数据分析预测,2018年全球智能手机销量将呈现恢复性增长态势。但从最新公布的今年第三季度全球手机销售数据可以看出,上述预言已经提前实现了。 全球智能手机呈恢复性增长态势 从知名行业分析机构Gartner刚刚公布的数据中可以看到,在刚刚过去的2017年第三季度,全球共出货3.83亿部智能手机,相较于去年同期..

HUAWEI nova 2s发布 长得美拍得更美 售价2699起原标题:HUAWEI nova 2s发布 长得美拍得更美 售价2699起 中关村在线消息:北京时间2017年12月7日下午,华为在北京国家会议中心召开新品发布会,发布新机HUAWEInova2s,HUAWEInova2s采用6英寸全面屏设计及双面玻璃材质,拥有超高颜值,搭载前后双摄像头的设计,针对不同用户与需求,打造不同的相机功能;搭载麒麟960处理器、4/6GB运行内存,共有五种配色可选,售价2699元起,12日12日正式上市。 HUAWEInova2s正式发布 H..

OPPO R11s夜拍人像惊艳 大获媒体称赞原标题:OPPO R11s夜拍人像惊艳 大获媒体称赞 新近发布的OPPOR11s凭借时尚轻薄的外观设计、强大的拍照实力及出色的整机性能再次成为爆款机型,发售不到10天即成为11月第三周中国畅销手机TOP1。京东、天猫、苏宁易购的用户口碑也均接近满分。 针对其备受好评的拍照性能,国内多家媒体进行了专项深度测评,并给予了OPPOR11s夜景人像拍摄非常高度的评价:“无论在(夜间)多么复杂的灯光下,(OPPOR11s)都可以保证较高的出片..

特朗普税改冲击:美企海外大撤资 各国招商成本上升原标题:特朗普税改冲击波:美企海外大撤资,各国招商成本大幅上升北京时间12月2日,美国参议院以51票赞成对49票反对,通过了共和党主导的大幅度改革税法、涉及1.5万亿美元的法案。这一由特朗普总统提出的税改法案,还必须和早些时候众议院通过的法案调整为一致,而且调整过的法案还必须分别在参众两院通过才能送交总统签署。美国共和党和特朗普总统取得的这一“成就”存在一个“关键一票”,这就是弗雷克参议员的一票。他在最后..

陕西记者医院采访被打 最新进展:院长等12人被刑拘原标题:陕西一记者医院采访遭殴打进展:医院院长等12人已被刑拘?今天下午,陕西省西安市周至县公安局对外发布“12.4”记者被殴打案件最新通报。随着“12.4”专案调查取证工作继续不断深入,周至县人民医院院长李某某、原副院长刘某某及医院保安李某、张某某等4人涉嫌非法拘禁于今日被依法刑事拘留;同时,根据最新调查取证,12月5日行政拘留的6人中的王某某、宋某某、辛某某、安某某和姬某某等5名人员,因涉嫌非法拘禁已依法予..

莎普爱思曾多次向浙江平湖官员行贿 多名官员已领刑莎普爱思公司资料图原标题:莎普爱思曾多次向浙江平湖科技局官员行贿,多名官员已领刑浙江莎普爱思药业股份有限公司(下称莎普爱思)陷入疗效和宣传的质疑漩涡,国家和浙江省两级食药监责令公司尽快启动临床有效性试验和开展广告自查。澎湃新闻(www.thepaper.cn)记者检索中国裁判文书网发现,多起贪腐案件中闪现莎普爱思身影。该公司工作人员多次向所在地科技局官员行贿,这些官员多涉及技术领域,收受好处。工商登记信息显示..