用Hinton的胶囊神经网络来识别空间关系 Part1: CNNs及其缺点

2018-03-28 16:52:54 来源:网络

原标题:用Hinton的胶囊神经网络来识别空间关系 Part1: CNNs及其缺点

雷锋网按:本文为雷锋字幕组编译的技术博客,原标题Capsule Neural Networks: The Next Neural Networks? Part 1: CNNs and their problems.,作者为Tomer Eldor。

翻译 | 陈晓璇 刘宁 魏洪贵 整理 | 凡江

“普通的”卷积神经网络是当前机器学习领域最热的一个概念, 但是它也有一些问题,例如不能识别空间关系,比如说图片或其他数据里不同部分之间的相对位置关系。Hinton最近提出的胶囊神经网络也许能帮助我们解决包括这一问题和其他问题。

这篇文章是胶囊神经网络系列教程的一部分。作为第一篇文章,将介绍常规(卷积)神经网络以及它的一些问题。

神经网络可能是当下机器学习领域最热的部分。 近几年,神经网络得到众多开发者不断的改善,也更方便使用。但是,这些改进通常都是一些简单的修改, 例如增加一些层,或者简单的改进激活函数,但是并没有引进全新的架构或思路。Geoffery Hinton 是包括神经网络在内的很多广泛使用的深度学习算法的创始人之一,考虑到他有着神经科学和人工智能的双重背景,取得这些成就也就不会太让人意外。

2017年10月底, Geoffrey Hinton, Sara Sabour, 和 Nicholas Frosst 在Google Brain发表了题为“Dynamic Routing Between Capsules(胶囊间的动态路由)”的论文,给神经网络领域带来了一些新的东西。这很令人兴奋,因为这样大的创新已经很久没人做到了,围绕它很可能有更多的研究点被激发出来。

基点:卷积神经网络

卷积神经网络 (CNNs) 是一种很灵活的机器学习模型,它的设计灵感来源于人脑的处理问题的方式。

神经网络通过整合多层“神经元”来将原始数据处理成特定的模式或对象。

卷积神经网络的一个主要构建块是“卷积层”(名字的由来)。它有什么作用? 它将前一层的原始数据作为输入,找到其中蕴含的模式信息,传到下一层来更好地理解更大的图片。

如果你刚接触神经网络,想要理解它,我建议你:

1. 看看 3Blue1Brown 的视频,很生动形象。

2. 有关文字和视频方面更细节的教程,可以查看beginner’s blogpost

3. 如果你有能力处理更细节的数学问题,你可以看看斯坦福CS231的课程。

如果你以上几点都没有做到,可以通过读下面的简介后再继续。

CNNs的灵感来源

我们从头说起。 神经网络将原始数据作为输入。假设有一只手绘的小狗,你第一眼看到它时,大脑会自动将它识别为一只狗。但是对计算机来说,这张图片仅仅是一个关于有很多数字的数组。数组中的数值代表不同颜色通道的像素强度。如果是只有黑白的图片,我们只需要用一个表示像素灰度值的数组来表示图片即可。

用于网络识别的示例。来源: The Sun, image: lovable dog rescue

我们的目标是什么? 是让网络在视觉层面搞清图片里有什么(这个数字序列代表着什么)。一种方式是自下而上的方式: 让网络从聚焦一小部分像素开始,理解它们代表什么(例如一些线段和曲线:像这张图片中狗的耳朵的曲线,瞳孔的圆弧), 然后将这些线组合起来,来描述更大的对象(例如耳朵,鼻子,嘴,眼睛),同样的去学习这些部分组成的更大的对象 (例如,脸,腿,尾巴),最终使网络对狗做出整体的理解。

网络是通过层之间数据的从头到尾的传递实现这一功能的。

如果你不了解这个过程,可以看看我的关于CNNs结构的总结: 理解卷积神经网络

万一你没读过,而且不了解这些,下面是从我那些总结里提炼出来更简短的总结。

关于卷积神经网络的理解

  1. 卷积层;第一层卷积层将图片映射到较低纬度的空间—?归纳出一组像素点(例如5×5的像素块)的信息—它是垂直的还是水平的线?是什么形状的曲线? 这个过程首先是对应元素相乘,然后将这些乘积相加为一个数,即得到filter输出。

  2. 这就引出了神经元或者说卷积核的概念。每个卷积核都会对特定的模式(竖直线?水平线?等等)做出反应。 从第一层的像素传到神经元时,会激活和它的结构相匹配的神经元,依据就是这个像素块和卷积核的相似程度。

  3. 激活函数(通常用 “ReLU”)层—?每个卷积层后,都要添加一个非线性层 (又叫激活函数层), 从而给系统引入非线性,使得系统能学习到数据间的非线性关系。ReLU 是一个很简单的激活函数:它把负输入置零0,正输入保持原值。

  4. 池化层;这层被用来减少冗余信息, 总结我们关于一个区域已知的信息,并进一步精炼这些信息。例如,“MaxPooling”方法就是选取一组数的最大值?—?—例如,电脑会认为 “在这个5×5的像素块中, 影响最大的是255这个像素点. ”尽管不能确定这个值是哪个像素点,但是确切位置并没有那么重要,知道它大概位置就好了。 ( 注意:这个方法并不好。会造成信息的丢失。胶囊网络就没采用这个操作,这是一个重要的进步。)

  5. Dropout 层;这一层通过随机的将一些激活了的神经元置零来实现“dropout”。这么做会使网络更加健壮(有点类似于你吃了不干净的东西,却帮助强化了你的免疫系统 这么做之后网络对一些小的改变也能免疫了) 还会减小过拟合。 只有训练时会使用Dropout。

  6. 最后的全连接层;对于分类问题,我们希望最后一层不同的神经元代表不同类别。这一层关注前一层的输出,(即高阶特征的激活图)并确定出哪些特征与某个类相关。

  7. SoftMax?层;有时加上这一层来表示每一类的输出,并把这个输出传递给损失函数。 Softmax 代表了不同类输出的概率分布。

通常,有更多的提供非线性和保留维度(就像在边缘周围填充0)的网络层,它们能够帮助改善神经网络的鲁棒性以及防止过度拟合。但是接下来有一些基本概念你需要理解。

现在,重要的一点是,这些层只能是有序列的联结在一起。这和胶囊神经网络的结构相反。

神经网络结构,来自谷歌的文章,是Szegedy,Toshev&Erhan提出的神经网络

卷积神经网络有什么问题?

如果您对此感兴趣,请观看Hinton的课,里面讲解的就是这个问题。下面是胶囊神经网络能够改善这些问题的几个要点:

Hinton说,胶囊神经网络拥有很少层级的分支结构(网络由以神经元组成的层组成,就是这样),并且这使我们需要将每一层的神经元分组到“胶囊”里面,这种“胶囊”就像小模块,在小模块里面会进行大量的计算,然后输出一个汇总结果。

问题一:“池化”使信息丢失

CNN运用“池化”或与之等效的方法来“总结”小区域中发生的情况,并理解图像中越来越大的块。这是一个让CNN网络运作良好的解决方案之一,但与此同时它会丢失宝贵的信息。

胶囊神经网络会计算一个小特征和大特征的姿态关系(跨越边界和旋转)。

这些信息的丢失会造成空间信息的丢失。

问题2:CNN没有考虑图像的每一部分之间的空间关系。也就是说,它们也对于物体的方向过于敏感了

二次抽样(和池化)使图片失去了精确的空间关系,例如鼻子和嘴巴。身份特性的识别需要精确的空间关系。——Hinton,2012,在演讲中

CNN不会考虑底层对象之间的空间关系。通过这些平层中的神经元将它们看到的物体照亮,它们识别到了那个物体呈现出的形态。但是它们会传递到其他激活和合并图层,并传递到下一层神经元(过滤器),而不会意识到我们在该单层中识别的这些对象之间的关系。

他们只是说明他们的存在。

所以一个(简单的)神经网络能够将巴勃罗和毕加索归类为小狗,“小狗 - 斗牛梗混合”也能同样的被很好的识别。

普通的(卷积)神经网络能够将这两只可爱的狗视为同类型的狗脸,因为它并不介关心组成狗脸的元素在空间中相对于彼此的位置。毕加索(左边的狗)将幸运的不会被模型分错,但我们真的想要有一个模型可以认识到,这不是一个常见的柯基犬 - 斗牛犬混合狗的例子。图片来源:爱犬救援

神经网络会将这两只小狗是被为典型“小狗 - 斗牛梗混合”,因为他们的图像特征都符合面部卷积层的情况,例如:

if: (2 eyes & pitbullmix_snout
+ pitbullmix_wet_nose & mouth)
then: pitbullmix_face

不正确地激活pitbullmix_face的神经元,而不是像下面这样的东西:

if: 2 eyes
& BELOW: pitbullmix_snout
& pitbullmix_wet_nose
& BELOW: mouth
then: pitbullmix_face

相反地,胶囊神经网络反映方向信息和内容,并连接神经元与胶囊以推断空间关系并保留姿势信息。

缺少将胶囊分组的呈现、姿态计算和胶囊之间的重叠检查,会导致下一个问题。

问题3:CNN不能将对几何关系的理解传递到新的视点上

为了正确给图像分类,这使他们对原始图像更加敏感。

CNN擅长解决那些与他们训练的模型相似的问题,它可以把图像或者目标物体分类的非常好。

但当物件有一些旋转角度时,尤其是3D的情况,CNN则识别不出来。

一种解决方案是人为地创建倾斜展示的图像或图像组,并将它们添加到“训练”集中。 但是,这样仍然缺乏一个更为稳健的结构。

对不变视点的空间关系姿态进行编码

所以,我们应该怎样编码3D物体之间的空间关系呢?

Hinton从一个已经被解决的问题领域——3D 计算机图形学中取得灵感。

在3D图形中,姿态矩阵是表示对象之间关系的特殊技术。 姿势本质上是代表平移加旋转的矩阵。 现在我们得到了它。 我们可以使用子对象之间的姿态关系保留空间关系信息; 测量物体之间的相对旋转和平移作为4D姿态矩阵。

这对于理解胶囊之间的动态路径选择很重要。

现在我们知道了神经网络的基础以及空间识别的问题,我们可以继续了解最近发展出的解决方式:胶囊神经网络。这将是我们下一篇的主题。请继续收看!

博客原址 https://towardsdatascience.com/capsule-neural-networks-are-here-to-finally-recognize-spatial-relationships-693b7c99b12


更多文章,关注雷锋网 雷锋网雷锋网

添加雷锋字幕组微信号(leiphonefansub)为好友

备注「我要加入」,To be an AI Volunteer !

,用Hinton的胶囊神经网络来识别空间关武士僵尸 系 Part1: CNNs及其缺点

相关:

专访蒂姆·库克:苹果如何让新iPad和教育挂钩原标题:专访蒂姆·库克:苹果如何让新iPad和教育挂钩 【PConline资讯】苹果公司的这场春季发布会“全都没按套路来”,举办地在远离硅谷的芝加哥;会场是一所高中,发布会在礼堂,演示就在教室里;主题是教育,而不是第六代iPad这款硬件;一共60分钟的发布会,大约有45分钟是苹果的员工和一些教育工作者陈述如何通过iPad这个载体改变老师们的教育方式,以及学生们的学习方式。 对熬夜看直播的网友来说,这不是一场容易理..

发布会余波 App Store短暂下线后已恢复服务了原标题:发布会余波 App Store短暂下线后已恢复服务了   【PConline资讯】每次苹果举办新品发布会时,App Store都会短暂下线,这次苹果发布新款9.7英寸iPad也不例外,不过由于时差关系,对国内用户的影响倒不是太大。   据悉,App Store下线的时间是从 美国 东部时间下午3:04到下午4:49分,影响时间不长。苹果官方表示,“部分用户收到了这次服务中断影响,用户无法登陆应用商店或多个服务,或者..

过敏大敌谁来克 飞利浦 AC5660仅5299元原标题:过敏大敌谁来克 飞利浦 AC5660仅5299元   【PConline电商站 行情】正值春暖花开开,万物复苏的季节,随着气候渐暖,花粉以及其他过敏原也在春风的助力下弥散到大气中,然而此时对于一些呼吸道及皮肤易过敏的人来说便成了一种困扰。飞利浦5000系列空气净化器AC5660可高效地吸附、分解包含粉尘、花粉、螨虫等在内的一系列的过敏源,让使用者免于直接接触,解除过敏威胁。现天猫商城报价5299元,喜欢的朋友不要错过..

河南省委常委许甘露任公安部副部长许甘露中国长安网资料图原标题:河南省委常委许甘露履新公安部副部长、国家移民管理局局长此次党和国家机构改革中,公安部领导班子迎来调整。其中,河南省委常委、政法委书记许甘露出任公安部副部长、国家移民管理局局长。3月28日,澎湃新闻(www.thepaper.cn)查询公安部官网“领导信息”一栏注意到,许甘露以“公安部副部长、国家移民管理局局长”身份,位列部领导班子成员的第8位。据公开简历,出生于1962年1月的许甘露是福建..

蒋梦婕晒春日游客照 隔空喊话我想你近日,人气小花旦蒋梦婕在个人社交平台上晒出一组旅游照,并配文称:“好吧,我是想你们了”,大方示爱粉丝。照片中蒋梦婕身穿浅粉外套站在涂鸦墙前,或是目光卓然地凝视远方,或是对着镜头莞尔一笑,展露春日的甜美气息。据悉,蒋梦婕最近凭借在《春娇救志明》中的出色表演,获得第23届华鼎奖最佳女配提名,因此看上去心情很好。此组照片曝光后,惹得一众网友纷纷点赞并留言道:“你以为我们就不想你吗!”“女神超级美的呀。”..

黑莓第四财季净亏损1000万美元 同比收窄79%图注:黑莓公司凤凰网科技讯 北京时间3月28日消息,黑莓公司(NYSE:BB)今天发布了截至2月28日的2018财年第四季度及全年财报。财报显示,按照美国通用会计准则(GAAP)计算,黑莓第四财季营收为2.33亿美元,较上年同期的2.86亿美元下降19%;净亏损为1000万美元,较上年同期的净亏损4700万美元收窄79%。黑莓第四财季营收和利润超出预期,推动股价在周三盘前交易中大涨逾7%。股价表现:图2:黑莓股价大涨逾7%黑莓周二在纽交所的开盘价..

区块链+IP版权 凤凰网推出区块链产品“凤凰蛋”凤凰网科技讯 3月27日消息,凤凰网书城上线了一款名为“凤凰蛋”的区块链产品,用户获得邀请码注册后,可领取数字资产“凤凰蛋”。 据官方公告显示,这款区块链产品是由凤凰网旗下凤凰网书城运营,凤凰网书城拥有“翻阅小说”客户端、“凤凰网书城”客户端等文学产品。“凤凰蛋”主要用于凤凰网书城的作品版权确权,未来享受有限版权及版权衍生,动漫,影视等收益。按照目前规则,用户每天可获得“凤凰蛋”奖励,每日的产量为20..

Facebook将简化隐私设置 平息数据泄露丑闻批评图:Facebook CEO马克·扎克伯格凤凰网科技讯 据彭博社北京时间3月28日报道,Facebook表示,它将使用户能更简单地修改隐私设置,删除分享给它的数据。这一消息是Facebook平息对其批评努力的一部分。政治咨询公司剑桥分析在没有征得用户同意的情况下获取了5000万用户信息丑闻的曝光,使Facebook面临大量批评。知情人士透露,Facebook CEO马克·扎克伯格(Mark Zuckerberg)计划未来数周出席美国国会的听证会,Facebook还将推..

“为爱发电”:B站和它的成年礼美东时间3月28日凌晨,B站60多位员工从上海飞到纽约,参加B站IPO仪式。刚下飞机,技术人员就收到消息,B站海外站受到了DDOS攻击。在去酒店的大巴上,他们马上商量解决方案,和国内的同事配合解决问题——在IPO的前夜,一点差错也不能出。这似乎已经成为工作常态。在这家公司和二次元文化里,“为爱发电”是用户常常说的一句话,意思是为自己喜爱的东西付出时间、精力、金钱,不计算世俗意义上的经济成本。这家无论用户还是UP主都..

特朗普据称要对亚马逊动手 后者股价开盘大跌逾5%图:特朗普凤凰网科技讯 据CNBC北京时间3月28日报道,亚马逊股价周三开盘大跌逾5%。有消息人士称,美国总统特朗普要对亚马逊“动手”。“他现在完全沉迷于亚马逊,”一位消息人士说,“完全沉迷”。据称,特朗普已经讨论改变亚马逊的纳税待遇,因为他的数个朋友告诉他,电商巨头正在伤害他们的生意、“杀死购物商场和实体零售店。”受消息影响,亚马逊股价周三一开盘便下跌逾3%,很快跌幅扩大到约5.5%。特朗普过去曾在Twitter上..