各种机器学习的应用场景分别是什么?

2017-12-06 18:38:15 来源:网络

原标题:各种机器学习的应用场景分别是什么?

雷锋网按:本文作者xyzh,本文整理自作者在知乎问题《各种机器学习的应用场景分别是什么?》下的回答, 雷锋网获其授权发布。

关于这个问题我今天正好看到了这个文章,讲的正是各个算法的优劣分析,很中肯。

正好14年的时候有人做过一个实验[1],比较在不同数据集上(121个),不同的分类器(179个)的实际效果。

论文题为:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

实验时间有点早,我尝试着结合我自己的理解、一些最近的实验,来谈一谈吧。主要针对分类器(Classifier)。

写给懒得看的人:

没有最好的分类器,只有最合适的分类器。

随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。

SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。

神经网络(13.2%)和boosting(~9%)表现不错。

数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。

数据量越大,神经网络就越强。

近邻 (Nearest Neighbor)

典型的例子是KNN,它的思路就是——对于待判断的点,找到离它最近的几个数据点,根据它们的类型决定待判断点的类型。

它的特点是完全跟着数据走,没有数学模型可言。

适用情景:

需要一个特别容易解释的模型的时候。

比如需要向用户解释原因的推荐算法。

贝叶斯 (Bayesian)

典型的例子是Naive Bayes,核心思路是根据条件概率计算待判断点的类型。

是相对容易理解的一个模型,至今依然被垃圾邮件过滤器使用。

适用情景:

需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。

可以高效处理高维数据,虽然结果可能不尽如人意。

决策树 (Decision tree)

决策树的特点是它总是在沿着特征做切分。随着层层递进,这个划分会越来越细。

虽然生成的树不容易给用户看,但是数据分析的时候,通过观察树的上层结构,能够对分类器的核心思路有一个直观的感受。

举个简单的例子,当我们预测一个孩子的身高的时候,决策树的第一层可能是这个孩子的性别。男生走左边的树进行进一步预测,女生则走右边的树。这就说明性别对身高有很强的影响。

适用情景:

因为它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。

同时它也是相对容易被攻击的分类器[3]。这里的攻击是指人为的改变一些特征,使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的,攻击者往往只需要改变很少的特征就可以逃过监测。

受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石。

随机森林 (Random forest)

提到决策树就不得不提随机森林。顾名思义,森林就是很多树。

严格来说,随机森林其实算是一种集成算法。它首先随机选取不同的特征(feature)和训练样本(training sample),生成大量的决策树,然后综合这些决策树的结果来进行最终的分类。

随机森林在现实分析中被大量使用,它相对于决策树,在准确性上有了很大的提升,同时一定程度上改善了决策树容易被攻击的特点。

适用情景:

数据维度相对低(几十维),同时对准确性有较高要求时。

因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候都可以先试一下随机森林。

SVM (Support vector machine)

SVM的核心思想就是找到不同类别之间的分界面,使得两类样本尽量落在面的两边,而且离分界面尽量远。

最早的SVM是平面的,局限很大。但是利用核函数(kernel function),我们可以把平面投射(mapping)成曲面,进而大大提高SVM的适用范围。

提高之后的SVM同样被大量使用,在实际分类中展现了很优秀的正确率。

适用情景:

SVM在很多数据集上都有优秀的表现。

相对来说,SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。

和随机森林一样,这也是一个拿到数据就可以先尝试一下的算法。

逻辑斯蒂回归 (Logistic regression)

逻辑斯蒂回归这个名字太诡异了,我就叫它LR吧,反正讨论的是分类器,也没有别的方法叫LR。顾名思义,它其实是回归类方法的一个变体。

回归方法的核心就是为函数找到最合适的参数,使得函数的值和样本的值最接近。例如线性回归(Linear regression)就是对于函数f(x)=ax+b,找到最合适的a,b。

LR拟合的就不是线性函数了,它拟合的是一个概率学中的函数,f(x)的值这时候就反映了样本属于这个类的概率。

适用情景:

LR同样是很多分类算法的基础组件,它的好处是输出值自然地落在0到1之间,并且有概率意义。

因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况。

虽然效果一般,却胜在模型清晰,背后的概率学经得住推敲。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。

判别分析 (Discriminant analysis)

判别分析主要是统计那边在用,所以我也不是很熟悉,临时找统计系的闺蜜补了补课。这里就现学现卖了。

判别分析的典型例子是线性判别分析(Linear discriminant analysis),简称LDA。

(这里注意不要和隐含狄利克雷分布(Latent Dirichlet allocation)弄混,虽然都叫LDA但说的不是一件事。)

LDA的核心思想是把高维的样本投射(project)到低维上,如果要分成两类,就投射到一维。要分三类就投射到二维平面上。这样的投射当然有很多种不同的方式,LDA投射的标准就是让同类的样本尽量靠近,而不同类的尽量分开。对于未来要预测的样本,用同样的方式投射之后就可以轻易地分辨类别了。

使用情景:

判别分析适用于高维数据需要降维的情况,自带降维功能使得我们能方便地观察样本分布。它的正确性有数学公式可以证明,所以同样是很经得住推敲的方式。

但是它的分类准确率往往不是很高,所以不是统计系的人就把它作为降维工具用吧。

同时注意它是假定样本成正态分布的,所以那种同心圆形的数据就不要尝试了。

神经网络 (Neural network)

神经网络现在是火得不行啊。它的核心思路是利用训练样本(training sample)来逐渐地完善参数。还是举个例子预测身高的例子,如果输入的特征中有一个是性别(1:男;0:女),而输出的特征是身高(1:高;0:矮)。那么当训练样本是一个个子高的男生的时候,在神经网络中,从“男”到“高”的路线就会被强化。同理,如果来了一个个子高的女生,那从“女”到“高”的路线就会被强化。

最终神经网络的哪些路线比较强,就由我们的样本所决定。

神经网络的优势在于,它可以有很多很多层。如果输入输出是直接连接的,那它和LR就没有什么区别。但是通过大量中间层的引入,它就能够捕捉很多输入特征之间的关系。卷积神经网络有很经典的不同层的可视化展示(visulization),我这里就不赘述了。

神经网络的提出其实很早了,但是它的准确率依赖于庞大的训练集,原本受限于计算机的速度,分类效果一直不如随机森林和SVM这种经典算法。

使用情景:

数据量庞大,参数之间存在内在联系的时候。

当然现在神经网络不只是一个分类器,它还可以用来生成数据,用来做降维,这些就不在这里讨论了。

Rule-based methods

这个我是真不熟,都不知道中文翻译是什么。

它里面典型的算法是C5.0 Rules,一个基于决策树的变体。因为决策树毕竟是树状结构,理解上还是有一定难度。所以它把决策树的结果提取出来,形成一个一个两三个条件组成的小规则。

使用情景:

它的准确度比决策树稍低,很少见人用。大概需要提供明确小规则来解释决定的时候才会用吧。

提升算法(Boosting)

接下来讲的一系列模型,都属于集成学习算法(Ensemble Learning),基于一个核心理念:三个臭皮匠,顶个诸葛亮。

翻译过来就是:当我们把多个较弱的分类器结合起来的时候,它的结果会比一个强的分类器更

典型的例子是AdaBoost。

AdaBoost的实现是一个渐进的过程,从一个最基础的分类器开始,每次寻找一个最能解决当前错误样本的分类器。用加权取和(weighted sum)的方式把这个新分类器结合进已有的分类器中。

它的好处是自带了特征选择(feature selection),只使用在训练集中发现有效的特征(feature)。这样就降低了分类时需要计算的特征数量,也在一定程度上解决了高维数据难以理解的问题。

最经典的AdaBoost实现中,它的每一个弱分类器其实就是一个决策树。这就是之前为什么说决策树是各种算法的基石。

使用情景:

好的Boosting算法,它的准确性不逊于随机森林。虽然在[1]的实验中只有一个挤进前十,但是实际使用中它还是很强的。因为自带特征选择(feature selection)所以对新手很友好,是一个“不知道用什么就试一下它吧”的算法。

装袋算法(Bagging)

同样是弱分类器组合的思路,相对于Boosting,其实Bagging更好理解。它首先随机地抽取训练集(training set),以之为基础训练多个弱分类器。然后通过取平均,或者投票(voting)的方式决定最终的分类结果。

因为它随机选取训练集的特点,Bagging可以一定程度上避免过渡拟合(overfit)。

在[1]中,最强的Bagging算法是基于SVM的。如果用定义不那么严格的话,随机森林也算是Bagging的一种。

使用情景:

相较于经典的必使算法,Bagging使用的人更少一些。一部分的原因是Bagging的效果和参数的选择关系比较大,用默认参数往往没有很好的效果。

虽然调对参数结果会比决策树和LR好,但是模型也变得复杂了,没事有特别的原因就别用它了。

Stacking

这个我是真不知道中文怎么说了。它所做的是在多个分类器的结果上,再套一个新的分类器。

这个新的分类器就基于弱分类器的分析结果,加上训练标签(training label)进行训练。一般这最后一层用的是LR。

Stacking在[1]里面的表现不好,可能是因为增加的一层分类器引入了更多的参数,也可能是因为有过渡拟合(overfit)的现象。

使用情景:

@庄岩提醒说stacking在数据挖掘竞赛的网站kaggle上很火,相信参数调得好的话还是对结果能有帮助的。

这篇文章很好地介绍了stacking的好处。在kaggle这种一点点提升就意味着名次不同的场合下,stacking还是很有效的,但是对于一般商用,它所带来的提升就很难值回额外的复杂度了。)

多专家模型(Mixture of Experts)

最近这个模型还挺流行的,主要是用来合并神经网络的分类结果。我也不是很熟,对神经网络感兴趣,而且训练集异质性(heterogeneity)比较强的话可以研究一下这个。

讲到这里分类器其实基本说完了。讲一下问题里面其他一些名词吧。

最大熵模型 (Maximum entropy model)

最大熵模型本身不是分类器,它一般是用来判断模型预测结果的好坏的。

对于它来说,分类器预测是相当于是:针对样本,给每个类一个出现概率。比如说样本的特征是:性别男。我的分类器可能就给出了下面这样一个概率:高(60%),矮(40%)。

而如果这个样本真的是高的,那我们就得了一个分数60%。最大熵模型的目标就是让这些分数的乘积尽量大。

LR其实就是使用最大熵模型作为优化目标的一个算法[4]。

EM

就像最大熵模型一样,EM不是分类器,而是一个思路。很多算法都是基于这个思路实现的。

@刘奕驰 已经讲得很清楚了,我就不多说了。

隐马尔科夫 (Hidden Markov model)

这是一个基于序列的预测方法,核心思想就是通过上一个(或几个)状态预测下一个状态。

之所以叫“隐”马尔科夫是因为它的设定是状态本身我们是看不到的,我们只能根据状态生成的结果序列来学习可能的状态。

适用场景:

可以用于序列的预测,可以用来生成序列。

条件随机场 (Conditional random field)

典型的例子是linear-chain CRF。

具体的使用@Aron有讲,我就不献丑了,因为我从来没用过这个。

相关的文章:

[1]: Do we need hundreds of classifiers to solve real world classification problems.

Fernández-Delgado, Manuel, et al. J. Mach. Learn. Res 15.1 (2014)

[2]: An empirical evaluation of supervised learning in high dimensions.

Rich Caruana, Nikos Karampatziakis, and Ainur Yessenalina. ICML '08

[3]: Man vs. Machine: Practical Adversarial Detection of Malicious Crowdsourcing Workers

Wang, G., Wang, T., Zheng, H., & Zhao, B. Y. Usenix Security'14

< /blockquote>
,各种机器学习的应用场景分别是什么林二汶 ?

相关:

MAX-Q设计解读 NVIDIA黑科技造福游戏本今年5月,老黄带来了新轻薄游戏本的解决方案——MAX-Q设计。通过该设计,游戏本可以更加轻薄、机器内部的散热性能得到了更多优化、显卡的性能也更加出色。那么,NVIDIA这项技术究竟有什么黑科技呢? 去年的GTX 10系显卡回春 MAX-Q设计成为5月焦点 转眼间,2017年就要接近尾声了。很多科技厂商都在今年搞了一些大事情,比如Intel,今年发布了第八代酷睿处理器、AMD则发布了Ryzen处理器和Vega显卡。而NVDIA,在今年5月份发布..

所有在朋友圈转发这些文章的,都杀了人原标题:所有在朋友圈转发这些文章的,都杀了人 都说“流言止于智者”,但如今这年头,智者进了朋友圈,也只有被吊打的份。因为智者追求的是真相,而民众要的是感动、愤怒、鄙视和共鸣。 1如果有人问我,你最讨厌的是什么?我一定会在半秒内做出回答:被人冤枉。扣在我头上长达三年的“花心渣男”帽子,就是这么来的。事情很简单:大二那年堂妹到我这里旅游,爸妈嘱咐要好好招待,于是我陪她订了旅店,付了房费,没想到这过程被..

印尼渔业机构扣留中国渔船 外交部回应原标题:【印尼渔业机构扣留中国渔船】外交部:已通过外交渠道进行沟通交涉据报道,近日,印度尼西亚的渔业机构以在相关海域进行非法作业为由,扣留了一艘中国渔船。中国外交部发言人耿爽在今天(6日)的例行记者会上表示,中方有关部门正在处理相关事件,希望此事能够妥善解决。?外交部发言人耿爽:这艘渔船是经东帝汶政府批准在相关的海域进行作业,我们已经通过外交渠道同印尼、东帝汶等方面进行沟通交涉,推动此事能够妥善解..

贵州茅台、中国平安等今日均出现溢价大宗交易摘要 【贵州茅台、中国平安等今日均出现溢价大宗交易】12月6日,贵州茅台等多只大盘蓝筹股出现溢价大宗交易。(证券时报)   12月6日,贵州茅台等多只大盘蓝筹股出现溢价大宗交易。其中,贵州茅台发生4笔大宗交易,其中一笔的成交价格为633元,相比当日收盘价溢价1.18%,成交量为1.8万股,成交额1139.4万元,其余3笔的成交价格均为625..

12月6日晚间上市公司利好消息一览(附名单)摘要 沪深两市多家上市公司12月6日晚间发布重要公告,以下为利好的消息汇总。   沪深两市多家上市公司12月6日晚间发布重要公告,以下为利好的消息汇总:   大宗交易)增持公司股份,买入金额不低于5000万元,买入股份数量不超过公司已发行总股本2%(即不超过2546.9874万股),资金来源为本人自有资金或自筹资金。   (责任编辑:DF062)

这是两台搭载了骁龙835的Win 10笔记本在夏威夷的高通骁龙技术峰会上,两台搭载骁龙 835 平台的 Win 10 笔记本亮相了——华硕 NovaGo 以及惠普 Envy x2。 华硕的 NovaGo 搭载了骁龙 835 处理器,有 4/6/8GB 内存以及 64/128/256GB 存储空间可选。X16 基带使得它拥有千兆 LTE 上网能力,并且可以始终开启、始终连接,而且还可以带来优秀的续航表现。 (接口很够用) 屏幕方面,NovaGo 配备了一块 13.3 英寸的 1080p 显示屏..

谷歌又调皮了,整了些不存在的东西,快来试试吧! 作为一个超有趣的科技公司~ 谷歌时不时会推出一些超有意思,还带点儿可爱的产品。 小辣椒就被他们最近推出的 Paper Signals 戳中了萌点 Paper Signals 这是谷歌最新的一项实验项目~你有想过一个物体,能通过动作,回应你的语音指令吗? Paper Signals 就可以! 在连接上手机谷歌语音助手(安卓、iOS 均可用)后,Paper Signals 会对语音指令做出相应的动作反馈。 例如,问问它有么有下雨,伞..

极致客厅娱乐设备 NVIDIA SHIELD登陆中国原标题:极致客厅娱乐设备 NVIDIA SHIELD登陆中国 说起NVIDIA的SHIELD,很多人可能很陌生,而即使听说过SHIELD的玩家们,印象可能还停留在初代那个有着惊艳设计的掌机上。这也难怪,由于一些大背景的限制,NVIDIASHIELD自2013年诞生起就一直未能引进大陆,因而其在玩家视线中只是惊鸿一瞥,未能引起较大波澜。 其实NVIDIA也一直在摸索SHIELD的发展道路:一代是掌机、二代是平板、三代是主机+机顶盒,终于,经历了三代的..

惊险!商人遭遇抢劫中枪 而这部国产手机救了他原标题:惊险!商人遭遇抢劫中枪 而这部国产手机救了他 中关村在线消息:你可能听过很多次手机挡下子弹,保人性命的故事,不过主角多半都是苹果和三星,而近日发生的一件事让人惊心动魄,这次主角也换成了国产品牌华为。 亚伯拉罕斯在讲述经历 博主@笑趴了在微博上讲述了一段离奇的故事,一位41岁的商人亚伯拉罕斯在南非遭遇两名匪徒持枪抢劫,其中一人向他开枪,亚伯拉罕斯随即倒下,15万英镑现金也不翼而飞,但让人意想..

大屏潮流不可挡 双十二热门大屏电视推荐原标题:大屏潮流不可挡 双十二热门大屏电视推荐 大屏已经成为目前消费者选购电视最关键的热点。随着人们生活水平的不断提升,客厅娱乐的不断升级,如果家里面还摆放着40英寸这样尺寸的电视,确实感觉不是很配套。60英寸目前被称为电视的黄金尺寸,大屏电视不仅观看时更加震撼,摆放在客厅中也让主人更有面子。 双十二热门大屏电视推荐 现在市面上大部分电视产品分辨率上已经提升至4K水平,同时新画质技术的不断加入,让..