申请专栏作者
您的当前位置:主页 > yabo体育平台注册页 > 正文

打破机器学习中的小yabo88滚球集诅咒

来源:可思yabo88滚球 时间:2019-07-27
请点击下面的广告后浏览!

深度学习

可思yabo88滚球-人工智能资讯平台

大yabo88滚球文摘出品

本文来自可思yabo88滚球,转载请联系本站及注明出处

编译:栾红叶、stats熊、蒋宝尚

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

最近深度学习技术实现方面取得的突破表明,***算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现,大量的训练yabo88滚球对深度学习模型的成功起着至关重要的作用。就拿Resnet来说,这种图像分类结构在2015年的ILSVRC分类竞赛中获得了***名,比先前的技术水平提高了约50%。

可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

近年来ILSVRC的***模型表现 可思yabo88滚球-人工智能资讯平台

图1:近年来ILSVRC的***模型表现

本文来自可思yabo88滚球,转载请联系本站及注明出处

Resnet不仅具有非常复杂艰深的结构,而且还有足够多的yabo88滚球。不同的算法其性能可能是相同的,这个问题已经在工业界和学术界得到了很好的证实。

可思yabo88滚球-人工智能资讯平台

但需要注意的是,大yabo88滚球应该是有意义的信息,而不是杂乱无章的,这样,模型才能从中学习。这也是谷歌、Facebook、亚马逊、Twitter、百度等公司在人工智能研究和产品开发领域占据主导地位的主要原因之一。 可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

虽然与深度学习相比,传统的机器学习会需要更少的yabo88滚球,但即使是大规模的yabo88滚球量,也会以类似的方式影响模型性能。下图清楚地描述了传统机器学习和深度学习模型的性能如何随着yabo88滚球规模的提高而提高。

可思yabo88滚球-人工智能资讯平台

yabo88滚球量与模型性能的函数关系 可思yabo88滚球-人工智能资讯平台

图2:yabo88滚球量与模型性能的函数关系

本文来自可思yabo88滚球,转载请联系本站及注明出处

为什么我们需要机器学习? 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

弹丸运动公式

可思yabo88滚球-www.sykv.cn,sykv.com

图3:弹丸运动公式 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

让我们用一个例子来回答这个问题。假设我们有一个速度为v,按一定角度θ投掷出去的球,我们想要算出球能抛多远。根据高中物理知识,我们知道球做一个抛物线运动,我们可以使用图中所示的公式算出距离。 内容来自可思yabo88滚球

上述公式可被视为任务的模型或表示,公式中涉及的各种术语可被视为重要特征,即v、θ和g(重力加速度)。在上述模型下,我们的特征很少,我们可以很好地理解它们对我们任务的影响。因此,我们能够提出一个好的数学模型。让我们考虑一下另一种情况:我们希望在2018年12月30日预测苹果公司的股价。在这个任务中,我们无法完全了解各种因素是如何影响股票价格的。 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

在缺乏真实模型的情况下,我们利用历史股价和标普500指数、其他股票价格、市场情绪等多种特征,利用机器学习算法来找出它们潜在的关系。这就是一个例子,即在某些情况下,人类很难掌握大量特征之间的复杂关系,但是机器可以通过大规模的yabo88滚球轻松地捕捉到它。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

另一个同样复杂的任务是:将电子邮件标记为垃圾邮件。作为一个人,我们可能要想许多规则和启式的方法,但它们很难编写、维护。而另一方面,机器学习算法可以很容易地获得这些关系,还可以做得更好,并且更容易维护和扩展。既然我们不需要清晰地制定这些规则,而yabo88滚球可以帮助我们获得这些关系,可以说机器学习已经彻底改变了不同的领域和行业。

可思yabo88滚球-www.sykv.cn,sykv.com

大yabo88滚球集是怎样帮助构建更好的机器学习模型的?

可思yabo88滚球

在我们开始讨论大规模yabo88滚球是如何提高模型性能之前,我们需要了解偏差(Bias)和方差(Variance)。

可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

偏差:让我们来看这样一个yabo88滚球集:它的因变量和自变量之间是二次方关系。然而,我们不知道他们真实的关系,只能称它们近似为线性关系。在这种情况下,我们将会发现我们的预测与实际yabo88滚球之间的明显的差异。观测值和预测值之间的这种差异称为偏差。这种模型,我们会说它功能小,欠拟合。

可思yabo88滚球-www.sykv.cn,sykv.com

方差:在同一个例子中,如果我们将关系近似为三次方或任何更高阶,就会出现一个高方差的情况。方差能够反映训练集与测试集的性能差异。高方差的主要问题是:模型能很好地拟合训练yabo88滚球,但在训练外yabo88滚球集上表现得不好。这是验证确认测试集在模型构建过程中非常重要的一个主要原因。 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

偏差 vs方差 可思yabo88滚球-www.sykv.cn,sykv.com

图4:偏差 vs方差

本文来自可思yabo88滚球,转载请联系本站及注明出处

我们通常希望将偏差和方差最小化。即建立一个模型,它不仅能很好地适用训练yabo88滚球,而且能很好地概括测试/验证yabo88滚球。实现这一点有很多方法,但使用更多yabo88滚球进行训练是实现这一点的***途径之一。我们可以通过下图了解这一点:

内容来自可思yabo88滚球

大yabo88滚球产生了更好的泛化 本文来自可思yabo88滚球,转载请联系本站及注明出处

图5:大yabo88滚球产生了更好的泛化 可思yabo88滚球

假设我们有一个类似于正弦分布的yabo88滚球。图(5a)描述了多个模型在拟合yabo88滚球点方面同样良好。这些模型中有很多都过拟合,并且在整个yabo88滚球集上产出不是很好。当我们增加yabo88滚球时,从图(5b)可以看出可以容纳yabo88滚球的模型数量减少。随着我们进一步增加yabo88滚球点的数量,我们成功地捕获了yabo88滚球的真实分布,如图(5C)所示。这个例子帮助我们清楚地了解yabo88滚球数量是如何帮助模型揭示真实关系的。接下来,我们将尝试了解一些机器学习算法的这种现象,并找出模型参数是如何受到yabo88滚球大小影响的。 可思yabo88滚球-人工智能资讯平台

线性回归:在线性回归中,我们假设预测变量(特征)和因变量(目标)之间存在线性关系,关系式如下:

可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

内容来自可思yabo88滚球

其中y是因变量,x(i)是自变量。β(i)为真实系数,?为模型未解释的误差。对于单变量情况,基于观测yabo88滚球的预测系数如下:

本文来自可思yabo88滚球,转载请联系本站及注明出处

内容来自可思yabo88滚球

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

上述公式给出了斜率和截距的估测点,但这些估值总是存在一些不确定性,这些不确定性可由方差方程量化: 本文来自可思yabo88滚球,转载请联系本站及注明出处

本文来自可思yabo88滚球,转载请联系本站及注明出处

可思yabo88滚球-www.sykv.cn,sykv.com

因此,随着yabo88滚球数量的增加,分母会变大,就是我们估测点的方差变小。因此,我们的模型对潜在关系会更加自信,并能给出稳定的系数估计。通过以下代码,我们可以看到上述现象的实际作用: 本文来自可思yabo88滚球,转载请联系本站及注明出处

可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

图6:在线性回归中增加yabo88滚球量对估测点位置估测的提升

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

我们模拟了一个线性回归模型,其斜率(b)=5,截距(a)=10。从图6(a)(yabo88滚球量小)到图6(b)(yabo88滚球量大),我们建立了一个衰退模型,此时我们可以清楚地看到斜率和截距之间的区别。在图6(a)中,模型的斜率为4.65,截距为8.2,而图6(b)中模型的斜率为5.1,截距为10.2相比,可以明显看出,图6(b)更接近真实值。 本文来自可思yabo88滚球,转载请联系本站及注明出处

k近邻(k-NN):k-NN是一种用于回归和分类里最简单但功能强大的算法。k-NN不需要任何特定的训练阶段,顾名思义,预测是基于k-最近邻到测试点。由于k-NN是非参数模型,模型性能取决于yabo88滚球的分布。在下面的例子中,我们正在研究irisyabo88滚球集,以了解yabo88滚球点的数量如何影响k-NN表现。为了更好表现结果,我们只考虑了这组yabo88滚球的四个特性中的两个:萼片长度和萼片宽度。 可思yabo88滚球-人工智能资讯平台

KNN中预测类随yabo88滚球大小的变化 本文来自可思yabo88滚球,转载请联系本站及注明出处

图7:KNN中预测类随yabo88滚球大小的变化 内容来自可思yabo88滚球

后面的实验中我们随机从分类1中选取一个点作为试验yabo88滚球(用红色星星表示),同时假设k=3并用多数投票方式来预测试验yabo88滚球的分类。图7(a)是用了少量yabo88滚球做的试验,我们发现这个模型把试验点错误分在分类2中。当yabo88滚球点越来越多,模型会把yabo88滚球点正确预测到分类1中。从上面图中我们可以知道,KNN与yabo88滚球质量成正相关,yabo88滚球越多可以让模型更一致、更精确。

可思yabo88滚球

决策树算法:与线性回归和KNN类似,也受yabo88滚球数量的影响。

内容来自可思yabo88滚球

根据yabo88滚球的大小形成不同的树状结构

可思yabo88滚球

图8:根据yabo88滚球的大小形成不同的树状结构 内容来自可思yabo88滚球

决策树也是一种非参数模型,它试图***地拟合yabo88滚球的底层分布。拆分是对特性值执行的,目的是在子级创建不同的类。由于模型试图***地拟合可用的训练yabo88滚球,因此yabo88滚球的数量直接决定了分割级别和最终类。从上面的图中我们可以清楚的看到,yabo88滚球集的大小对分割点和最终的类预测有很大的影响。更多的yabo88滚球有助于找到***分割点,避免过度拟合。 内容来自可思yabo88滚球

如何解决yabo88滚球量少的问题?

可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

可思yabo88滚球

图9:yabo88滚球量少的基本含义和解决它的可能方法和技术 可思yabo88滚球-www.sykv.cn,sykv.com

上图试图捕捉处理小yabo88滚球集时所面临的核心问题,以及解决这些问题的可能方法和技术。在本部分中,我们将只关注传统机器学习中使用的技术。 本文来自可思yabo88滚球,转载请联系本站及注明出处

改变损失函数:对于分类问题,我们经常使用交叉熵损失,很少使用平均绝对误差或平均平方误差来训练和优化我们的模型。在yabo88滚球不平衡的情况下,由于模型对最终损失值的影响较大,使得模型更加偏向于多数类,使得我们的模型变得不那么有用。 本文来自可思yabo88滚球,转载请联系本站及注明出处

在这种情况下,我们可以对不同类对应的损失增加权重,以平衡这种yabo88滚球偏差。例如,如果我们有两个按比例4:1计算yabo88滚球的类,我们可以将比例1:4的权重应用到损失函数计算中,使yabo88滚球平衡。这种技术可以帮助我们轻松地缓解不平衡yabo88滚球的问题,并改进跨不同类的模型泛化。我们可以很容易地找到R和Python中的库,它们可以帮助在损失计算和优化过程中为类分配权重。Scikit-learn有一个方便的实用函数来计算基于类频率的权重:

可思yabo88滚球-www.sykv.cn,sykv.com

我们可以用class_weight=‘balanced’来代替上面的计算量,并且与class_weights计算结果一样。我们同样可以依据我们的需求来定义分类权重。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

异常/变更检测:在欺诈或机器故障等高度不平衡的yabo88滚球集的情况下,是否可以将这些例子视为异常值得思考。如果给定的问题满足异常判据,我们可以使用OneClassSVM、聚类方法或高斯异常检测方法等模型。这些技术要求我们改变思维方式,将次要类视为异常类,这可能帮助我们找到分离和分类的新方法。变化检测类似于异常检测,只是我们寻找的是变化或差异,而不是异常。这些可能是根据使用模式或银行事务观察到的用户行为的变化。

本文来自可思yabo88滚球,转载请联系本站及注明出处

可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

图10:过采和欠采样的情况 可思yabo88滚球

上采样还是下采样:由于不平衡的yabo88滚球本质上是以不同的权重惩罚多数类,所以解决这个问题的一个方法是使yabo88滚球平衡。这可以通过增加少数类的频率或通过随机或集群抽样技术减少多数类的频率来实现。过度抽样与欠抽样以及随机抽样与集群抽样的选择取决于业务上下文和yabo88滚球大小。一般来说,当总体yabo88滚球大小较小时,上采样是***的,而当我们有大量yabo88滚球时,下采样是有用的。类似地,随机抽样和聚集抽样是由yabo88滚球分布的好坏决定的。 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

生成合成yabo88滚球:尽管上采样或下采样有助于使yabo88滚球平衡,但是重复的yabo88滚球增加了过度拟合的机会。解决此问题的另一种方法是在少数类yabo88滚球的帮助下生成合成yabo88滚球。合成少数过采样技术(SMOTE)和改进过采样技术是产生合成yabo88滚球的两种技术。简单地说,合成少数过采样技术接受少数类yabo88滚球点并创建新的yabo88滚球点,这些yabo88滚球点位于由直线连接的任意两个最近的yabo88滚球点之间。为此,该算法计算特征空间中两个yabo88滚球点之间的距离,将距离乘以0到1之间的一个随机数,并将新yabo88滚球点放在距离计算所用yabo88滚球点之一的新距离上。注意,用于yabo88滚球生成的最近邻的数量也是一个超参数,可以根据需要进行更改。

可思yabo88滚球-人工智能资讯平台

可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

图11:基于K=3,合成少数过采样技术过程 可思yabo88滚球

M-SMOTE是一个改进版的SMOTE,它考虑了yabo88滚球中少数分类的底层分布。该算法将少数类的样本分为安全/安全样本、边界样本和潜在噪声样本三大类。这是通过计算少数类样本与训练yabo88滚球样本之间的距离来实现的。与SMOTE不同的是,该算法从k个最近邻中随机选择一个yabo88滚球点作为安全样本,从边界样本中选择最近邻,对潜在噪声不做任何处理。

可思yabo88滚球-www.sykv.cn,sykv.com

集成技术:聚合多个弱学习者/不同模型在处理不平衡的yabo88滚球集时显示出了很好的效果。装袋和增压技术在各种各样的问题上都显示出了很好的效果,应该与上面讨论的方法一起探索,以获得更好的效果。但是为了更详细地了解各种集成技术以及如何将它们用于不平衡的yabo88滚球,请参考下面的博客。

可思yabo88滚球

https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/

可思yabo88滚球-www.sykv.cn,sykv.com

总结

内容来自可思yabo88滚球

在这段中,我们看到yabo88滚球的大小可能会体现出泛化、yabo88滚球不平衡以及难以达到全局***等问题。我们已经介绍了一些最常用的技术来解决传统机器学习算法中的这些问题。根据手头的业务问题,上述一种或多种技术可以作为一个很好的起点。 可思yabo88滚球-www.sykv.cn,sykv.com

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?

Copyright?2005-2019 Sykv.com 可思yabo88滚球 版权所有 ?? 网站地图?? 联系我们??

人工智能资讯?? 人工智能资讯?? 人工智能资讯?? 人工智能资讯

?扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部