博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Hazard of Overfitting】林轩田机器学习基石
阅读量:6624 次
发布时间:2019-06-25

本文共 890 字,大约阅读时间需要 2 分钟。

首先明确了什么是Overfitting

随后,用开车的例子给出了Overfitting的出现原因

出现原因有三个:

(1)dvc太高,模型过于复杂(开车开太快)

(2)data中噪声太大(路面太颠簸)

(3)数据量N太小(知道的路线太少)

这里(1)是前提,模型太复杂:

(1)模型越复杂,就会捕获train data中越多的点(这当中当然包括更多的噪声点)

(2)数据量N太小,根据VC Dimension理论,Eout会增大

这里的noise包括两类:

1. stochoastic noise:

  比如train data就是“10次多项式+正态分布的误差”产生的;如果样本量N不是很大的话,noise带来的影响很可能不能被互相抵消(抵消的意思是+noise, -noise在算error的时候有抵消的作用),这样每个noise就会非常影响曲线的形状;结果就是带来overfitting

2. deterministic noise:

  比如train data是“50次多项式”产生的;即使没有stochastic noise,无论怎么用10次多项式去拟合也无法拟合出50次多项式;

  但是这个时候,由于10次多项式的power比较强,它回去够到尽量多的点,这些点当中难免有些就等于noise了;

  反之,如果用2次多项式去拟合,由于它的power比较弱,在它正常范围内能够到的点比较少,因此train data中的数据点起到stochastic noise的机会就大大减少了

最终的造成的结果,就是如下的两张图了。

如上图,总结了overfitting的四种reasons。

最后,引出了对抗overfitting的几种途径:

最关键的是:一开始尽量从simple model开始尝试

其次再是对train data的各种清洗过滤。

另外,regularization和validation是两种比较重要的防止overfitting的途径。后面有可能重点介绍。

转载于:https://www.cnblogs.com/xbf9xbf/p/4606226.html

你可能感兴趣的文章
10 款非常棒的CSS代码格式化工具推荐
查看>>
SQL Server 临时表的删除
查看>>
StackOverFlow关于JVM的文章
查看>>
程序8
查看>>
【原】WebRebuild深圳站的一点感悟
查看>>
23讲 URL
查看>>
Excel Open Xml中CellStyleXfs,cellStyle,cellXfs之间关系的总结
查看>>
QT Basic---Widgets<1>
查看>>
Android开发10.3:UI组件GridView网格视图
查看>>
Power BI的一些视频演示资源
查看>>
Entity Framework 5.0基础系列
查看>>
使用Swift和SpriteKit写一个忍者游戏
查看>>
2014辛星在读CSS第八节 使用背景图片
查看>>
TBluetoothLEDevice.UpdateOnReconnect
查看>>
QtTableView 简介
查看>>
Linux系统上安装软件(ftp服务器)
查看>>
[iOS] App引导页的简单实现 (Swift 2)
查看>>
MHA 代码解析(online swtich+master is alive 模式)
查看>>
利用openssl进行RSA加密解密
查看>>
盒模型--边界
查看>>