过拟合和欠拟合

Featured image

过拟合

一般来讲,如果模型在训练集上的表现很好而在测试集上的表现差很多,往往定义为过拟合

对应的实际训练过程应该是训练集的ERROR持续减小,测试集的ERROR在训练初期减小,之后不再继续变小甚至是增大;

原因: 造成过拟合的原因有很多,常见的比如:训练集太少、特征太多、模型过于复杂、训练集与测试集有明显差异,训练集不足以代表测试集、迭代次数太多等

解决方法: 针对可能造成过拟合的原因,不同原因对应不同的解决方法,不同的模型也有不同的解决方法;一些通用的解决方法如:

欠拟合

欠拟合往往表现为模型在训练集和测试集上的效果都很差;

对应的训练过程应该为训练初期ERROR略有减少,很快就不在减少;

原因: 造成欠拟合的原因一般为:特征太少、模型太简单、迭代次数不够等

解决办法: 不同的原因,不同的模型对应不同的解决办法,常用的如下: