浅谈损失函数

· · 算法·理论

注:本文部分来源于之前的笔记,在此之上加以自己的理解,供参考,有不同意见欢迎评论区交流。

\text{Part I.} 损失函数的概念和作用

损失函数是用来估量模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负值函数,通常用 L(Y,f(x)) 来表示。

损失函数越小,模型的性能越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。

模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:

\theta^*=\arg\displaystyle\min_\theta\dfrac{1}{N}\displaystyle\sum^N_{i=1}L(y_i,f(x_i;\theta)+\lambda\Phi(\theta))

下面解释一下这个表达式中各个参量的意义。

\text{Part II.} 常用损失函数

\text{Part III.} 常见优化方式

不止这些,这里列出三种最常用的方法。

对于梯度下降,算法的自适应公式可以表示为:

\theta_i=\theta-\alpha\nabla J(\theta)

其中 \theta 为模型参数,\alpha 为步长,\nabla J(\theta) 为损失函数 J 关于 \theta 的梯度。

在一般拟合情景下,步长 \alpha 会随时间衰减,并可能使用一个奖励函数引导,防止循环。