|
- 深度学习的loss一般收敛到多少? - 知乎
看题主的意思,应该是想问,如果用训练过程当中的loss值作为衡量深度学习模型性能的指标的话,当这个指标下降到多少时才能说明模型达到了一个较好的性能,也就是将loss作为一个evaluation metrics。 但是就像知乎er们经常说的黑话一样,先问是不是,再问是什么。所以这个问题有一个前提,就是
- 哪里有标准的机器学习术语 (翻译)对照表? - 知乎
L 损失 (Loss) 一种衡量指标,用于衡量模型的预测偏离其标签的程度。 或者更悲观地说是衡量模型有多差。 要确定此值,模型必须定义损失函数。 例如,线性回归模型通常将均方误差用作损失函数,而逻辑回归模型则使用对数损失函数。 L_1 损失函数 ( L_1 Loss)
- 大模型优化利器:RLHF之PPO、DPO
最终,我们可以得出 DPO 的 loss 如下所示: 这就是 DPO 的 loss。 DPO 通过以上的公式转换把 RLHF 巧妙地转化为了 SFT,在训练的时候不再需要同时跑 4 个模型(Actor Model 、Reward Mode、Critic Model 和 Reference Model),而是只用跑 Actor 和 Reference 2 个模型。
- 训练网络时为什么会出现loss逐渐增大的情况? - 知乎
训练网络时为什么会出现loss逐渐增大的情况? 模型找是是网上找的pytorch实现的lenet,我把训练的次数调大了,发现训练集loss值在50次左右前是一直减小的,但之后逐渐增大,200多次后就…
- 如何理解Adam算法 (Adaptive Moment Estimation)? - 知乎
(我曾写过一个Momentum的简单介绍: 怎么通俗易懂的理解SGD中Momentum的含义? ) Adaptive Learning Rate则是利用过去梯度second moment信息来确定各个方向的学习率的大小——loss landscape越平坦的方向用越大的学习率来更新模型参数。 所以一般就把Adam算法写成如下7行形式:
- 请教一个问题,训练网络时loss为什么要写成running_loss += loss. item ()?
请教一个问题,训练网络时loss为什么要写成running_loss += loss item ()? print的时候显示的时候也并不是叠加,running_loss和loss item ()的值始终保持一致,但是为什么要写成+=呢,我之前搜到用loss… 显示全部 关注者 20
- DeepSeek的GRPO算法是什么? - 知乎
Deepseek V3技术报告中的GRPO算法是什么
- 损失函数|交叉熵损失函数 - 知乎
1 3 Cross Entropy Loss Function(交叉熵损失函数) 1 3 1 表达式 (1) 二分类 在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为 和 ,此时表达式为( 的底数是 ): 其中: - —— 表示样本 的label,正类为 ,负类为
|
|
|