About 39,100,000 results
Open links in new tab
  1. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    我会使用尽量少的数学符号描述 梯度, 着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度 …

  2. 非凸优化基石:Lipschitz Condition

    在绝大多数的非凸优化的论文里,一般不出现Lipschitz continuous, 一般出现的都是 Lipschitz continuous gradient 或者 Lipschitz continuous Hessian, 那他们是什么意思呢? 其实Lipschitz …

  3. 温故知新——梯度下降(Gradient Descent) - 知乎

    梯度下降(Gradient Descent)又称最速下降,是迭代法的一种,可以用于求解最小二乘法(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient …

  4. 机器学习 | 近端梯度下降法 (proximal gradient descent)

    近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种,其英文名称为proximal gradident descent,其中,术语中的proximal一词比较耐人寻味,将proximal翻译成“近端”主要 …

  5. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …

    这篇回答节选自我的专栏 《机器学习中的数学:微积分与最优化》,和大家一起谈谈方向导数和梯度。 欢迎关注我的知乎账号 @石溪 ,将持续发布机器学习数学基础及算法应用等方面的精彩 …

  6. 为什么我觉得LLMs的RL不是“真的”RL,就是监督学习? - 知乎

    RL大致可分为2个流派,策略梯度(policy gradient)和动作价值 (Q-learning)。 LLM的RL一般都是policy gradient,因为LLM本身就是策略模型,输出结果经过reward打分之后,给出模型参数的 …

  7. L1正则和max函数的可导性? - 知乎

    L1正则化 的梯度求解使用 sub-gradient 进行求解无法求导的部分。 别的部分的求导就是原来那个。 比如对于 ReLU函数:在z为0的时候,传统的梯度下降无法求解,用sub-gradient计算,可 …

  8. 大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合? - 知乎

    因为weight、gradient、opt shard在同一张显卡上,gradient只需要reduce scatter,通信量相比于ddp(一次allreduce)只增加0.5倍通信量,很巧妙。 采用tp/pp,认为计算本地 …

  9. Inception家族进化史「GoogleNet、Inception、Xception」

    Jan 23, 2024 · 网络架构 GoogLeNet具有9个Inception模块,22层深(27层包括pooling),并在最后一个Inception模块使用全局池化。 由于网络深度,将存在梯度消失 vanishing gradient 的问 …

  10. CFX中如何在表达式中写出偏导和求导的函数? - 知乎

    1 人赞同了该回答 写*.cst文件用的 偏导数 写法,不知道能不能当cel表达式用: Velocity v.Gradient Z+Velocity w.Gradient Y 注意不要漏掉空格, 答主试验过后,请告诉我能不能用。