怎样盘算位高权重 - 怎样盘算位高权重的数据“什么叫高位盘整”

作者：猫先森发布时间：2026-05-14 11:31 分类：神马优化技巧浏览：2 评论：0

导读：　　　　投稿：IntelligentSoftwareDevelopment　　团队先容：团队成员来自一线互联网公司，工作在架构计划与优化、工程方法研究与实践的最火线，曾参...

　　投稿：Intelligent Software Development

　　团队先容：团队成员来自一线互联网公司，工作在架构计划与优化、工程方法研究与实践的最火线，曾参加搜刮、互联网广告、共有云/私有云等大型产物的计划、开辟和技能优化工作。如今重要专注在呆板学习、微服务架构计划、假造化/容器化、连续交付/DevOps等范畴，盼望通过先辈技能和工程方法最大化提拔软件和服务的竞争力。

　　在前面的文章系列文章中，我们先容了全毗连神经网络和卷积神经网络，以及它们的练习和利用。他们都只能单独的取处理惩罚一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务必要可以或许更好的处理惩罚序列的信息，即前面的输入和背面的输入是有关系的。

　　比如，当我们在明白一句话意思时，孤立的明白这句话的每个词是不敷的，我们必要处理惩罚这些词毗连起来的整个序列；当我们处理惩罚视频的时间，我们也不能只单独的去分析每一帧，而要分析这些帧毗连起来的整个序列。这时，就必要用到深度学习范畴中另一类非常紧张神经网络：循环神经网络(Recurrent Neural Network)。RNN种类很多，也比力绕脑筋。

　　不外读者不消担心，本文将一如既往地对复杂的东西剥茧抽丝，资助您明白 RNN以及它的练习算法，并动手实现一个循环神经网络。

　　语言模子

　　RNN是在天然语言处理惩罚范畴中开始被用起来的，比如，RNN可以为语言模子来建模。那么，什么是语言模子呢？

　　我们可以和电脑玩一个游戏，我们写出一个句子前面的一些词，然后，让电脑帮我们写下接下来的一个词。比如下面这句：

　　我昨天上学迟到了，老师品评了____。

　　我们给电脑展示了这句话前面这些词，然后，让电脑写下接下来的一个词。在这个例子中，接下来的这个词最有大概是『我』，而不太大概是『小明』，乃至是『用饭』。

　　语言模子就是如许的东西：给定一个一句话前面的部分，猜测接下来最有大概的一个词是什么。

　　语言模子是对一种语言的特性举行建模，它有很多很多用处。比如在语音转文本(STT)的应用中，声学模子输出的结果，每每是多少个大概的候选词，这时间就必要语言模子来从这些候选词中选择一个最大概的。固然，它同样也可以用在图像到文本的辨认中(OCR)。

　　利用 RNN之前，语言模子重要是采取 N-Gram。N可以是一个天然数，比如 2大概 3。它的寄义是，假设一个词出现的概率只与前面N个词相干。我们以2-Gram为例。起首，对前面的一句话举行切词：

　　我昨天上学迟到了，老师品评了 ____。

　　假如用2-Gram举行建模，那么电脑在猜测的时间，只会看到前面的『了』，然后，电脑会在语料库中，搜刮『了』背面最大概的一个词。不管末了电脑选的是不是『我』，我们都知道这个模子是不靠谱的，由于『了』前面说了那么一大堆实际上是没有效到的。假如是3-Gram模子呢，会搜刮『品评了』背面最大概的词，感觉上比2-Gram靠谱了不少，但还是远远不敷的。由于这句话最关键的信息『我』，远在9个词之前！

　　如今读者大概会想，可以提拔继承提拔 N的值呀，比如 4-Gram、5-Gram.......。实际上，这个想法是没有实用性的。由于我们想处理惩罚恣意长度的句子，N设为多少都不符合；别的，模子的巨细和N的关系是指数级的，4-Gram模子就会占用海量的存储空间。

　　以是，该轮到RNN出场了，RNN理论上可以往前看(今后看)恣意多个词。

　　循环神经网络是啥

　　循环神经网络种类繁多，我们先从最简单的根本循环神经网络开始吧。

　　根本循环神经网络

　　下图是一个简单的循环神经网络如，它由输入层、一个隐蔽层和一个输出层构成：

　　纳尼？！信托第一次看到这个玩意的读者心田和我一样是瓦解的。由于循环神经网络着实是太难画出来了，网上全部大神们都不得不消了这种抽象艺术伎俩。不外，静下心来细致看看的话，着实也是很好明白的。假如把上面有W的谁人带箭头的圈去掉，它就变成了最平凡的全毗连神经网络。

　　x是一个向量，它表现输入层的值（这内里没有画出来表现神经元节点的圆圈）；s是一个向量，它表现隐蔽层的值（这里隐蔽层面画了一个节点，你也可以想象这一层着实是多个节点，节点数与向量s的维度雷同）；U是输入层到隐蔽层的权重矩阵（读者可以回到第二篇文章《零底子入门深度学习(2) - 神经网络和反向传播算法》，看看我们是怎样用矩阵来表现全毗连神经网络的盘算的）；o也是一个向量，它表现输出层的值；V是隐蔽层到输出层的权重矩阵。那么，如今我们来看看W是什么。循环神经网络的隐蔽层的值s不但仅取决于当前这次的输入x，还取决于上一次隐蔽层的值s。权重矩阵 W就是隐蔽层上一次的值作为这一次的输入的权重。

　　假如我们把上面的图睁开，循环神经网络也可以画成下面这个样子：

　　如今看上去就比力清楚了，这个网络在t时候吸取到输入之后，隐蔽层的值是，输出值是。关键一点是，的值不但仅取决于，还取决于。我们可以用下面的公式来表现循环神经网络的盘算方法：

　　式1是输出层的盘算公式，输出层是一个全毗连层，也就是它的每个节点都和隐蔽层的每个节点相连。V是输出层的权重矩阵，g是激活函数。式2是隐蔽层的盘算公式，它是循环层。U是输入x的权重矩阵，W是上一次的值作为这一次的输入的权重矩阵，f是激活函数。

　　从上面的公式我们可以看出，循环层和全毗连层的区别就是循环层多了一个权重矩阵 W。

　　假如反复把式2带入到式1，我们将得到：

　　从上面可以看出，循环神经网络的输出值，是受前面历次输入值…….影响的，这就是为什么循环神经网络可以往前看恣意多个输入值的缘故起因。

　　双向循环神经网络

　　对于语言模子来说，很多时间光看前面的词是不敷的，比如下面这句话：

　　我的手机坏了，我筹划 ____一部新手机。

　　可以想象，假如我们只看横线前面的词，手机坏了，那么我是筹划修一修？换一部新的？还是大哭一场？这些都是无法确定的。但假如我们也看到了横线背面的词是『一部新手机』，那么，横线上的词填『买』的概率就大得多了。

　　在上一末节中的根本循环神经网络是无法对此举行建模的，因此，我们必要双向循环神经网络，如下图所示：

　　当碰到这种从将来穿越返来的场景时，不免处于懵逼的状态。不外我们还是可以用屡试不爽的老办法：先分析一个特别场景，然后再总结一样平常规律。我们先思量上图中，y2的盘算。

　　从上图可以看出，双向卷积神经网络的隐蔽层要生存两个值，一个A参加正向盘算，另一个值A'参加反向盘算。终极的输出值y2取决于A2和A'2。其盘算方法为：

　　A2和A'2则分别盘算：

　　从上面三个公式我们可以看到，正向盘算和反向盘算不共享权重，也就是说U和U'、W和W'、V和V'都是差别的权重矩阵。

　　深度循环神经网络

　　前面我们先容的循环神经网络只有一个隐蔽层，我们固然也可以堆叠两个以上的隐蔽层，如许就得到了深度循环神经网络。如下图所示：

　　循环神经网络的练习

　　循环神经网络的练习算法：BPTT

　　BPTT算法是针对循环层的练习算法，它的根本原理和BP算法是一样的，也包罗同样的三个步调：

前向盘算每个神经元的输出值；

反向盘算每个神经元的偏差项值，它是偏差函数E对神经元j的加权输入的偏导数；

盘算每个权重的梯度。

　　末了再用随机梯度降落算法更新权重。

　　循环层如下图所示：

　　前向盘算

　　利用前面的式2对循环层举行前向盘算：

　　留意，上面的都是向量，用黑体字母表现；而U、V是矩阵，用大写字母表现。向量的下标表现时候，比方，表现在t时候向量s的值。

　　我们假设输入向量x的维度是m，输出向量s的维度是n，则矩阵U的维度是，矩阵W的维度是。下面是上式睁开成矩阵的样子，看起来更直观一些：

　　在这里我们用手写体字母表现向量的一个元素，它的下标表现它是这个向量的第几个元素，它的上标表现第几个时候。比方，表现向量s的第j个元素在t时候的值。表现输入层第i个神经元到循环层第j个神经元的权重。表现循环层第t-1时候的第i个神经元到循环层第t个时候的第j个神经元的权重。

　　偏差项的盘算

　　同理，上式第二项也是一个Jacobian矩阵：

　　此中，diag[a]表现根据向量a创建一个对角矩阵，即

　　末了，将两项合在一起，可得：

　　式3就是将偏差项沿时间反向传播的算法。

　　循环层将偏差项反向转达到上一层网络，与平凡的全毗连层是完全一样的，这在前面的文章《零底子入门深度学习(2) - 神经网络和反向传播算法》中已经具体讲过了，在此仅扼要形貌一下。

　　式4就是将偏差项转达到上一层算法。

　　权重梯度的盘算

　　如今，我们终于来到了BPTT算法的末了一步：盘算每个权重的梯度。

　　按照上面的规律就可以天生式5内里的矩阵。

　　式6就是盘算循环层权重矩阵W的梯度的公式。

------数学公式超高能预警-----

　　前面已经先容了的盘算方法，看上去还是比力直观的。然而，读者大概会狐疑，为什么终极的梯度是各个时候的梯度之和呢？我们前面只是直接用了这个结论，实际上这内里是有原理的，只是这个数学推导比力绕脑筋。感爱好的同砚可以细致阅读接下来这一段，它用到了矩阵对矩阵求导、张量与向量相乘运算的一些法则。

　　我们还是从这个式子开始：

　　接下来，我们盘算式7加号右边的部分：

　　于是，我们得到了如下递推公式：

------数学公式超高能预警打扫 -----

　　权重矩阵U的盘算方法和全毗连神经网络的盘算方法完全一样，这里就不再赘述了。感爱好的读者可以看背面的代码实现。

　　RNN的梯度爆炸和消散题目

　　不幸的是，实践中前面先容的几种RNNs并不能很好的处理惩罚较长的序列。一个重要的缘故起因是，RNN在练习中很轻易发生梯度爆炸和梯度消散，这导致练习时梯度不能在较长序列中不停转达下去，从而使RNN无法捕获到长间隔的影响。

　　为什么RNN会产生梯度爆炸和消散题目呢？我们接下来将具体分析一下缘故起因。我们根据式3可得：

　　上式的界说为矩阵的模的上界。由于上式是一个幂函数，假如 t-k很大的话（也就是向前看很远的时间），会导致对应的偏差项的值增长或缩小的非常快，如许就会导致相应的梯度爆炸和梯度消散题目（取决于大于1还是小于1）。

　　通常来说，梯度爆炸更轻易处理惩罚一些。由于梯度爆炸的时间，我们的程序会收到NaN错误。我们也可以设置一个梯度阈值，当梯度高出这个阈值的时间可以直接截取。

　　梯度消散更难检测，而且也更难处理惩罚一些。总的来说，我们有三种方法应对梯度消散题目：

公道的初始化权重值。初始化权重，使每个神经元尽大概不要取极大或极小值，以躲开梯度消散的地区。

利用 relu代替 sigmoid和tanh作为激活函数。原理请参考上一篇文章《零底子入门深度学习(三) - 卷积神经网络》的激活函数一节。

利用其他布局的RNNs，比如黑白时影象网络（LTSM）和Gated Recurrent Unit（GRU），这是最盛行的做法。我们将在以后的文章中先容这两种网络。

　　RNN的应用举例——基于RNN的语言模子

　　如今，我们先容一下基于RNN语言模子。我们起首把词依次输入到循环神经网络中，每输入一个词，循环神经网络就输出克制到如今为止，下一个最大概的词。比方，当我们依次输入：

　　我昨天上学迟到了

　　神经网络的输出如下图所示：

　　此中，s和e是两个特别的词，分别表现一个序列的开始和竣事。

　　向量化

　　我们知道，神经网络的输入和输出都是向量，为了让语言模子可以或许被神经网络处理惩罚，我们必须把词表达为向量的情势，如许神经网络才华处理惩罚它。

　　神经网络的输入是词，我们可以用下面的步调对输入举行向量化：

创建一个包罗全部词的辞书，每个词在辞书内里有一个唯一的编号。

恣意一个词都可以用一个N维的one-hot向量来表现。此中，N是辞书中包罗的词的个数。假设一个词在辞书中的编号是i，v是表现这个词的向量，是向量的第j个元素，则：

　　上面这个公式的寄义，可以用下面的图来直观的表现：

　　利用这种向量化方法，我们就得到了一个高维、希罕的向量（希罕是指绝大部分元素的值都是0）。处理惩罚如许的向量会导致我们的神经网络有很多的参数，带来巨大的盘算量。因此，每每会必要利用一些降维方法，将高维的希罕向量变化为低维的稠密向量。不外这个话题我们就不再这篇文章中讨论了。

　　语言模子要求的输出是下一个最大概的词，我们可以让循环神经网络盘算盘算辞书中每个词是下一个词的概率，如许，概率最大的词就是下一个最大概的词。因此，神经网络的输出向量也是一个N维向量，向量中的每个元素对应着辞书中相应的词是下一个词的概率。如下图所示：

　　Softmax层

　　前面提到，语言模子是对下一个词出现的概率举行建模。那么，怎样让神经网络输出概率呢？方法就是用softmax层作为神经网络的输出层。

　　我们先来看一下softmax函数的界说：

　　这个公式看起来大概很晕，我们举一个例子。Softmax层如下图所示：

　　从上图我们可以看到，softmax layer的输入是一个向量，输出也是一个向量，两个向量的维度是一样的（在这个例子内里是4）。输入向量x=[1 2 3 4]颠末 softmax层之后，颠末上面的softmax函数盘算，变化为输出向量y=[0.03 0.09 0.24 0.64]。盘算过程为：

　　我们来看看输出向量y的特性：

每一项为取值为0-1之间的正数；

全部项的总和是1。

　　我们不难发现，这些特性和概率的特性是一样的，因此我们可以把它们看做是概率。对于语言模子来说，我们可以以为模子猜测下一个词是辞书中第一个词的概率是0.03，是辞书中第二个词的概率是0.09，以此类推。

　　语言模子的练习

　　可以利用监督学习的方法对语言模子举行练习，起首，必要预备练习数据集。接下来，我们先容怎样把语料：

　　我昨天上学迟到了

　　转换成语言模子的练习数据集。

　　起首，我们获取输入-标签对：

　　然后，利用前面先容过的向量化方法，对输入x和标签y举行向量化。这内里故意思的是，对标签y举行向量化，其结果也是一个one-hot向量。比方，我们对标签『我』举行向量化，得到的向量中，只有第2019个元素的值是1，其他位置的元素的值都是0。它的寄义就是下一个词是『我』的概率是1，是别的词的概率都是0。

　　末了，我们利用交错熵偏差函数作为优化目标，对模子举行优化。

　　在实际工程中，我们可以利用大量的语料来对模子举行练习，获取练习数据和练习的方法都是雷同的。

　　交错熵偏差

　　一样平常来说，当神经网络的输出层是softmax层时，对应的偏差函数E通常选择交错熵偏差函数，其界说如下：

　　在上式中，N是练习样本的个数，向量是样本的标记，向量是网络的输出。标记是一个one-hot向量，比方，假如网络的输出，那么，交错熵偏差是（假设只有一个练习样本，即N=1）：

　　我们固然可以选择其他函数作为我们的偏差函数，比如最小平方偏差函数(MSE)。不外对概率举行建模时，选择交错熵偏差函数更make sense。具体缘故起因，感爱好的读者请阅读参考文献7。

如何计算位高权重 - 如何计算位高权重的数据

　　RNN的实现

　　为了加深我们对前面先容的知识的明白，我们来动手实现一个RNN层。我们复用了上一篇文章《零底子入门深度学习(三) - 卷积神经网络》中的一些代码，以是先把它们导入进来。

　　我们用RecurrentLayer类来实现一个循环层。下面的代码是初始化一个循环层，可以在构造函数中设置卷积层的超参数。我们留意到，循环层有两个权重数组，U和W。

　　在forward方法中，实现循环层的前向盘算，这部分比力简单。

　　在backword方法中，实现BPTT算法。

　　故意思的是，BPTT算法固然数学推导的过程很贫苦，但是写成代码却并不复杂。

　　在update方法中，实现梯度降落算法。

　　上面的代码不包罗权重U的更新。这部分实际上和全毗连神经网络是一样的，留给感爱好的读者本身来完成吧。

　　循环层是一个带状态的层，每次forword都会改变循环层的内部状态，这给梯度查抄带来了贫苦。因此，我们必要一个reset_state方法，来重置循环层的内部状态。

　　末了，是梯度查抄的代码。

　　必要留意，每次盘算 error之前，都要调用reset_state方法重置循环层的内部状态。下面是梯度查抄的结果，没题目！

　　小结

　　至此，我们讲完了根本的循环神经网络、它的练习算法：BPTT，以及在语言模子上的应用。RNN比力烧脑，信托拿下前几篇文章的读者们搞定这篇文章也不在话下吧！然而，循环神经网络这个话题并没有完结。我们在前面说到过，根本的循环神经网络存在梯度爆炸和梯度消散题目，并不能真正的处理惩罚好长间隔的依靠（固然有一些本领可以减轻这些题目）。

　　究竟上，真正得到广泛的应用的是循环神经网络的一个变体：黑白时影象网络。它内部有一些特别的布局，可以很好的处理惩罚长间隔的依靠，我们将在下一篇文章中具体的先容它。如今，让我们稍事苏息，预备挑衅更为烧脑的黑白时影象网络吧。

　　相干专题：

百度资深灵敏锻练：深度分析连续交付之全面设置管理

百度连续交付新产物的改造之路（附PPT）

零底子入门深度学习(三)：卷积神经网络

零底子入门深度学习（二）：神经网络和反向传播算法

零底子入门深度学习：感应器、线性单位和梯度降落

　　精选专题（官网：dbaplus.cn）

　　◆ 近期热文 ◆

　　如许诊断和调优，轻松与数据库"timeout"说再见性能提拔利器：MySQL 5.7多源主从复制的独特性运维改革探索(一)：用多层级监控实现可视化运维从摆脱Data Guard手工搭建及维护的烦恼提及一次耐人寻味的SQL优化：除了SQL改写，还要思量什么?

　　◆ 专家专栏 ◆

　　杨志洪丨杨建荣丨陈能技丨丁俊丨卢钧轶丨李海翔

　　魏兴华丨邹德裕丨周正中丨高强丨白鳝丨卢飞丨王佩

　　◆ 近期活动 ◆

　　Gdevops环球灵敏运维峰会上海站

　　峰会官网：www.gdevops.com

你可能想看：

怎么查询大数据名誉分 - 查大数据名誉有没有副作用

网络征信大数据评分可以通过以下几种方式查询第三方征信平台直接访问平台用户可以直接访问如芝麻名誉腾讯征信品级三方征信平台的官方网站或APP登录查询在平台上注册并登录个人账号，根据平台提示举行身份验...

什么是权重股票 - 权重股是什么意思?什么叫权重股?

权重的盘算权重的盘算方式与盘算股指精密相干在盘算股指时，利用加权法，谁的股价与总股本的乘积最大，谁就具有最大的权重这意味着，一个公司的股票权重取决于其股价和总股本的巨细对指数的影响...

权重占比盘算公式 - 权重占比盘算公式是什么

扣款盘算扣分乘以每分代价比方早退扣10分，扣款=10分×10元分=100元公式可总结为单项扣款=总奖金×权重占比÷单项满分×扣分关键逻辑权重反映指标紧张性，得分表现实际表现，奖金分配...

查权重的软件 - 查权重的软件叫什么

1、皮皮查权重重要面向新媒体视频号运营者，通过微信小程序即可便捷查询其查询陈诉涵盖权重活泼度账号代价流量池品级评赞比等关键数据，为运营者提供全面的账号分析同时，皮皮查权重还根据查询结果给...

提拔网站百度权重的6个方法 - 进步百度权重必要做哪几项工作

百度霸屏是一种有效的引流方法，通过在高权重平台上发布优质文章，并连合关键词优化，使文章在百度搜刮结果中得到较高排名，从而吸引精准流量以下是实现百度霸屏引流的6大快速渠道一竞价界说 ...

影响权重的因素有哪些方面 - 怎么确定影响因素的权重比值

若排名仅出现短期颠簸，发起观察12周后再判定是否需优化影响权重的核心因素包罗以下方面店肆自身因素店肆收藏加购率低存在作弊举动如卖弄买卖业务主营类目占比低于70%等，均大概低...

百度怎样发布个人简介信息 - 百度怎样发布个人简介信息给别人

1、1打开百度欣赏页，在右上角位置有一个更多产物栏，点击打开2在更多产物栏中，选择打开全部产物选项3在这里可以看到百度旗下所包罗的全部产物，找到此中的百科选项，点击打开4选择创建词条，...

怎样找回清空的谈天记录 - 怎样找回清空的谈天记录图片和视频呢

微信谈天记录不警惕清空了，可以通过以下步调实行规复下载并安装规复软件起首，必要在电脑上下载一款专业的数据规复软件留意根据电脑体系选择对应的版本，如Windows版本或Ma...

标签：如何计算位高权重权重权重的

怎样盘算位高权重 - 怎样盘算位高权重的数据“什么叫高位盘整”

相关推荐

取消回复欢迎你发表评论

怎样 盘算 位高权重 - 怎样 盘算 位高权重的数据“什么叫高位盘整”

相关推荐

取消回复欢迎 你 发表评论

怎样盘算位高权重 - 怎样盘算位高权重的数据“什么叫高位盘整”

取消回复欢迎你发表评论