Author Archive

循环神经网络 – Recurrent Neural Network | RNN

一文看懂循环神经网络RNN

卷积神经网络 – CNN 已经很强大的，为什么还需要RNN？

本文会用通俗易懂的方式来解释 RNN 的独特价值——处理序列数据。同时还会说明 RNN 的一些缺陷和它的变种算法。

最后给大家介绍一下 RNN 的实际应用价值和使用场景。

为什么需要 RNN ？独特价值是什么？

卷积神经网络 – CNN 和普通的算法大部分都是输入和输出的一一对应，也就是一个输入得到一个输出。不同的输入之间是没有联系的。

大部分算法都是输入和输出的一一对应

但是在某些场景中，一个输入就不够了！

为了填好下面的空，取前面任何一个词都不合适，我们不但需要知道前面所有的词，还需要知道词之间的顺序。

序列数据的处理

这种需要处理“序列数据 – 一串相互依赖的数据流”的场景就需要使用 RNN 来解决了。

典型的集中序列数据：

文章里的文字内容
语音里的音频内容
股票市场中的价格走势
……

RNN 之所以能够有效的处理序列数据，主要是基于他的比较特殊的运行原理。下面给大家介绍一下 RNN 的基本运行原理。

RNN 的基本原理

传统神经网络的结构比较简单：输入层 – 隐藏层 – 输出层。如下图所示：

传统神经网络

RNN 跟传统神经网络最大的区别在于每次都会将前一次的输出结果，带到下一次的隐藏层中，一起训练。如下图所示：

下面用一个具体的案例来看看 RNN 是如何工作的：

假如需要判断用户的说话意图（问天气、问时间、设置闹钟…），用户说了一句“what time is it？”我们需要先对这句话进行分词：

然后按照顺序输入 RNN ，我们先将 “what”作为 RNN 的输入，得到输出“01”

然后，我们按照顺序，将“time”输入到 RNN 网络，得到输出“02”。

这个过程我们可以看到，输入 “time” 的时候，前面 “what” 的输出也产生了影响（隐藏层中有一半是黑色的）。

以此类推，前面所有的输入都对未来的输出产生了影响，大家可以看到圆形隐藏层中包含了前面所有的颜色。如下图所示：

当我们判断意图的时候，只需要最后一层的输出“05”，如下图所示：

RNN 的缺点也比较明显

隐藏层中的颜色分布

通过上面的例子，我们已经发现，短期的记忆影响较大（如橙色区域），但是长期的记忆影响就很小（如黑色和绿色区域），这就是 RNN 存在的短期记忆问题。

RNN 有短期记忆问题，无法处理很长的输入序列
训练 RNN 需要投入极大的成本

由于 RNN 的短期记忆问题，后来又出现了基于 RNN 的优化算法，下面给大家简单介绍一下。

RNN 的优化算法

RNN 到 LSTM – 长短期记忆网络

RNN 是一种死板的逻辑，越晚的输入影响越大，越早的输入影响越小，且无法改变这个逻辑。

LSTM 做的最大的改变就是打破了这个死板的逻辑，而改用了一套灵活了逻辑——只保留重要的信息。

简单说就是：抓重点！

RNN的序列逻辑到LSTM的抓重点逻辑

举个例子，我们先快速的阅读下面这段话：

快速阅读这段话

当我们快速阅读完之后，可能只会记住下面几个重点：

划重点

LSTM 类似上面的划重点，他可以保留较长序列数据中的“重要信息”，忽略不重要的信息。这样就解决了 RNN 短期记忆的问题。

具体技术上的实现原理就不在这里展开了，感兴趣的可以看看 LSTM 的详细介绍《长短期记忆网络 – LSTM》

从 LSTM 到 GRU

Gated Recurrent Unit – GRU 是 LSTM 的一个变体。他保留了 LSTM 划重点，遗忘不重要信息的特点，在long-term 传播的时候也不会被丢失。

GRU 主要是在LSTM的模型上做了一些简化和调整

GRU 主要是在 LSTM 的模型上做了一些简化和调整，在训练数据集比较大的情况下可以节省很多时间。

RNN 的应用和使用场景

只要涉及到序列数据的处理问题，都可以使用到，NLP 就是一个典型的应用场景。

RNN的应用和使用场景

文本生成：类似上面的填空题，给出前后文，然后预测空格中的词是什么。

机器翻译：翻译工作也是典型的序列问题，词的顺序直接影响了翻译的结果。

语音识别：根据输入音频判断对应的文字是什么。

生成图像描述：类似看图说话，给一张图，能够描述出图片中的内容。这个往往是 RNN 和 CNN 的结合。

生成图像描述

视频标记：他将视频分解为图片，然后用图像描述来描述图片内容。

总结

RNN的独特价值在于：它能有效的处理序列数据。比如：文章内容、语音音频、股票价格走势…

之所以他能处理序列数据，是因为在序列中前面的输入也会影响到后面的输出，相当于有了“记忆功能”。但是 RNN 存在严重的短期记忆问题，长期的数据影响很小（哪怕他是重要的信息）。

于是基于 RNN 出现了 LSTM 和 GRU 等变种算法。这些变种算法主要有几个特点：

长期信息可以有效的保留
挑选重要信息保留，不重要的信息会选择“遗忘”

RNN 几个典型的应用如下：

文本生成
语音识别
机器翻译
生成图像描述
视频标记

百度百科+维基百科

百度百科版本

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接形成闭合回路的递归神经网络（recursive neural network）。

对循环神经网络的研究始于二十世纪80-90年代，并在二十一世纪初发展为重要的深度学习（deep learning）算法，其中双向循环神经网络（Bidirectional RNN, Bi-RNN）和长短期记忆网络（Long Short-Term Memory networks，LSTM）是常见的的循环神经网络。

循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此能以很高的效率对序列的非线性特征进行学习。循环神经网络在自然语言处理（Natural Language Processing, NLP），例如语音识别、语言建模、机器翻译等领域有重要应用，也被用于各类时间序列预报或与卷积神经网络（Convoutional Neural Network,CNN）相结合处理计算机视觉问题。

查看详情

维基百科版本

循环神经网络（RNN）是一类神经网络，其中节点之间的连接形成一个有向图沿着序列。这允许它展示时间序列的时间动态行为。与前馈神经网络不同，RNN可以使用其内部状态（存储器）来处理输入序列。这使它们适用于诸如未分段，连接手写识别或语音识别等任务。

术语“递归神经网络”被不加选择地用于指代具有类似一般结构的两大类网络，其中一个是有限脉冲而另一个是无限脉冲。两类网络都表现出时间动态行为。有限脉冲递归网络是一种有向无环图，可以展开并用严格的前馈神经网络代替，而无限脉冲循环网络是一种无法展开的有向循环图。

有限脉冲和无限脉冲周期性网络都可以具有额外的存储状态，并且存储可以由神经网络直接控制。如果存储包含时间延迟或具有反馈循环，则存储也可以由另一个网络或图表替换。这种受控状态称为门控状态或门控存储器，并且是长短期存储器网络（LSTM）和门控循环单元的一部分。

查看详情

扩展阅读

入门类文章（2）

如何理解RNN？（理论篇）

2种简单的方式缓解RNN的优化问题

实践类文章（1）

ACL 2018｜西北大学：RNN语言模型的重要训练数据抽样

卷积神经网络 – CNN

一文看懂卷积神经网络-CNN

卷积神经网络 – CNN 最擅长的就是图片的处理。它受到人类视觉神经系统的启发。

CNN 有2大特点：

能够有效的将大数据量的图片降维成小数据量

能够有效的保留图片特征，符合图片处理的原则

目前 CNN 已经得到了广泛的应用，比如：人脸识别、自动驾驶、美图秀秀、安防等很多领域。

CNN 解决了什么问题？

在 CNN 出现之前，图像对于人工智能来说是一个难题，有2个原因：

图像需要处理的数据量太大，导致成本很高，效率很低
图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高

下面就详细说明一下这2个问题：

需要处理的数据量太大

图像是由像素构成的，每个像素又是由颜色构成的。

图像是由像素构成的，每个像素又是由颜色构成的

现在随随便便一张图片都是 1000×1000 像素以上的，每个像素都有RGB 3个参数来表示颜色信息。

假如我们处理一张 1000×1000 像素的图片，我们就需要处理3百万个参数！

1000×1000×3=3,000,000

这么大量的数据处理起来是非常消耗资源的，而且这只是一张不算太大的图片！

卷积神经网络 – CNN 解决的第一个问题就是“将复杂问题简化”，把大量参数降维成少量参数，再做处理。

更重要的是：我们在大部分场景下，降维并不会影响结果。比如1000像素的图片缩小成200像素，并不影响肉眼认出来图片中是一只猫还是一只狗，机器也是如此。

保留图像特征

图片数字化的传统方式我们简化一下，就类似下图的过程：

图像简单数字化无法保留图像特征

假如有圆形是1，没有圆形是0，那么圆形的位置不同就会产生完全不同的数据表达。但是从视觉的角度来看，图像的内容（本质）并没有发生变化，只是位置发生了变化。

所以当我们移动图像中的物体，用传统的方式的得出来的参数会差异很大！这是不符合图像处理的要求的。

而 CNN 解决了这个问题，他用类似视觉的方式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。

那么卷积神经网络是如何实现的呢？在我们了解 CNN 原理之前，先来看看人类的视觉原理是什么？

人类的视觉原理

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。

1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和TorstenWiesel，以及 Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。下面是人脑进行人脸识别的一个示例：

人类视觉原理1

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

人类视觉原理2

我们可以看到，在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

那么我们可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？

答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

卷积神经网络-CNN 的基本原理

典型的 CNN 由3个部分构成：

卷积层
池化层
全连接层

如果简单来描述的话：

卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。

典型的 CNN 由3个部分构成

下面的原理解释为了通俗易懂，忽略了很多技术细节，如果大家对详细的原理感兴趣，可以看这个视频《卷积神经网络基础》。

卷积——提取特征

卷积层的运算过程如下图，用一个卷积核扫完整张图片：

这个过程我们可以理解为我们使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核，可以理解：我们认为这个图像上有6种底层纹理模式，也就是我们用6中基础模式就能描绘出一副图像。以下就是25种不同的卷积核的示例：

25种不同的卷积核

总结：卷积层的通过卷积核的过滤提取出图片中局部的特征，跟上面提到的人类视觉的特征提取类似。

池化层（下采样）——数据降维，避免过拟合

池化层简单说就是下采样，他可以大大降低数据的维度。其过程如下：

上图中，我们可以看到，原始图片是20×20的，我们对其进行下采样，采样窗口为10×10，最终将其下采样成为一个2×2大小的特征图。

之所以这么做的原因，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行下采样。

总结：池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。

全连接层——输出结果

这个部分就是最后一步了，经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。

经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。

全连接层

典型的 CNN 并非只是上面提到的3层结构，而是多层结构，例如 LeNet-5 的结构就如下图所示：

卷积层 – 池化层- 卷积层 – 池化层 – 卷积层 – 全连接层

在了解了 CNN 的基本原理后，我们重点说一下 CNN 的实际应用有哪些。

CNN 有哪些实际应用？

卷积神经网络 – CNN 很擅长处理图像。而视频是图像的叠加，所以同样擅长处理视频内容。下面给大家列一些比较成熟的应用：

图像分类、检索

图像分类是比较基础的应用，他可以节省大量的人工成本，将图像进行有效的分类。对于一些特定领域的图片，分类的准确率可以达到 95%+，已经算是一个可用性很高的应用了。

典型场景：图像搜索…

CNN应用-图像分类、检索

目标定位检测

可以在图像中定位目标，并确定目标的位置及大小。

典型场景：自动驾驶、安防、医疗…

CNN应用-目标

目标分割

简单理解就是一个像素级的分类。

他可以对前景和背景进行像素级的区分、再高级一点还可以识别出目标并且对目标进行分类。

典型场景：美图秀秀、视频后期加工、图像生成…

CNN应用-目标分割

人脸识别

人脸识别已经是一个非常普及的应用了，在很多领域都有广泛的应用。

典型场景：安防、金融、生活…

CNN应用-人脸识别

骨骼识别

骨骼识别是可以识别身体的关键骨骼，以及追踪骨骼的动作。

典型场景：安防、电影、图像视频生成、游戏…

CNN应用-骨骼识别

总结

今天我们介绍了 CNN 的价值、基本原理和应用场景，简单总结如下：

CNN 的价值：

能够将大数据量的图片有效的降维成小数据量(并不影响结果)
能够保留图片的特征，类似人类的视觉原理

CNN 的基本原理：

卷积层 – 主要作用是保留图片的特征
池化层 – 主要作用是把数据降维，可以有效的避免过拟合
全连接层 – 根据不同任务输出我们想要的结果

CNN 的实际应用：

图片分类、检索
目标定位检测
目标分割
人脸识别
骨骼识别

百度百科+维基百科

百度百科版本

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。由于卷积神经网络能够进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）” 。

对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络；在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被大量应用于计算机视觉、自然语言处理等领域。

查看详情

维基百科版本

在深度学习中，卷积神经网络（CNN或ConvNet）是一类深度神经网络，最常用于分析视觉图像。

CNN使用多层感知器的变体设计，需要最少的预处理。它们也被称为移位不变或空间不变人工神经网络（SIANN），基于它们的共享权重架构和平移不变性特征。卷积网络被启发由生物工艺在之间的连接图案的神经元类似于动物的组织视觉皮层。个体皮层神经元仅在被称为感受野的视野的受限区域中对刺激作出反应。不同神经元的感受野部分重叠，使得它们覆盖整个视野。

与其他图像分类算法相比，CNN使用相对较少的预处理。这意味着网络学习传统算法中手工设计的过滤器。这种与特征设计中的先前知识和人力的独立性是一个主要优点。

它们可用于图像和视频识别，推荐系统，图像分类，医学图像分析和自然语言处理。

查看详情

扩展阅读

开拓视野类文章（11）

干货|卷积有多少种？一文读懂深度学习中的各种卷积（2019-10）

卷积神经网络中十大拍案叫绝的操作（2019-9）

“多图”图解10大CNN架构（2019-7）

总结12大CNN主流模型架构设计思想（2019-6）

卷积神经网络中十大拍案叫绝的操作（2019-5）

CNN更新换代！性能提升算力减半，还即插即用(2019-4)

刷脸背后，卷积神经网络的数学原理原来是这样的(2019-4)

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？(2019-4)

微软亚洲研究院等提出CNN训练新方法RePr，准确率显著提升（2019-3）

基于深度CNN的肿瘤体细胞突变检测工具（2019-3）

7大类深度CNN架构创新综述

实践类文章（5）

运用计算图搭建卷积神经网络（CNN）（2019-7）

怎样设计最优的卷积神经网络架构？| NAS原理剖析（2019-7）

40行Python代码，实现卷积特征可视化

使用Python和Mask R-CNN自动寻找停车位，这是什么神操作？

CNN图像分类策略简单到出人意料！

受限玻尔兹曼机（Restricted Boltzmann machine | RBM）

百度百科版本

受限玻尔兹曼机（英语：restricted Boltzmann machine, RBM）是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴（Harmonium），但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后，受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同，受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。

查看详情

维基百科版本

受限波尔兹曼机（RBM）是一种生成随机的人工神经网络，可以学习的概率分布在其组输入。

RBM最初是由Paul Smolensky于1986年以Harmonium的名称发明的，并且在Geoffrey Hinton和合作者在2000年中期为他们发明快速学习算法之后突显出来。RBM已经在降维，分类，协同过滤，特征学习和主题建模中找到了应用。根据任务的不同，他们可以通过监督或无人监督的方式接受培训。

顾名思义，RBM是Boltzmann机器的变体，其限制是它们的神经元必须形成二分图：来自两组单元中的每一组的一对节点（通常称为“可见”和“隐藏”）单元）可以在它们之间具有对称连接; 并且组内的节点之间没有连接。相比之下，“不受限制的”Boltzmann机器可能在隐藏单元之间有连接。这种限制允许比一般类别的玻尔兹曼机器更有效的训练算法，特别是基于梯度的对比发散算法。

受限制的玻尔兹曼机器也可用于深度学习网络。特别地，深度置信网络可以通过“堆叠”RBM并且可选地通过梯度下降和反向传播来微调所得到的深度网络来形成。

查看详情

强化学习-Reinforcement learning | RL

强化学习是机器学习的一种学习方式，它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。

什么是强化学习？

强化学习并不是某一种特定的算法，而是一类算法的统称。

如果用来做对比的话，他跟监督学习，无监督学习是类似的，是一种统称的学习方式。

强化学习是机器学习的学习方法之一

强化学习算法的思路非常简单，以游戏为例，如果在游戏中采取某种策略可以取得较高的得分，那么就进一步“强化”这种策略，以期继续取得较好的结果。这种策略与日常生活中的各种“绩效奖励”非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

在 Flappy bird 这个游戏中，我们需要简单的点击操作来控制小鸟，躲过各种水管，飞的越远越好，因为飞的越远就能获得更高的积分奖励。

这就是一个典型的强化学习场景：

机器有一个明确的小鸟角色——代理
需要控制小鸟飞的更远——目标
整个游戏过程中需要躲避各种水管——环境
躲避水管的方法是让小鸟用力飞一下——行动
飞的越远，就会获得越多的积分——奖励

游戏是典型的强化学习场景

你会发现，强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。

强化学习的应用场景

强化学习目前还不够成熟，应用场景也比较局限。最大的应用场景就是游戏了。

游戏

强化学习在游戏领域应用最多

2016年：AlphaGo Master 击败李世石，使用强化学习的 AlphaGo Zero 仅花了40天时间，就击败了自己的前辈 AlphaGo Master。

《被科学家誉为“世界壮举”的AlphaGo Zero, 对普通人意味着什么？》

2019年1月25日：AlphaStar 在《星际争霸2》中以 10：1 击败了人类顶级职业玩家。

《星际争霸2人类1:10输给AI！DeepMind “AlphaStar”进化神速》

2019年4月13日：OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。

《2:0！Dota2世界冠军OG，被OpenAI按在地上摩擦》

机器人

机器人很像强化学习里的“代理”，在机器人领域，强化学习也可以发挥巨大的作用。

《机器人通过强化学习，可以实现像人一样的平衡控制》

《深度学习与强化学习相结合，谷歌训练机械臂的长期推理能力》

《伯克利强化学习新研究：机器人只用几分钟随机数据就能学会轨迹跟踪》

其他

强化学习在推荐系统，对话系统，教育培训，广告，金融等领域也有一些应用：

《强化学习与推荐系统的强强联合》

《基于深度强化学习的对话管理中的策略自适应》

《强化学习在业界的实际应用》

强化学习的主流算法

免模型学习（Model-Free） vs 有模型学习（Model-Based）

在介绍详细算法之前，我们先来了解一下强化学习算法的2大分类。这2个分类的重要差异是：智能体是否能完整了解或学习到所在环境的模型

有模型学习（Model-Based）对环境有提前的认知，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。

免模型学习（Model-Free）放弃了模型学习，在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。

主流的强化学习算法分类

免模型学习 – 策略优化（Policy Optimization）

这个系列的方法将策略显示表示为： $\pi_{\theta}(a|s)$ 。它们直接对性能目标 $J(\pi_{\theta})$ 进行梯度下降进行优化，或者间接地，对性能目标的局部近似函数进行优化。优化基本都是基于 同策略 的，也就是说每一步更新只会用最新的策略执行时采集到的数据。策略优化通常还包括学习出 $V_{\phi}(s)$ ，作为 $V^{\pi}(s)$ 的近似，该函数用于确定如何更新策略。

基于策略优化的方法举例：

A2C / A3C, 通过梯度下降直接最大化性能
PPO , 不直接通过最大化性能更新，而是最大化 目标估计 函数，这个函数是目标函数 $J(\pi_{\theta})$ 的近似估计。

免模型学习 – Q-Learning

这个系列的算法学习最优行动值函数的近似函数： $Q_{\theta}(s,a)$ 。它们通常使用基于贝尔曼方程的目标函数。优化过程属于 异策略 系列，这意味着每次更新可以使用任意时间点的训练数据，不管获取数据时智能体选择如何探索环境。对应的策略是通过 and $\pi^*$ 之间的联系得到的。智能体的行动由下面的式子给出：

$a(s) = \arg \max_a Q_{\theta}(s,a).$

基于 Q-Learning 的方法

DQN, 一个让深度强化学习得到发展的经典方法
以及 C51, 学习关于回报的分布函数，其期望是

有模型学习 – 纯规划

这种最基础的方法，从来不显示的表示策略，而是纯使用规划技术来选择行动，例如模型预测控制 (model-predictive control, MPC)。在模型预测控制中，智能体每次观察环境的时候，都会计算得到一个对于当前模型最优的规划，这里的规划指的是未来一个固定时间段内，智能体会采取的所有行动（通过学习值函数，规划算法可能会考虑到超出范围的未来奖励）。智能体先执行规划的第一个行动，然后立即舍弃规划的剩余部分。每次准备和环境进行互动时，它会计算出一个新的规划，从而避免执行小于规划范围的规划给出的行动。

MBMF 在一些深度强化学习的标准基准任务上，基于学习到的环境模型进行模型预测控制

有模型学习 – Expert Iteration

纯规划的后来之作，使用、学习策略的显示表示形式： $\pi_{\theta}(a|s)$ 。智能体在模型中应用了一种规划算法，类似蒙特卡洛树搜索(Monte Carlo Tree Search)，通过对当前策略进行采样生成规划的候选行为。这种算法得到的行动比策略本身生成的要好，所以相对于策略来说，它是“专家”。随后更新策略，以产生更类似于规划算法输出的行动。

ExIt 算法用这种算法训练深层神经网络来玩 Hex
AlphaZero 这种方法的另一个例子

除了免模型学习和有模型学习的分类外，强化学习还有其他几种分类方式：

基于概率 VS 基于价值
回合更新 VS 单步更新
在线学习 VS 离线学习

详细请查看《强化学习方法汇总》

百度百科和维基百科

百度百科版本

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

查看详情

维基百科版本

强化学习（RL）是机器学习的一个领域，涉及软件代理如何在环境中采取行动以最大化一些累积奖励的概念。该问题由于其一般性，在许多其他学科中得到研究，如博弈论，控制理论，运筹学，信息论，基于仿真的优化，多智能体系统，群智能，统计和遗传算法。。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。

查看详情

扩展阅读

入门类文章（5）

【强化学习】从强化学习基础概念开始（2019-6）

强化学习如何入门？看这篇文章就够了

强化学习通俗导论（一）：什么是强化学习

“教程”深度学习、强化学习进阶课程（YouTube视频，需要科学上网）

强化学习扫盲

实践类文章（4）

使用Python进行强化学习的编程方法(2019-4-3)

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化(2019-3-1)

一文了解强化学习的商业应用

深度解读AlphaGo Zero，教你训练一个“围棋高手”

开拓视野类文章（4）

强化学习在现实世界中的应用（2019-4-3）

谷歌新方法加速深度强化学习的训练过程（2019-3-27）

强化学习遭遇瓶颈！分层RL将成为突破的希望（2019-3-23）

好奇心驱动的强化学习（2018-10）（需要科学上网）

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

自编码器（Autoencoder）

百度百科版本

自编码，又称自编码器（autoencoder），是神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器（autoencoder）内部有一个隐藏层h，可以产生编码（code）表示输入。该网络可以看作由两部分组成：一个由函数h = f(x) 表示的编码器和一个生成重构的解码器r = g(h)。

查看详情

维基百科版本

自动编码器是一种类型的人工神经网络用于学习高效的数据值编码以无监督方式。自动编码器的目的是学习一组数据的表示（编码），通常用于降低维数。与缩小侧一起，学习重建侧，其中自动编码器尝试从缩减编码生成尽可能接近其原始输入的表示，因此其名称。

查看详情

前馈神经网络（Feedforward neural network）

百度百科版本

前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。研究从20世纪60年代开始，目前理论研究和实际应用达到了很高的水平。

查看详情

维基百科版本

前馈神经网络是一种人工神经网络，其中，所述节点之间的连接就不能形成循环。[1]因此，它与递归神经网络不同。

前馈神经网络是第一种也是最简单的人工神经网络设计。在该网络中，信息仅在一个方向上移动，从输入节点向前移动，通过隐藏节点（如果有的话）移动到输出节点。网络中没有循环或循环。

查看详情

模糊神经网络（Neuro-fuzzy | FNN）

百度百科版本

模糊神经网络就是模糊理论同神经网络相结合的产物，它汇集了神经网络与模糊理论的优点，集学习、联想、识别、信息处理于一体。

查看详情

维基百科版本

神经模糊杂交导致混合智能系统通过将模糊系统的类人推理风格与神经网络的学习和连接结构相结合来协同这两种技术。神经模糊杂交在文献中被广泛称为模糊神经网络（FNN）或神经模糊系统（NFS）。神经模糊系统（此后更常用的术语）通过使用模糊集和由一组IF-THEN模糊规则组成的语言模型，结合了类似人类的模糊系统推理方式。神经模糊系统的主要优势在于它们是通用逼近器，能够征求可解释的IF-THEN规则。

查看详情

自组织映射（Self-organization map | SOM）

百度百科版本

自组织神经网络SOM是基于无监督学习方法的神经网络的一种重要类型。自组织映射网络理论最早是由芬兰赫尔辛基理工大学Kohen于1981年提出的。此后，伴随着神经网络在20世纪80年代中后期的迅速发展，自组织映射理论及其应用也有了长足的进步。

查看详情

维基百科版本

自组织映射（SOM）或自组织特征映射（SOFM）是一种类型的人工神经网络（ANN），其使用已训练的无监督学习以产生低维（通常为二维），离散的表示训练样本的输入空间，称为地图，因此是一种减少维数的方法。自组织映射与其他人工神经网络不同，因为它们应用竞争学习而不是纠错学习（例如具有梯度下降的反向传播）），从某种意义上说，他们使用邻域函数来保留输入空间的拓扑属性。

这使得SOM 通过创建高维数据的低维视图（类似于多维缩放）对可视化非常有用。芬兰教授Teuvo Kohonen在20世纪80年代引入的人工神经网络有时被称为Kohonen地图或网络。Kohonen网是一种计算上方便的抽象，建立在20世纪70年代神经系统的生物模型上和形态发生模型可追溯到20世纪50年代的阿兰图灵。

查看详情

K均值聚类（k-means clustering）

K均值聚类的优缺点

优点

算法简单，容易实现；
算法速度很快；
对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常k<<n。这个算法通常局部收敛。
算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，且簇与簇之间区别明显时，聚类效果较好。

缺点

对数据类型要求较高，适合数值型数据；
可能收敛到局部最小值，在大规模数据上收敛较慢
分组的数目k是一个输入参数，不合适的k可能返回较差的结果。
对初值的簇心值敏感，对于不同的初始值，可能会导致不同的聚类结果；
不适合于发现非凸面形状的簇，或者大小差别很大的簇。
对于”噪声”和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。

百度百科版本

K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

查看详情

维基百科版本

ķ -means聚类是的方法的矢量量化，最初来自信号处理，即流行聚类分析在数据挖掘。ķ -means聚类的目的是划分 Ñ观测到 ķ其中每个观测属于簇群集与最近的平均值，作为原型群集的。这导致数据空间划分为 Voronoi单元。

问题在计算上很困难（NP难）; 然而，有效的启发式算法快速收敛到局部最优。这些通常是类似于最大期望算法为混合物的高斯分布经由通过两个采用的迭代细化方法k-均值和高斯混合模型。他们都使用集群中心来建模数据; 然而，k -means聚类倾向于找到具有可比空间范围的聚类，而期望最大化机制允许聚类具有不同的形状。

该算法与k最近邻分类器有松散的关系，这是一种流行的分类机器学习技术，由于名称的原因，它经常与k -means 混淆。应用1最近邻分类器，通过k -means 获得的聚类中心将新数据分类到现有聚类中。这被称为最近的质心分类器或Rocchio算法。

查看详情

反向传播算法（Backpropagation）

百度百科版本

BP算法(即反向传播算法)是在有导师指导下，适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。

查看详情

维基百科版本

反向传播是一种用于人工神经网络的方法，用于计算在网络中使用的权重的计算中所需的梯度。反向传播是“错误的向后传播”的简写，因为错误在输出端计算并在整个网络层中向后分布。它通常用于训练深度神经网络。

反向传播是将delta规则推广到多层前馈网络，通过使用链规则迭代计算每个层的梯度来实现。它与Gauss-Newton算法密切相关，是神经反向传播研究的一部分。

反向传播是一种称为自动微分的更通用技术的特例。在学习的情况下，反向传播通常使用的梯度下降优化算法通过计算来调节神经元的权重梯度的的损失函数。

查看详情

为什么需要 RNN ？独特价值是什么？

RNN 的基本原理

RNN 的优化算法

RNN 到 LSTM – 长短期记忆网络

从 LSTM 到 GRU

RNN 的应用和使用场景

总结

百度百科+维基百科

扩展阅读

CNN 解决了什么问题？

需要处理的数据量太大

保留图像特征

人类的视觉原理

卷积神经网络-CNN 的基本原理

卷积——提取特征

池化层（下采样）——数据降维，避免过拟合

全连接层——输出结果

CNN 有哪些实际应用？

总结

百度百科+维基百科

扩展阅读

百度百科版本

维基百科版本

什么是强化学习？

强化学习的应用场景

强化学习的主流算法

百度百科和维基百科

扩展阅读

百度百科版本

维基百科版本

百度百科版本

维基百科版本

百度百科版本

维基百科版本

百度百科版本

维基百科版本

K均值聚类的优缺点

百度百科版本

维基百科版本

百度百科版本

维基百科版本

关于 easyAI

热门标签

关注我们的公众号：easyai-tech