Author Archive

Latent Dirichlet Allocation|LDA

网络转载版本

要描述 LDA 模型,就要说一下 LDA 模型所属的产生式模型的背景。产生式模型是相对于判别式模型而说的。这里,我们假设需要建模的数据有特征信息,也就是通常说的 X,以及标签信息,也就是通常所说的 Y。

判别式模型常常直接对 Y 的产生过程(Generative Process) 进行描述,而对特征信息本身不予建模。这使得判别式模型天生就成为构建分类器或者回归分析的有利工具。而产生式模型则要同时对 X 和 Y 建模,这使得产生式模型更适合做无标签的数据分析,比如聚类。当然,因为产生式模型要对比较多的信息进行建模,所以一般认为对于同一个数据而言,产生式模型要比判别式模型更难以学习。

一般来说,产生式模型希望通过一个产生过程来帮助读者理解一个模型。注意,这个产生过程本质是描述一个联合概率分布(Joint Distribution)的分解过程。也就是说,这个过程是一个虚拟过程,真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假设,一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。

LDA 的产生过程描述了文档以及文档中文字的生成过程。在原始的 LDA 论文中,作者们描述了对于每一个文档而言有这么一种生成过程:

  1. 首先,从一个全局的泊松(Poisson)参数为β的分布中生成一个文档的长度 N;
  2. 从一个全局的狄利克雷(Dirichlet)参数为α的分布中生成一个当前文档的θ;
  3. 然后对于当前文档长度 N 的每一个字执行以下两步,一是从以θ为参数的多项(Multinomial)分布中生成一个主题(Topic)的下标(Index)z_n;二是从以φ和 z 共同为参数的多项分布中产生一个字(Word)w_n。

从这个描述我们可以马上得到这些重要的模型信息。第一,我们有一个维度是 K 乘以 V 的主题矩阵(Topic Matrix)。其中每一行都是一个φ,也就是某一个生成字的多项分布。当然,这个主题矩阵我们在事先并不知道,是需要学习得到的。另外,对每一个文档而言,θ是一个长度为 K 的向量,用于描述当前文档在 K 个主题上的分布。产生过程告诉我们,我们对于文档中的每一个字,都先从这个θ向量中产生一个下标,用于告诉我们现在要从主题矩阵中的哪一行去生成当前的字。

上面内容转自《AI技术内参》,是一个很不错的付费教程,推荐大家订阅。

 

百度百科版本

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

查看详情

 

维基百科版本

在自然语言处理中,潜在Dirichlet分配(LDA)是一种生成统计模型,它允许未观察到的组解释观察集,解释为什么数据的某些部分是相似的。例如,如果观察是收集到文档中的单词,则假定每个文档是少量主题的混合,并且每个单词的存在可归因于文档的主题之一。LDA是主题模型的示例。

查看详情

语音识别技术 – ASR丨Automatic Speech Recognition

一文看懂语音识别

语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问。

 

语音识别技术(ASR)是什么?

机器要与人实现对话,那就需要实现三步:

机器要与人对话,需要实现3步

对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。

语音识别的使用场景

语音识别已经成为了一种很常见的技术,大家在日常生活中经常会用到:

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别
  • 微信里有一个功能是”文字语音转文字”,也利用了语音识别
  • 最近流行的智能音箱就是以语音识别为核心的产品
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别

 

语音识别技术讲解

语音识别技术拆分下来,主要可分为“输入——编码——解码——输出 ”4个流程。

语音识别4个流程:输入-编码-解码-输出

那语音识别是怎么工作的呢?

首先声音的本身是一种波,就像我们常常用一段段波形来表示音频一样。  我们常用波段来表示音频

接下来按步骤:

  1. 给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息
  2. 将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程)
  3. 再将状态组合形成音素(通常3个状态=1个音素)
  4. 最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。 将音素组成字词

 

百度百科和维基百科

百度百科版本

语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

查看详情

维基百科版本

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

查看详情

 

如何评估模型的好坏

如何比较我们已经构建的模型呢? 若要在模型A和模型B之间做比较,哪个是赢家,为什么? 又或者,能否将两个模型组合起来以实现性能的最优化?

张量 | Tensor

一文看懂张量tensor

什么是张量

张量有很多种定义的方式,这里只讨论人工智能领域里的概念。

在人工智能领域,定义比较简单,TensorFlow是这么定义的:

A tensor is a generalization of vectors and matrices to potentially higher dimensions.

简单翻译过来就是:张量是多维数组,目的是把向量、矩阵推向更高的维度。

 

标量、向量、矩阵、张量的关系

这4个概念是维度不断上升的,我们用点线面体的概念来比喻解释会更加容易理解:

  • 点——标量(scalar
  • 线——向量(vector
  • 面——矩阵(matrix
  • 体——张量(tensor)

标量、向量、矩阵、张量的关系

感兴趣的可以通过下面的内容了解详情:

一文看懂标量

一文看懂向量

一文看懂矩阵

一文看懂张量

 

百度百科和维基百科

百度百科版本

张量(tensor)理论是数学的一个分支学科,在力学中有重要应用。张量这一术语起源于力学,它最初是用来表示弹性介质中各点应力状态的,后来张量理论发展成为力学和物理学的一个有力的数学工具。张量之所以重要,在于它可以满足一切物理定律必须与坐标系的选择无关的特性。张量概念是矢量概念的推广,矢量是一阶张量。张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

查看详情

维基百科版本

在数学中,张量是一种几何对象,它以多线性方式将几何向量,标量和其他张量映射到结果张量。因此,通常在基础物理和工程应用中已经使用的矢量和标量本身被认为是最简单的张量。另外,来自提供几何矢量的矢量空间的双空间的矢量也被包括作为张量。在这种情况下,几何学主要是为了强调任何坐标系选择的独立性。

查看详情

Transformer

想要了解更多 NLP 相关的内容,请访问  NLP专题 ,免费提供59页的NLP文档下载。

访问 NLP 专题,下载 59 页免费 PDF

什么是 Transformer(知乎版本)?

transformer结构图

如上图所示,咋一看,Transformer 的架构是不是有点复杂。。。没事,下面慢慢讲。。。

和经典的 seq2seq 模型一样,Transformer 模型中也采用了 encoer-decoder 架构。上图的左半边用 NX 框出来的,就代表一层 encoder,其中论文里面的 encoder 一共有6层这样的结构。上图的右半边用 NX 框出来的,则代表一层 decoder,同样也有6层。

定义输入序列首先经过 word embedding,再和 positional encoding 相加后,输入到 encoder 中。输出序列经过的处理和输入序列一样,然后输入到 decoder。

最后,decoder 的输出经过一个线性层,再接 Softmax。

于上便是 Transformer 的整体框架,下面先来介绍 encoder 和 decoder。

原文地址

 

什么是 Transformer(微软研究院笨笨)?

Transformer在2017年由Google在题为《Attention Is All You Need》的论文中提出。Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。

在 Transformer 出现之前,基于神经网络的机器翻译模型多数都采用了 RNN的模型架构,它们依靠循环功能进行有序的序列操作。虽然 RNN 架构有较强的序列建模能力,但是存在训练速度慢,训练质量低等问题。

与基于 RNN 的方法不同,Transformer 模型中没有循环结构,而是把序列中的所有单词或者符号并行处理,同时借助自注意力机制对句子中所有单词之间的关系直接进行建模,而无需考虑各自的位置。具体而言,如果要计算给定单词的下一个表征,Transformer 会将该单词与句子中的其它单词一一对比,并得出这些单词的注意力分数。注意力分数决定其它单词对给定词汇的语义影响。之后,注意力分数用作所有单词表征的平均权重,这些表征输入全连接网络,生成新表征。

由于 Transformer 并行处理所有的词,以及每个单词都可以在多个处理步骤内与其它单词之间产生联系,它的训练速度比 RNN 模型更快,在翻译任务中的表现也比 RNN 模型更好。除了计算性能和更高的准确度,Transformer 另一个亮点是可以对网络关注的句子部分进行可视化,尤其是在处理或翻译一个给定词时,因此可以深入了解信息是如何通过网络传播的。

之后,Google的研究人员们又对标准的 Transformer 模型进行了拓展,采用了一种新型的、注重效率的时间并行循环结构,让它具有通用计算能力,并在更多任务中取得了更好的结果。

改进的模型(Universal Transformer)在保留Transformer 模型原有并行结构的基础上,把 Transformer 一组几个各异的固定的变换函数替换成了一组由单个的、时间并行的循环变换函数构成的结构。相比于 RNN一个符号接着一个符号从左至右依次处理序列,Universal Transformer 和 Transformer 能够一次同时处理所有的符号,但 Universal Transformer 接下来会根据自注意力机制对每个符号的解释做数次并行的循环处理修饰。Universal Transformer 中时间并行的循环机制不仅比 RNN 中使用的串行循环速度更快,也让 Universal Transformer 比标准的前馈 Transformer 更加强大。

上面内容转载在公众号 微软研究院AI头条,原文地址

 

无监督学习 – Unsupervised learning | UL

一文看懂无监督学习

无监督学习是机器学习领域内的一种学习方式。本文将给大家解释他的基本概念,告诉大家无监督学习可以用用到哪些具体场景中。

最后给大家举例说明2类无监督学习的思维:聚类、降维。以及具体的4种算法。

 

什么是无监督学习?

无监督学习是机器学习中的一种训练方式/学习方式

无监督学习是机器学习下的一个分支

下面通过跟监督学习的对比来理解无监督学习:

  1. 监督学习是一种目的明确的训练方式,你知道得到的是什么;而无监督学习则是没有明确目的的训练方式,你无法提前知道结果是什么
  2. 监督学习需要给数据打标签;而无监督学习不需要给数据打标签
  3. 监督学习由于目标明确,所以可以衡量效果;而无监督学习几乎无法量化效果如何

监督学习对比无监督学习

简单总结一下:

无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。

它主要具备3个特点:

  1. 无监督学习没有明确的目的
  2. 无监督学习不需要给数据打标签
  3. 无监督学习无法量化效果

这么解释很难理解,下面用一些具体案例来告诉大家无监督学习的一些实际应用场景,通过这些实际场景,大家就能了解无监督学习的价值。

 

无监督学习的使用场景

借助无监督学习发现异常数据

案例1:发现异常

有很多违法行为都需要”洗钱”,这些洗钱行为跟普通用户的行为是不一样的,到底哪里不一样?

如果通过人为去分析是一件成本很高很复杂的事情,我们可以通过这些行为的特征对用户进行分类,就更容易找到那些行为异常的用户,然后再深入分析他们的行为到底哪里不一样,是否属于违法洗钱的范畴。

通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类意味着什么,但是通过这种分类,可以快速排出正常的用户,更有针对性的对异常行为进行深入分析。

 

借助无监督学习细分用户

案例2:用户细分

这个对于广告平台很有意义,我们不仅把用户按照性别、年龄、地理位置等维度进行用户细分,还可以通过用户行为对用户进行分类。

通过很多维度的用户细分,广告投放可以更有针对性,效果也会更好。

 

借助无监督学习给用户做推荐

案例3:推荐系统

大家都听过”啤酒+尿不湿”的故事,这个故事就是根据用户的购买行为来推荐相关的商品的一个例子。

比如大家在淘宝、天猫、京东上逛的时候,总会根据你的浏览行为推荐一些相关的商品,有些商品就是无监督学习通过聚类来推荐出来的。系统会发现一些购买行为相似的用户,推荐这类用户最”喜欢”的商品。

 

常见的2类无监督学习算法

常见的2类算法是:聚类、降维

2种主流的无监督学习方式:聚类、降维

聚类:简单说就是一种自动分类的方法,在监督学习中,你很清楚每一个分类是什么,但是聚类则不是,你并不清楚聚类后的几个分类每个代表什么意思。

降维:降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。

 

“聚类算法”K均值聚类

K均值聚类就是制定分组的数量为K,自动进行分组。

K 均值聚类的步骤如下:

  1. 定义 K 个重心。一开始这些重心是随机的(也有一些更加有效的用于初始化重心的算法)
  2. 寻找最近的重心并且更新聚类分配。将每个数据点都分配给这 K 个聚类中的一个。每个数据点都被分配给离它们最近的重心的聚类。这里的“接近程度”的度量是一个超参数——通常是欧几里得距离(Euclidean distance)。
  3. 将重心移动到它们的聚类的中心。每个聚类的重心的新位置是通过计算该聚类中所有数据点的平均位置得到的。

重复第 2 和 3 步,直到每次迭代时重心的位置不再显著变化(即直到该算法收敛)。

其过程如下面的动图:

K均值聚类的过程

 

“聚类算法”层次聚类

如果你不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构。

层次聚类

层次聚类的步骤如下:

  1. 首先从 N 个聚类开始,每个数据点一个聚类。
  2. 将彼此靠得最近的两个聚类融合为一个。现在你有 N-1 个聚类。
  3. 重新计算这些聚类之间的距离。
  4. 重复第 2 和 3 步,直到你得到包含 N 个数据点的一个聚类。
  5. 选择一个聚类数量,然后在这个树状图中划一条水平线。

 

“降维算法”主成分分析 – PCA

主成分分析是把多指标转化为少数几个综合指标。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

变换的步骤:

  1. 第一步计算矩阵 X 的样本的协方差矩阵 S(此为不标准PCA,标准PCA计算相关系数矩阵C)
  2. 第二步计算协方差矩阵S(或C)的特征向量 e1,e2,…,eN和特征值 , t = 1,2,…,N
  3. 第三步投影数据到特征向量张成的空间之中。利用下面公式,其中BV值是原样本中对应维度的值。 主成分分析公式

 

“降维算法”奇异值分解 – SVD

奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。

了解更多奇异值分解的信息,可以查看维基百科

 

生成模型和GAN

无监督学习的最简单目标是训练算法生成自己的数据实例,但是模型不应该简单地重现之前训练的数据,否则就是简单的记忆行为。

它必须是建立一个从数据中的基础类模型。不是生成特定的马或彩虹照片,而是生成马和彩虹的图片集;不是来自特定发言者的特定话语,而是说出话语的一般分布。

生成模型的指导原则是,能够构建一个令人信服的数据示例是理解它的最有力证据。正如物理学家理查德·费曼所说:“我不能创造的东西,我就不能了解”(What I cannot create, I do not understand.)。

对于图像来说,迄今为止最成功的生成模型是生成对抗网络(GAN)。它由两个网络组成:一个生成器和一个鉴别器,分别负责伪造图片和识别真假。

GAN生成的图像

生成器产生图像的目的是诱使鉴别者相信它们是真实的,同时,鉴别者会因为发现假图片而获得奖励。

GAN开始生成的图像是杂乱的和随机的,在许多次迭代中被细化,形成更加逼真的图像,甚至无法与真实照片区别开来。最近英伟达的GauGAN还能根据用户草图生成图片。

 

百度百科和维基百科

百度百科版本

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

查看详情

 

维基百科版本

无监督学习是机器学习的一个分支,它从未经标记,分类或分类的测试数据中学习。无监督学习不是响应反馈,而是根据每个新数据中是否存在这种共性来识别数据中的共性并做出反应。替代方案包括监督学习和强化学习。 无监督学习的中心的应用是在领域密度估计在统计,[1]虽然无监督学习包括许多涉及总结和解释数据的特征的其他结构域。

查看详情

 

扩展阅读

监督学习 – Supervised learning

什么是监督学习?

监督学习是机器学习中的一种训练方式/学习方式

监督学习需要有明确的目标,很清楚自己想要什么结果。比如:按照“既定规则”来分类、预测某个具体的值…

监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程:

  1. 选择一个适合目标任务的数学模型
  2. 先把一部分已知的“问题和答案”(训练集)给机器去学习
  3. 机器总结出了自己的“方法论”
  4. 人类把”新的问题”(测试集)给机器,让他去解答

上面提到的问题和答案只是一个比喻,假如我们想要完成文章分类的任务,则是下面的方式:

  1. 选择一个合适的数学模型
  2. 把一堆已经分好类的文章和他们的分类给机器
  3. 机器学会了分类的“方法论”
  4. 机器学会后,再丢给他一些新的文章(不带分类),让机器预测这些文章的分类

 

监督学习的2个任务:回归、分类

监督学习有2个主要的任务:

  1. 回归
  2. 分类

回归:预测连续的、具体的数值。比如:支付宝里的芝麻信用分数(下面有详细讲解)

分类:对各种事物分门别类,用于离散型(什么是离散?)预测。比如:

 

“回归”案例:芝麻信用分是怎么来的?

下面要说的是个人信用评估方法——FICO

他跟芝麻信用类似,用来评估个人的信用状况。FICO 评分系统得出的信用分数范围在300~850分之间,分数越高,说明信用风险越小。

下面我们来模拟一下 FICO 的发明过程,这个过程就是监督学习力的回归。

 

步骤1:构建问题,选择模型

我们首先找出个人信用的影响因素,从逻辑上讲一个人的体重跟他的信用应该没有关系,比如我们身边很讲信用的人,有胖子也有瘦子。

而财富总额貌似跟信用有关,因为马云不讲信用的损失是非常巨大的,所以大家从来没有听说马云会不还信用卡!而一个乞丐不讲信用的损失是很小的,这条街混不下去了换一条街继续。

所以根据判断,找出了下面5个影响因素:

  • 付款记录
  • 账户总金额
  • 信用记录跨度(自开户以来的信用记录、特定类型账户开户以来的信用记录…)
  • 新账户(近期开户数目、特定类型账户的开户比例…)
  • 信用类别(各种账户的数目)

这个时候,我们就构建了一个简单的模型:

f 可以简单理解为一个特定的公式,这个公式可以将5个因素跟个人信用分形成关联。

我们的目标就是得到 f 这个公式具体是什么,这样我们只要有了一个人的这5种数据,就可以得到一个人的信用分数了。

 

步骤2:收集已知数据

为了找出这个公式 f,我们需要先收集大量的已知数据,这些数据必须包含一个人的5种数据和他/她的信用状态(把信用状态转化为分数)。

我们把数据分成几个部分,一部分用来训练,一部分用来测试和验证。

 

步骤3:训练出理想模型

有了这些数据,我们通过机器学习,就能”猜测”出这5种数据和信用分数的关系。这个关系就是公式 f。

然后我们再用验证数据和测试数据来验证一下这个公式是否 OK。

测试验证的具体方法是:

  1. 将5种数据套入公式,计算出信用分
  2. 用计算出来的信用分跟这个人实际的信用分(预先准备好的)进行比较
  3. 评估公式的准确度,如果问题很大再进行调整优化

 

步骤4:对新用户进行预测

当我们想知道一个新用户的信用状况时,只需要收集到他的这5种数据,套进公式 f 计算一遍就知道结果了!

好了,上面就是一个跟大家息息相关的回归模型,大致思路就是上面所讲的思路,整个过程做了一些简化,如果想查看完整的过程,可以查看《机器学习-机器学习实操的7个步骤

 

“分类”案例:如何预测离婚

美国心理学家戈特曼博士用大数据还原婚姻关系的真相,他的方法就是分类的思路。

戈特曼博士在观察和聆听一对夫妻5分钟的谈话后,便能预测他们是否会离婚,且预测准确率高达94%!他的这项研究还出了一本书《幸福的婚姻》(豆瓣8.4分)。

 

步骤1:构建问题,选择模型

戈特曼提出,对话能反映出夫妻之间潜在的问题,他们在对话中的争吵、欢笑、调侃和情感表露创造了某种情感关联。通过这些对话中的情绪关联可以将夫妻分为不同的类型,代表不同的离婚概率。

 

步骤2:收集已知数据

研究人员邀请了700对夫妻参与实验。他们单独在一间屋子里相对坐下,然后谈论一个有争论的话题,比如金钱和性,或是与姻亲的关系。默里和戈特曼让每一对夫妻持续谈论这个话题15分钟,并拍摄下这个过程。观察者看完这些视频之后,就根据丈夫和妻子之间的谈话给他们打分。

 

步骤3:训练出理想模型

戈特曼的方法并不是用机器学习来得到结果,不过原理都是类似的。他得到的结论如下:

首先,他们将夫妻双方的分数标绘在一个图表上,两条线的交叉点就可以说明婚姻能否长久稳定。如果丈夫或妻子持续得负分,两人很可能会走向离婚。重点在于定量谈话中正负作用的比率。理想中的比率是5∶1,如果低于这个比例,婚姻就遇到问题了。最后,将结果放在一个数学模型上,这个模型用差分方程式凸显出成功婚姻的潜在特点。

戈特曼根据得分,将这些夫妻分成5组:

  1. 幸福的夫妻:冷静、亲密、相互扶持、关系友好。他们更喜欢分享经验。
  2. 无效的夫妻:他们尽最大努力避免冲突,只是通过积极回应对方的方式。
  3. 多变的夫妻:他们浪漫而热情,可争论异常激烈。他们时而稳定时而不稳定,可总的来说不怎么幸福。
  4. 敌对的夫妻:一方不想谈论某件事,另一方也同意,所以,两者之间没有交流。
  5. 彼此无感的夫妻:一方兴致勃勃地想要争论一番,可另一方对讨论的话题根本不感兴趣。

该数学模型呈现了两种稳定型夫妻(关系和谐的夫妻和关系不和谐的夫妻)和两种不稳定型夫妻(敌对夫妻和无感夫妻)之间的区别。而据预测,不稳定的夫妻可能会一直保持婚姻关系,尽管他们的婚姻不稳定。

 

步骤4:对新用户进行预测

12年以来,每隔一两年,默里和戈特曼都会与参与研究的那700对夫妻交流。两个人的公式对离婚率的预测达到了94%的准确率。

 

主流的监督学习算法

算法 类型 简介
朴素贝叶斯 分类 贝叶斯分类法是基于贝叶斯定定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率,来进行分类。朴素贝叶斯分类法假定一个属性值在给定类的影响独立于其他属性的 —— 类条件独立性。
决策树 分类 决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。
SVM 分类 支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。
逻辑回归 分类 逻辑回归是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。
线性回归 回归 线性回归是处理回归任务最常用的算法之一。该算法的形式十分简单,它期望使用一个超平面拟合数据集(只有两个变量的时候就是一条直线)。
回归树 回归 回归树(决策树的一种)通过将数据集重复分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。这种分支结构让回归树很自然地学习到非线性关系。
K邻近 分类+回归 通过搜索K个最相似的实例(邻居)的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测。
Adaboosting 分类+回归 Adaboost目的就是从训练数据中学习一系列的弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。
神经网络 分类+回归 它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。

 

 

百度百科和维基百科

百度百科版本

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

查看详情

维基百科版本

监督学习是学习函数的机器学习任务,该函数基于示例输入 – 输出对将输入映射到输出。它推断出一个函数标记的训练数据由一组训练样例组成。在监督学习,每个实施例是一个对由输入物体(通常为矢量)和期望的输出值的(也称为监控信号)。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例。最佳方案将允许算法正确地确定看不见的实例的类标签。这要求学习算法以“合理”的方式从训练数据推广到看不见的情况。

查看详情