Author Archive

集成学习（Ensemble Learning）

在机器学习中，我们讲了很多不同的算法。那些算法都是单打独斗的英雄。而集成学习就是将这些英雄组成团队。实现“3 个臭皮匠顶个诸葛亮”的效果。

本文将介绍集成学习的 2 种主要思路：bagging、boosting。

什么是集成学习？

集成学习归属于机器学习，他是一种“训练思路”，并不是某种具体的方法或者算法。

现实生活中，大家都知道“人多力量大”，“3 个臭皮匠顶个诸葛亮”。而集成学习的核心思路就是“人多力量大”，它并没有创造出新的算法，而是把已有的算法进行结合，从而得到更好的效果。

集成学习会挑选一些简单的基础模型进行组装，组装这些基础模型的思路主要有 2 种方法：

bagging（bootstrap aggregating的缩写，也称作“套袋法”）
boosting

Bagging

bagging核心思路

Bagging 的核心思路是——民主。

Bagging 的思路是所有基础模型都一致对待，每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。

大部分情况下，经过 bagging 得到的结果方差（variance）更小。

bagging的具体过程

具体过程：

从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）
每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）
对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

举例：

在 bagging 的方法中，最广为熟知的就是随机森林了：bagging + 决策树 = 随机森林

《一文看懂决策树（3个步骤+3种典型算法+10个优缺点）》

《一文看懂随机森林（4个步骤+4种方式评测+10个优缺点）》

Boosting

boosting核心思路

Boosting 的核心思路是——挑选精英。

Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的，而是经过不停的考验和筛选来挑选出“精英”，然后给精英更多的投票权，表现不好的基础模型则给较少的投票权，然后综合所有人的投票得到最终结果。

大部分情况下，经过 boosting 得到的结果偏差（bias）更小。

boosting的具体过程

具体过程：

通过加法模型将基础模型进行线性的组合。
每一轮训练都提升那些错误率小的基础模型权重，同时减小错误率高的模型权重。
在每一轮改变训练数据的权值或概率分布，通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

举例：

在 boosting 的方法中，比较主流的有 Adaboost 和 Gradient boosting 。

《一文看懂 Adaboost 以及它的优缺点》

Bagging 和 Boosting 的4 点差别

Bagging和Boosting的4点差别

样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

差别部分内容转自《Bagging和Boosting 概念及区别》

百度百科和维基百科

百度百科版本

集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下，集成学习中的多个学习器都是同质的”弱学习器”。

查看详情

维基百科版本

在统计学和机器学习中，集合方法使用多种学习算法来获得比单独从任何组成学习算法获得的更好的预测性能。与统计力学中的统计集合（通常是无限的）不同，机器学习集合仅由一组具体的有限替代模型组成，但通常允许在这些替代模型中存在更灵活的结构。

查看详情

扩展阅读

【实践】5个集成学习最常用的方法

支持向量机 – Support Vector Machine | SVM

什么是支持向量机？

支持向量机可能是最流行和最受关注的机器学习算法之一。

超平面是分割输入变量空间的线。在SVM中，选择超平面以最佳地将输入变量空间中的点与它们的类（0级或1级）分开。在二维中，您可以将其视为一条线，并假设我们的所有输入点都可以被这条线完全分开。SVM学习算法找到导致超平面最好地分离类的系数。

超平面与最近数据点之间的距离称为边距。可以将两个类分开的最佳或最佳超平面是具有最大边距的线。只有这些点与定义超平面和分类器的构造有关。这些点称为支持向量。它们支持或定义超平面。实际上，优化算法用于找到使裕度最大化的系数的值。

SVM可能是最强大的开箱即用分类器之一，值得尝试使用您的数据集。

支持向量机的基础概念可以通过一个简单的例子来解释。让我们想象两个类别：红色和蓝色，我们的数据有两个特征：x 和 y。我们想要一个分类器，给定一对（x，y）坐标，输出仅限于红色或蓝色。我们将已标记的训练数据列在下图中：

支持向量机会接受这些数据点，并输出一个超平面（在二维的图中，就是一条线）以将两类分割开来。这条线就是判定边界：将红色和蓝色分割开。

但是，最好的超平面是什么样的？对于 SVM 来说，它是最大化两个类别边距的那种方式，换句话说：超平面（在本例中是一条线）对每个类别最近的元素距离最远。

这里有一个视频（视频地址）解释可以告诉你最佳的超平面是如何找到的。

SVM的优缺点

优点

可以解决高维问题，即大型特征空间；
解决小样本下机器学习问题；
能够处理非线性特征的相互作用；
无局部极小值问题；（相对于神经网络等算法）
无需依赖整个数据；
泛化能力比较强；

缺点

当观测样本很多时，效率并不是很高；
对非线性问题没有通用解决方案，有时候很难找到一个合适的核函数；
对于核函数的高维映射解释力不强，尤其是径向基函数；
常规SVM只支持二分类；
对缺失数据敏感；

百度百科版本

支持向量机(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

在机器学习中，支持向量机（SVM，还支持矢量网络）是与相关的学习算法有关的监督学习模型，可以分析数据，识别模式，用于分类和回归分析。

查看详情

维基百科版本

在机器学习中，支持向量机（SVM）是具有相关学习算法的监督学习模型，其分析用于分类和回归分析的数据。给定一组训练示例，每个示例标记为属于两个类别中的一个或另一个，SVM训练算法构建一个模型，将新示例分配给一个类别或另一个类别，使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点，映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间，并根据它们落在哪个边缘预测属于一个类别。

除了执行线性分类之外，SVM还可以使用所谓的内核技巧有效地执行非线性分类，将其输入隐式映射到高维特征空间。

查看详情

扩展阅读

入门类文章（4）

如何优雅地读懂支持向量机SVM算法

从零推导支持向量机 (SVM)

详解支持向量机SVM：快速可靠的分类算法

学习SVM，这篇文章就够了！（附详细代码）

实践类文章（3）

用实验理解SVM的核函数和参数

svm核函数的理解和选择

对比图像分类五大方法：KNN、SVM、BPNN、CNN和迁移学习

决策树 – Decision tree

一文看懂决策树

决策树是一种逻辑简单的机器学习算法，它是一种树形结构，所以叫决策树。

本文将介绍决策树的基本概念、决策树学习的 3 个步骤、3 种典型的决策树算法、决策树的 10 个优缺点。

什么是决策树？

决策树是一种解决分类问题的算法，想要了解分类问题和回归问题，可以看这里《监督学习的2个任务：回归、分类》。

决策树算法采用树形结构，使用层层推理来实现最终的分类。决策树由下面几种元素构成：

根节点：包含样本的全集
内部节点：对应特征属性测试
叶节点：代表决策的结果

决策树的结构

预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果。

这是一种基于 if-then-else 规则的有监督学习算法，决策树的这些规则通过训练得到，而不是人工制定的。

决策树是最简单的机器学习算法，它易于实现，可解释性强，完全符合人类的直观思维，有着广泛的应用。

举个栗子：

上面的说法过于抽象，下面来看一个实际的例子。银行要用机器学习算法来确定是否给客户发放贷款，为此需要考察客户的年收入，是否有房产这两个指标。领导安排你实现这个算法，你想到了最简单的线性模型，很快就完成了这个任务。

首先判断客户的年收入指标。如果大于20万，可以贷款；否则继续判断。然后判断客户是否有房产。如果有房产，可以贷款；否则不能贷款。

这个例子的决策树如下图所示：

决策树解决是否贷款的案例

决策树学习的 3 个步骤

特征选择

特征选择决定了使用哪些特征来做判断。在训练数据集中，每个样本的属性可能有很多个，不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。

在特征选择中通常使用的准则是：信息增益。

决策树生成

选择好特征后，就从根节点触发，对节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。

决策树剪枝

剪枝的主要目的是对抗“过拟合”，通过主动去掉部分分支来降低过拟合的风险。

3 种典型的决策树算法

ID3 算法

ID3 是最早提出的决策树算法，他就是利用信息增益来选择特征的。

C4.5 算法

他是 ID3 的改进版，他不是直接使用信息增益，而是引入“信息增益比”指标作为特征的选择依据。

CART（Classification and Regression Tree）

这种算法即可以用于分类，也可以用于回归问题。CART 算法使用了基尼系数取代了信息熵模型。

决策树的优缺点

优点

决策树易于理解和解释，可以可视化分析，容易提取出规则；
可以同时处理标称型和数值型数据；
比较适合处理有缺失属性的样本；
能够处理不相关的特征；
测试数据集时，运行速度比较快；
在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

缺点

容易发生过拟合（随机森林可以很大程度上减少过拟合）；
容易忽略数据集中属性的相互关联；
对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好（典型代表ID3算法），而增益率准则（CART）则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则）（只要是使用了信息增益，都有这个缺点，如RF）。
ID3算法计算信息增益时结果偏向数值比较多的特征。

百度百科版本

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

查看详情

维基百科版本

决策树学习使用决策树（作为预测模型）从关于项目（在分支中表示）的观察到关于项目的目标值（在叶子中表示）的结论。它是统计，数据挖掘和机器学习中使用的预测建模方法之一。目标变量可以采用一组离散值的树模型称为分类树 ; 在这些树结构中，叶子代表类标签，分支代表连词导致这些类标签的功能。目标变量可以采用连续值（通常是实数）的决策树称为回归树。

查看详情

扩展阅读

入门类文章（3）

文科生也能看懂的机器学习教程2：决策树和随机森林

新手不可不知的决策树教程

AI 从业者必须了解的决策树指南

决策树基本概念及算法优缺点

实践类文章（1）

“超详细”机器学习实战之——决策树

逻辑回归 – Logistic regression

本文将通俗易懂的介绍逻辑回归的基本概念、优缺点和实际应用的案例。同时会跟线性回归做一些比较，让大家能够有效的区分 2 种不同的算法。

什么是逻辑回归？

逻辑回归在机器学习中的位置

线性回归的位置如上图所示，它属于机器学习 – 监督学习 – 分类 – 逻辑回归。

扩展阅读：

《一文看懂机器学习！（3种学习方法+7个实操步骤+15种常见算法）》

《一文看懂监督学习（基本概念+4步流程+9个典型算法）》

逻辑回归（Logistic Regression）主要解决二分类问题，用来表示某件事情发生的可能性。

什么是逻辑回归

比如：

一封邮件是垃圾邮件的可能性（是、不是）
你购买一件商品的可能性（买、不买）
广告被点击的可能性（点、不点）

逻辑回归的优缺点

优点：

实现简单，广泛的应用于工业问题上；
分类时计算量非常小，速度很快，存储资源低；
便利的观测样本概率分数；
对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决该问题；
计算代价不高，易于理解和实现；

缺点：

当特征空间很大时，逻辑回归的性能不是很好；
容易欠拟合，一般准确度不太高
不能很好地处理大量多类特征或变量；
只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；
对于非线性特征，需要进行转换；

逻辑回归 VS 线性回归

线性回归和逻辑回归是 2 种经典的算法。经常被拿来做比较，下面整理了一些两者的区别：

线性回归和逻辑回归的区别

线性回归只能用于回归问题，逻辑回归虽然名字叫回归，但是更多用于分类问题（关于回归和分类的区别可以看看这篇文章《一文看懂监督学习（基本概念+4步流程+9个典型算法）》）
线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是离散的变量
线性回归要求自变量和因变量呈线性关系，而逻辑回归不要求自变量和因变量呈线性关系
线性回归可以直观的表达自变量和因变量之间的关系，逻辑回归则无法表达变量之间的关系

注：

自变量：主动操作的变量，可以看做“因变量”的原因

因变量：因为“自变量”的变化而变化，可以看做“自变量”的结果。也是我们想要预测的结果。

自变量、因变量的解释

美团的应用案例

美团会把逻辑回归应用到业务中解决一些实际问题。这里以预测用户对品类的购买偏好为例，该问题可以转换为预测用户在未来某个时间段是否会购买某个品类，如果把会购买标记为1，不会购买标记为0，就转换为一个二分类问题。我们用到的特征包括用户在美团的浏览，购买等历史信息，见下表：

美团应用逻辑回归的案例

其中提取的特征的时间跨度为30天，标签为2天。生成的训练数据大约在7000万量级（美团一个月有过行为的用户），我们人工把相似的小品类聚合起来，最后有18个较为典型的品类集合。如果用户在给定的时间内购买某一品类集合，就作为正例。有了训练数据后，使用Spark版的LR算法对每个品类训练一个二分类模型，迭代次数设为100次的话模型训练需要40分钟左右，平均每个模型2分钟，测试集上的AUC也大多在0.8以上。训练好的模型会保存下来，用于预测在各个品类上的购买概率。预测的结果则会用于推荐等场景。

由于不同品类之间正负例分布不同，有些品类正负例分布很不均衡，我们还尝试了不同的采样方法，最终目标是提高下单率等线上指标。经过一些参数调优，品类偏好特征为推荐和排序带来了超过1%的下单率提升。

此外，由于LR模型的简单高效，易于实现，可以为后续模型优化提供一个不错的baseline，我们在排序等服务中也使用了LR模型。

百度百科+维基百科

百度百科版本

逻辑回归是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。

以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

查看详情

维基百科版本

在统计学中，逻辑模型是一种广泛使用的统计模型，在其基本形式中，使用逻辑函数来模拟二进制因变量 ; 存在更复杂的扩展。在回归分析中，逻辑回归是估计逻辑模型的参数; 它是二项式回归的一种形式。

在数学上，二元逻辑模型具有一个具有两个可能值的因变量，例如通过/失败，赢/输，活/死或健康/生病; 这些由指示符变量表示，其中两个值标记为“0”和“1”。在逻辑模型中，对数比值（在对数的的可能性），用于标记为“1”的值是一个线性组合的一个或多个自变量（“预测”）; 自变量可以是二进制变量（两个类，由指示符变量编码）或连续变量（任何实际值）。

查看详情

朴素贝叶斯 – Naive Bayes classifier | NBC

什么是朴素贝叶斯？

朴素贝叶斯是一种简单但令人惊讶的强大的预测建模算法。

该模型由两种类型的概率组成，可以直接根据您的训练数据计算：

每个班级的概率
给出每个x值的每个类的条件概率。

一旦计算，概率模型可用于使用贝叶斯定理对新数据进行预测。当您的数据是实值时，通常假设高斯分布（钟形曲线），以便您可以轻松估计这些概率。

朴素贝叶斯定理

朴素贝叶斯被称为朴素，因为它假设每个输入变量是独立的。这是一个强有力的假设，对于实际数据是不现实的，然而，该技术对于大范围的复杂问题非常有效。

朴素贝叶斯的优缺点

优点：

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。
对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集，针对每个项目通常也只会有相对较少的特征数，并且对项目的训练和分类也仅仅是特征概率的数学运算而已；
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练（即可以实时的对新增的样本进行训练）；
对缺失数据不太敏感，算法也比较简单，常用于文本分类；
朴素贝叶斯对结果解释容易理解。

缺点：

需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感；
由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。

百度百科版本

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。

和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

查看详情

维基百科版本

在机器学习中，朴素贝叶斯分类器是一系列简单的“ 概率分类器 ”，它基于贝叶斯定理应用特征之间的强（天真）独立假设。

自20世纪50年代以来，朴素贝叶斯就被广泛研究过。它在20世纪60年代早期以不同的名称引入文本检索社区，并且仍然是文本分类的流行（基线）方法，即将文档判断为属于一个类别或另一个类别的问题（例如垃圾邮件或合法，体育或政治等）以词频为特征。通过适当的预处理，它在这个领域具有更高级的方法，包括支持向量机，具有竞争力。它也适用于自动医疗诊断。

朴素贝叶斯分类器具有高度可扩展性，在学习问题中需要多个变量（特征/预测器）数量的线性参数。最大似然的训练可以通过评估来完成闭合形式的表达，这需要线性时间，而不是由昂贵的迭代逼近作为用于许多其它类型的分类器。

在统计学和计算机科学文献中，朴素的贝叶斯模型以各种名称而闻名，包括简单的贝叶斯和独立贝叶斯。所有这些名称都引用了贝叶斯定理在分类器决策规则中的使用，但朴素贝叶斯（必然）不是贝叶斯方法。

查看详情

扩展阅读

入门类文章（1）

橘子OR蓝莓？这个例子让你精通贝叶斯定理

线性回归 – linear regression

线性回归是很基础的机器学习算法，本文将通俗易懂的介绍线性回归的基本概念，优缺点，8 种方法的速度评测，还有和逻辑回归的比较。

什么是线性回归？

线性回归的位置

线性回归的位置如上图所示，它属于机器学习 – 监督学习 – 回归 – 线性回归。

扩展阅读：

《一文看懂机器学习！（3种学习方法+7个实操步骤+15种常见算法）》

《一文看懂监督学习（基本概念+4步流程+9个典型算法）》

什么是回归？

回归的目的是为了预测，比如预测明天的天气温度，预测股票的走势…

回归之所以能预测是因为他通过历史数据，摸透了“套路”，然后通过这个套路来预测未来的结果。

回归的底层逻辑

什么是线性？

“越…，越…”符合这种说法的就可能是线性个关系：

“房子”越大，“租金”就越高

“汉堡”买的越多，花的“钱”就越多

杯子里的“水”越多，“重量”就越大

……

但是并非所有“越…，越…”都是线性的，比如“充电越久，电量越高”，他就类似下面的非线性曲线：

充电时间和电量是非线性关系

线性关系不仅仅只能存在 2 个变量（二维平面）。3 个变量时（三维空间），线性关系就是一个平面，4 个变量时（四维空间），线性关系就是一个体。以此类推…

线性关系可以是多个变量

什么是线性回归？

线性回归本来是是统计学里的概念，现在经常被用在机器学习中。

如果 2 个或者多个变量之间存在“线性关系”，那么我们就可以通过历史数据，摸清变量之间的“套路”，建立一个有效的模型，来预测未来的变量结果。

通俗解释线性回归

线性回归的优缺点

优点：

建模速度快，不需要很复杂的计算，在数据量大的情况下依然运行速度很快。
可以根据系数给出每个变量的理解和解释

缺点：不能很好地拟合非线性数据。所以需要先判断变量之间是否是线性关系。

为什么在深度学习大杀四方的今天还使用线性回归呢？

一方面，线性回归所能够模拟的关系其实远不止线性关系。线性回归中的“线性”指的是系数的线性，而通过对特征的非线性变换，以及广义线性模型的推广，输出和特征之间的函数关系可以是高度非线性的。另一方面，也是更为重要的一点，线性模型的易解释性使得它在物理学、经济学、商学等领域中占据了难以取代的地位。

8 种Python线性回归的方法的速度评测

Scipy.polyfit( ) or numpy.polyfit( )
Stats.linregress( )
Optimize.curve_fit( )
numpy.linalg.lstsq
Statsmodels.OLS ( )
简单的乘法求矩阵的逆
首先计算x的Moore-Penrose广义伪逆矩阵，然后与y取点积
sklearn.linear_model.LinearRegression( )

8 种线性回归方法速度评测结果

结果：令人惊讶的是，与广泛被使用的scikit-learnlinear_model相比，简单矩阵的逆求解的方案反而更加快速。

详细评测可以查看原文《Data science with Python: 8 ways to do linear regression and measure their speed》

线性回归 VS 逻辑回归

线性回归和逻辑回归是 2 种经典的算法。经常被拿来做比较，下面整理了一些两者的区别：

线性回归和逻辑回归的区别

线性回归只能用于回归问题，逻辑回归虽然名字叫回归，但是更多用于分类问题（关于回归和分类的区别可以看看这篇文章《一文看懂监督学习（基本概念+4步流程+9个典型算法）》）
线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是离散的变量
线性回归要求自变量和因变量呈线性关系，而逻辑回归不要求自变量和因变量呈线性关系
线性回归可以直观的表达自变量和因变量之间的关系，逻辑回归则无法表达变量之间的关系

注：

自变量：主动操作的变量，可以看做“因变量”的原因

因变量：因为“自变量”的变化而变化，可以看做“自变量”的结果。也是我们想要预测的结果。

百度百科+维基百科

百度百科版本

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w’x+e，e为误差服从均值为0的正态分布。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

查看详情

维基百科版本

在统计学中，线性回归是一种线性方法，用于建模标量响应（或因变量）与一个或多个解释变量（或独立变量）之间的关系。一个解释变量的情况称为简单线性回归。对于多个解释变量，该过程称为多元线性回归。该术语不同于多元线性回归，其中预测了多个相关因变量，而不是单个标量变量。

在线性回归中，使用线性预测函数对关系进行建模，其中未知模型参数是根据数据估计的。这种模型称为线性模型。最常见的是，给定解释变量（或预测变量）的值的响应的条件均值被假定为这些值的仿射函数 ; 不太常见的是，使用条件中值或一些其他分位数。与所有形式的回归分析一样，线性回归侧重于条件概率分布给出预测变量值的响应，而不是所有这些变量的联合概率分布，这是多变量分析的领域。

查看详情

扩展阅读

用Python的Scikit-Learn库实现线性回归

机器学习算法_线性回归

通俗理解线性回归（一）

【转】五分钟解读“大数据”

小白也能快速看懂大数据

TPU（Tensor Processing Unit）

百度百科版本

TPU（Tensor Processing Unit）即张量处理单元，是一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能（每瓦计算能力）。

查看详情

维基百科版本

TPU是AI加速器应用特定的集成电路由显影（ASIC）谷歌用于特异性神经网络机器学习。

查看详情

扩展链接

入门类文章（3）

TPU 官方介绍——来自 Google（需要科学上网）

如何看待谷歌公开 tensorflow 专用处理器 TPU?

“视频”Google I/O ’18 大会上介绍 TPU 的部分（需要科学上网）

ASIC（Application Specific Integrated Circuit）

百度百科版版本

目前，在集成电路界ASIC被认为是一种为专门目的而设计的集成电路。是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求，ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。

查看详情

维基百科版本

应用专用集成电路（ASIC）是集成电路的定制用于特定用途，而不是旨在用于一般用途（IC）。例如，设计用于在数字录音机或高效比特币挖掘机中运行的芯片是ASIC。专用标准产品（ASSP）介于ASIC和7400系列或4000系列等行业标准集成电路之间。

随着功能尺寸的缩小和设计工具多年来的不断改进，ASIC中最大的复杂性（以及功能）已经从5,000个逻辑门增加到超过1亿个。现代的ASIC通常包括整个微处理器，存储器块，包括ROM，RAM，EEPROM，快闪存储器等大型构造块。这种ASIC通常被称为SoC（片上系统）。数字ASIC的设计者通常使用硬件描述语言（HDL）（例如Verilog或VHDL）来描述ASIC的功能。

现场可编程门阵列（FPGA）是现代技术，用于从标准部件构建面包板或原型; 可编程逻辑模块和可编程互连允许在许多不同的应用中使用相同的FPGA。对于较小的设计或较低的产量，FPGA可能比ASIC设计更具成本效益，即使在生产中也是如此。ASIC 的非经常性工程（NRE）成本可能达到数百万美元。因此，设备制造商通常更喜欢用于原型设计的 FPGA 和具有低产量的设备以及用于非常大的生产量的 ASIC，其中NRE成本可以在许多设备上摊销。

查看详情

扩展链接

开拓视野类文章（1）

FPGA vs. ASIC，谁将引领移动端人工智能潮流？

FPGA（Field－Programmable Gate Array）

百度百科版本

FPGA（Field－Programmable Gate Array），即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

查看详情

维基百科版本

现场可编程门阵列是集成电路设计成由客户或制造后设计者被配置-因此，术语“ 现场可编程 ”。FPGA配置通常使用硬件描述语言（HDL）来指定，类似于用于专用集成电路（ASIC）的语言。电路图以前用于指定配置，但由于电子设计自动化工具的出现，这种情况越来越少见。

Xilinx的Spartan FPGA包含一系列可编程逻辑块，以及允许块“连接在一起”的可重新配置互连层次，就像许多可以在不同配置中相互连接的逻辑门一样。逻辑块可以配置为执行复杂的组合功能，或仅仅是简单的逻辑门，如AND和XOR。在大多数FPGA中，逻辑块还包括存储器元件，其可以是简单的触发器或更完整的存储器块。许多FPGA可以重新编程以实现不同的逻辑功能，允许在计算机软件中执行灵活的可重新配置计算。

查看详情