什么是线性回归算法

线性回归可能是统计学和机器学习中最知名且易于理解的算法之一。

预测建模主要关注最小化模型的误差或使可能性最准确的预测,但代价是可解释性。我们将借用,重用和窃取来自许多不同领域的算法,包括统计数据并将其用于这些目的。

线性回归的表示是通过查找称为系数(B)的输入变量的特定权重来描述最符合输入变量(x)和输出变量(y)之间关系的线的等式。

线性回归算法
线性回归算法

我们将在给定输入x的情况下预测y,并且线性回归学习算法的目标是找到系数B0和B1的值。

可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘和梯度下降优化的线性代数解。

线性回归已经存在了200多年,并且已经被广泛研究。使用此技术时,一些好的经验法则是删除非常相似(相关)的变量,并尽可能消除数据中的噪音。这是一种快速而简单的技术和良好的第一种算法。

 

百度百科版本

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

查看详情

 

维基百科版本

在统计学中,线性回归是一种线性方法,用于建模标量响应(或因变量)与一个或多个解释变量(或独立变量)之间的关系。一个解释变量的情况称为简单线性回归。对于多个解释变量,该过程称为多元线性回归。该术语不同于多元线性回归,其中预测了多个相关因变量,而不是单个标量变量。

在线性回归中,使用线性预测函数对关系进行建模,其中未知模型参数是根据数据估计的。这种模型称为线性模型。最常见的是,给定解释变量(或预测变量)的值的响应的条件均值被假定为这些值的仿射函数 ; 不太常见的是,使用条件中值或一些其他分位数。与所有形式的回归分析一样,线性回归侧重于条件概率分布给出预测变量值的响应,而不是所有这些变量的联合概率分布,这是多变量分析的领域。

查看详情