首页> 青鸟动态> 大咖分享> 通过线性回归理解机器学习

通过线性回归理解机器学习

2022年12月21日 14:06供稿中心：北大青鸟总部

摘要： “模型是什么？机器学习算法和优化算法有什么区别？什么是损失函数？”

想必大家在入门学习机器学习的时候，总是去找各大论坛的入门扫盲贴，一开始只带着一个问题去看这篇帖子，看完之后突然有3个问题还没想明白，再咬牙去看了三篇帖子，最终问题数变成了9个。“我是谁？我在哪？我在干什么？”

“模型是什么？机器学习算法和优化算法有什么区别？什么是损失函数？”

上述这些问题你有在自己心里问过自己吗？今天小编将通过线性回归来全方位解答上述的这些问题，从而真正理解机器学习是什么以及它为什么要这么做。（文章中会涉及些许baby math，高能预警）

首先我们来回顾一下线性回归的基本思路，假设我们在二维平面当中随机分布着一些样本点，这些样本点直接存在一些关系和规律，线性回归所做的事情就是使用一根直线来描述概括了这些关系和规律。如图：

左图为我们已经有的样本点，这些样本点是一份房价数据，横坐标是房屋面积，纵坐标是房价。而右图比左图多出来的那条直线就是通过线性回归产生的一条直线，可以从肉眼中看到这条直线“差不多”描述了所有样本横纵坐标的关系和规律，这条直线就是线性回归的意义所在。

不要小看了这条直线，这个问题是一个最简单最基础也是最典型的一个机器学习问题，其中这条直线称为“机器学习模型”，得出这个模型的过程就称为机器学习。

接下来咱慢慢来讨论，这跟直线到底是如何确定的。为什么描述这些样本点规律的直线必须是这一根，而不是与他平行但向上平移0.0000000001的那一根？为什么不是向右旋转0.00000001度的那一根？就偏偏是图中所画的这一根，这一切都要从机器学习的过程说起。

首先我们的目的需要得到一个可以通过房屋面积来预测房价的这么一个模型，那么我们首先要根据已有的数据，来“总结经验”得出这个模型。“总结经验”的过程主要分为两步走：定义损失函数、最小化损失函数。

怎样来确定一个一条直线最能描述这些样本点之间的关系，我们可以通过得到最小距离来确定，最小距离直线就是如果有一条直线，所有样本点到它的距离之和最短，那么我就认为这条直线最能够描述这些样本点的关系，直线使用函数表示为 y = wx + b。因为我们今天讨论的是一元函数，通常多元函数的话，直线可以表示为：

这个公式表示图形中的那条直线，可以看出公式中唯一要求的值就是θ。现在直线方程已经写好，怎样去求出这条最小距离直线呢？我们可以列出损失函数，如下：

其中hθ(x^(i))代表每个样本通过我们模型的预测值，y^(i)代表每个样本标签的真实值。损失函数表明了预测的点到真实点之间的距离之和，如果我们将损失函数最小化就得到了最小距离直线。

我们将所有的样本点，依次带入公式1和2中，最终可以得到一个关于θ的二次方程。举个栗子，我有三个样本点(1,2),(2,3),(3,4)，首先将第一个样本点代入公式，x的值代入到公式1此时得到hθ(x) = θ，y的值代入到公式2此时得到(θ-2)^2，同理将第二个样本点代入得到(2θ-3)^2。最终再将它们相加。所以我们会得到一个关于θ的二次函数，二次函数优化到最小，就是一个二次函数求极值的问题，只需要对θ求导令导数等于0即可求出最终θ的值，而将θ的确切值代入公式1中，就得到了最终的机器学习模型。优化求解方法如下公式：

通过线性回归的讲解总结一下：

1.机器学习模型就是通过已有样本点，通过特定的机器学习算法来学习总结样本中的“经验”，得到一个可以归纳样本关系的一个模型，使用该模型可以达到通过x值来预测y的效果，也就是线性回归中的那条直线。

2.机器学习算法与优化算法的区别：机器学习算法包含了整个机器学习过程，如线性回归中，公式 1、2、3都同属于机器学习算法，而优化算法仅仅指的是优化最小化损失函数过程中使用的算法，线性回归中我们使用的是令导数等于零（最小二乘法），实际常用的优化算法还有：梯度下降算法、牛顿法等。

3.损失函数就是构建机器学习求解过程的函数，最小化损失函数是构建机器学习模型的依据，就如线性回归当中，为什么我们得出的直线就单单是那一条？因为我们有充足的“理由”来说服自己，如果存在一条直线，所有的样本点到它的距离之和最小，那么我当然可以认为这条直线就是最能够描述这些样本点关系的直线。那么将这个问题数学抽象化，就能够写出公式二这个损失函数，最终我们将这个损失函数优化到最小得出机器学习模型。

标签: 机器学习