量化机器学习系列分享（三）逻辑回归与优化方法

由dontbelazy创建，最终由dontbelazy更新于2024-04-28 15:50 被浏览 10 用户

1. 逻辑回归

分类问题的标签是离散型的变量，我们的目的是用特征，来预测标签归属于几个类别当中的某一种

本次分享我们主要讨论二分类问题

对于二分类问题，我们需要把定性的类别，转换为定量的数字，来让计算机理解类别的概念

对于机器学习来说，计算机并不是直接预测标签是0还是1是

得到了标签为1的概率和标签为0的概率以后，我们只是得到了概率而已，那么标签到底是1还是0呢

线性回归用于回归问题时，Y是一个连续型变量，取值可以是Y定义域上的任何值，表达式与拟合图像（只有一个特征）为：

如果直接用线性回归去解决分类问题，Y是一个离散型变量，取值只能是0或1，表达式与拟合图像（只有一个特征）为：

可以看出，在分类问题上，线性回归有以下的一些问题

线性回归预测出来的，标签为1的概率（P(Y=1|X)，第二张图里的斜向上的蓝线）是可能大于1或小于0的，这对于概率来说是无意义的
线性回归是容易收到极端值的影响的，可以想象一下，如果在第二张图里，有一个数据的位置在很右上角的位置（X很大，Y为1），那么蓝色的拟合线就会因为它而很大程度向右偏移

因此我们需要对线性回归模型，进行改进，以解决这两个问题，让线性回归更适合分类问题

逻辑回归（Logistic Regression），是将线性回归表达式的右半边，套在一个逻辑函数（Logistic Function）里，从而去预测P(Y=1|X)，其表达式和拟合图像为

可以看出，逻辑回归可以解决，线性回归在分类问题上的两个问题

回顾一下线性回归的参数估计，我们要想在线性回归中将beta估计出来，我们的优化目标是最小化MSE，说白了是找到能让MSE取最小的beta：

要想找到能让MSE取最小的beta，其实方法很简单，就和我们中学时候学的求函数最小值的方法一样，求导等于0后解方程，所以beta其实就是这么解出来的

在逻辑回归中，我们的最优化目标是最小化交叉熵（Cross Entropy）

我们以同样的思路去求beta

假如给你这样一道中学时候学的开口向上的二次函数f(x) = x^2 - x - 2，让你求解，在x等于多少的时候函数取得最小值，我们还记得公式x=-2a/b=0.5时取得最小

但是如果说，我们不知道解方程的方法，而用一种”一步一步慢慢试”的方法，想把这个解试出来的话，梯度下降法与牛顿拉弗森法就提供了这样的两种思路

梯度下降法的思路是：

我们可以随机从一点开始试，比方说我们先随便猜一个x=3，
猜完之后我们也不确定x=3时，f(x)是不是取得最小
接着我们可以看看两边的值是不是更小，其实并不用左右两边的值都看，因为我们可以对函数求一个导数，此处的导数为正的话，一定是左边小右边大的，所以我们试一试左边就好了
我们先往左走1的步长到x=2，然后同理看一看左边的值会不会更小，更小的话就再往左走一步
我们再往左走1的步长到x=1，然后同理看一看左边的值会不会更小，更小的话就再往左走一步
我们再往左走，但是这时候的步长就要小一些了，因为此时的坡度很缓了，更可能接近我们想要的最小值了，所以要谨慎一点慢慢走，比方说我们往左0.1的步长到x=0.9
当我们从x=0.9开始往左一点一点走的时候，0.8, 0.7, 0.6…我们可以计算出对应的f(x)值为-2.09, -2.16, -2.21, -2.24，我们发现f(x)的变化越来越小了，那么我们就不想接着尝试了，到0.6就停止了

梯度下降法的公式为：