线性回归输出为概率。
将线性回归输出作为概率使用是很诱人的,但这是一个错误,因为输出可以是负数,并且大于1,而概率不能。由于回归实际上可能 产生的概率可能小于0,甚至大于 1,因此引入了逻辑回归。
来源:http://gerardnico.com/wiki/data_mining/simple_logistic_regression
结果
在线性回归中,结果(因变量)是连续的。 它可以有无限多的可能值中的任何一个。
在逻辑回归中,结果(因变量)只有有限的几个可能值。
Logistic回归用于响应变量是分类性质的情况下。例如,是/否、真/假、红/绿/蓝、 第一/第二/第三/第四,等等。
当你的反应变量是连续的时候,就会使用线性回归。例如,体重、身高、小时数,等等。
方程
线性回归给出的方程形式为Y=mX+C、 表示方程的度数为1。
然而,逻辑回归给出的方程的形式是 Y = eX + e-X</sup>;
系数解释
在线性回归中,自变量的系数解释是非常直接的(即在所有其他变量不变的情况下,该变量增加一个单位,因变量预计会增加/减少xxx)。
然而,在逻辑回归中,取决于族(二项式、泊松式、 等)和链接(对数、对数、反对数等),其解释是不同的。
错误最小化技术
线性回归使用_普通最小二乘法来最小化误差,并得出最佳拟合。 误差最小化,并达到最佳拟合,而逻辑回归 使用_最大似然法来得出解决方案。
线性回归通常是通过最小化模型对数据的最小平方误差来解决的,因此大的误差会受到二次惩罚。
Logistic回归则正好相反。使用逻辑损失函数会使大误差被惩罚到一个渐近常数。
考虑对分类{0,1}结果的线性回归,以了解为什么这是一个问题。如果你的模型预测的结果是38,而事实是1,你就没有损失。线性回归会试图减少38,而Logistic则不会(那么多)2 。
在线性回归中,结果(因变量)是连续的。它可以有无限多的可能值中的任何一个。在逻辑回归中,结果(因变量)只有有限的几个可能值。
例如,如果X包含以平方英尺为单位的房屋面积,而Y包含这些房屋的相应售价,你可以使用线性回归来预测售价与房屋大小的关系。虽然可能的售价实际上可能不是*多,但有如此多的可能值,所以会选择线性回归模型。
相反,如果你想根据房子的大小来预测房子是否会卖到20万美元以上,你会使用逻辑回归。可能的输出结果是:是的,房子会卖到20万美元以上,或者不是,房子不会。