逻辑回归(Logistic regression)是一种最流行的分类技术。实际上,它是如此流行,以至于各个领域都对其有独到见解。因此他们既可以使用,也可以在相同理论框架下比较逻辑回归和他们正在研究的技术。我试着复述我听说过的一些理解,鉴于我并不精于以下全部领域,所以可能会丢失一些细节。
- 经典统计学学派解释。你的分类标签是基于样本特征通过二项分布产生的,你想要估计这个分布。
- 贝叶斯统计学派解释。在前述理解之上,你估计的参数本身是不同分布的后验概率。如果你不预设先验概率,那这种理解基本上就和频率学派(即经典学派)的理解一样。
- 隐含变量解释,在社会科学家和心理学家中很流行。存在隐含的连续变量决定了输出,取决于变量落在阈值哪边,但是我们只能看见最终输出。你的目标是尽可能准确地估计决定隐含变量的参数。
- 肯塔基德比解释。你的参数代表了不同几率的乘积式权重(比如,一个4:1赔率的赌博)。你的目标是计算每个特征的权重使最终结果和实际结果相同。
- 不那么朴素的贝叶斯解释。类似于朴素贝叶斯,但是同时估计数据间的相关性/协方差,而不再假设变量相互无关。
- 信息论解释。找到这样的参数,使得基于样本特征,输出标签的分布有最大熵。
- 翘曲空间解释。在一个将标签维度进行逆S形变换的空间里,进行一种准线性回归。
- 损失最小化解释。你有一个损失函数,给每个错误分类的样本一个惩罚值(惩罚值越高你的预测就越过度)。你对一个样本的分类方法是通过你的参数组合这个样本的各个特征,并应用一个sigmoid函数。找到让损失最小的参数。
- 最小偏差解释,流行于精算师中。将你的数据看成张量,每个特征是一个维度,所有特征加起来看成一个点(只适用于离散特征)。试着给每个维度找到一个参数,这样当你将所有特征加起来,应用一个sigmoid函数,乘以点的值,二项式结果的损失最小。
- 神经网络解释。你的特征和你的参数的点积形成一个刺激,传送给一个sigmoid激活函数,生成一个预测标签。你要最大化真实度(didelity),以后你的神经元可以记住处理过的数据的标签。
- 支持向量解释。试着将你的数据通过一个超平面分开。对每一个数据点,计算对这个平面的“支持向量力”,与距离的logit值成正比。当你的“力”平衡的时候,你的超平面给你的就是结果参数。
- 反馈解释。我们随机初始化参数。对于每一个观测值,我们计算特征和参数的点积。如果计算结果是负而实际输出是正,或者相反,将参数向量后移,即向特征向量的反方向移动。如果他们都同样是正或者负,将参数向量向着特征向量前移。这个对应着随机梯度下降的训练过程。
也许我少说了很多。尽管大家使用相似的基本工具集,相互之间跨领域的交流还比较少,即便在例如机器学习和统计、统计和精算这样相似的领域之间。也许这是因为大家都在自说自话,内容也限于他们内部。