朴素贝叶斯 (Naive Bayes) 与 逻辑回归 (Logistic Regression) 深度解析
一个关于如何基于概率构建、学习和对比两种核心分类算法的视觉指南。
所有基于概率的分类都始于一个强大的公式——贝叶斯定理。它告诉我们如何利用新证据(特征 $X$)更新关于某个假设(类别 $Y$)的信念。
后验概率
\( P(Y|X) \)
目标:我们想求的
似然度
\( P(X|Y) \)
模型需要学习的
先验概率
\( P(Y) \)
模型需要学习的
证据
\( P(X) \)
归一化因子
直接学习似然度 $P(X|Y)$ 是不切实际的。如果特征向量 $X$ 包含 $n$ 个布尔属性,我们需要估计的独立参数数量高达 $2(2^n-1)$。对于 $n=30$,这超过了30亿个参数!
朴素贝叶斯做出了一个大胆但有效的假设:给定类别 $Y$,所有特征 $X_i$ 之间是相互独立的。
这个假设将参数数量从指数级的 $O(2^n)$ 戏剧性地减少到线性的 $O(n)$,使得模型学习变得可行。
最终,分类决策简化为寻找使后验概率最大化的类别 $y_k$。由于分母与 $y_k$ 无关,我们可以只比较分子部分:
核心思想:
朴素贝叶斯是一种 生成式模型 (Generative Model)。它学习每个类别如何“生成”数据,即学习 $P(X|Y)$ 和 $P(Y)$,然后通过贝叶斯定理推导出 $P(Y|X)$ 进行分类。
逻辑回归采取了完全不同的策略。它不关心数据是如何生成的,而是直接对后验概率 $P(Y|X)$ 进行建模。
逻辑回归假设 $P(Y=1|X)$ 服从一个S型曲线(Logistic函数),其输入是特征的线性组合。
这形成了一个线性的决策边界。当 $w_0 + \sum w_i X_i > 0$ 时,模型预测类别为1。
核心思想:
逻辑回归是一种 判别式模型 (Discriminative Model)。它直接学习类别之间的决策边界,即对 $P(Y|X)$ 进行建模,而不去关心 $P(X, Y)$ 的联合分布。
逻辑回归的权重 $W$ 是通过优化算法(如梯度上升)来找到的,目标是最大化在给定特征 $X$ 的条件下,观测到训练数据中所有标签 $Y$ 的概率。
梯度上升的更新规则(含L2正则化):
令人惊讶的是,在特定假设下,朴素贝叶斯和逻辑回归是等价的!
证明: 如果我们假设一个高斯朴素贝叶斯分类器(连续特征服从高斯分布),并且假设每个类别下特征的方差 $\sigma_i^2$ 相同,那么推导出的后验概率 $P(Y=1|X)$ 的形式...
...这与逻辑回归的函数形式完全一致!其中权重 $w_i$ 和 $w_0$ 可以用高斯朴素贝叶斯的参数(均值 $\mu_{ik}$,方差 $\sigma_i^2$,先验 $\pi$)表示:
结论:逻辑回归可以被看作是高斯朴素贝叶斯分类器的判别式对应物。