0%

机器学习(二) 朴素贝叶斯

朴素贝叶斯法的学习与分类

任务与数据

$ DATA = \lbrace (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N}) \rbrace $
$ input space: \mathcal {X} \subseteq \mathbb{R}^{n} $
$ output space: \mathcal{Y} = {c_{1},c_{2},…c_{k}} $
其中$c_{i}$为类标记,该类标记可以有两个或多个。

基本方法

朴素贝叶斯通过训练数据集学习联合概率分布P(X,Y)。
其中先验概率分布为:
$ \displaystyle P(Y = c_{k}),k=1,2,…,K $
条件概率分布:
$ \displaystyle P(X=x|Y=c_{k}) = P(X^{(1)}=x^{(1)},…,X^{(n)}=x^{(n)}|Y=c_{k}), k=1,2,…,K $
学习到联合概率分布P(X,Y)。
朴素贝叶斯法对条件概率分布作了条件独立性假设。即:
$ \displaystyle P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)},…,X^{(n)}=x^{(n)}|Y=c_{k})= \prod_{j=1}^{n} P(X^{(j)}=x^{(j)}|Y=c_{k}) $
计算后验概率,将后验概率最大类作为x的类输出,后验概率计算根据贝叶斯定理进行。
$ \displaystyle P(Y=c_{k}|X=x)=\frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_{k}P(X=x|Y=c_{k})P(Y=c_{k})} $
可解朴素贝叶斯分类器:
$ \displaystyle y = \mathop{\arg\max}_{\mathbf c_{k}} P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k}) $

后验概率最大化的含义

使用0-1损失函数有期望风险函数:
$ \displaystyle R_{exp}(f)=E[L(Y,f(x))] $
取条件期望有:
$ \displaystyle R_{exp}f(x)=E_{x} \sum_{k=1}^K [L(c_{k},f(X))]P(c_{k}|X) $
为了令期望风险最小化,于是对每个X=x逐个极小化可得:
$ \displaystyle f(x)= \mathop{\arg\max}_{\mathbf y \in Y} P(y=c_{k}|X=x)$
也即:
$ \displaystyle y = \mathop{\arg\max}_{\mathbf c_{k}} P(Y=c_{k}|X=x) $