一.贝叶斯方法
在贝叶斯之前,人们主要通过频率来确定一件事情的概率,而贝叶斯方法的提出改变了这种情况,贝叶斯理论提供了一种新的想法:,其中先验信息一般来源于历史资料,即频率的观点。在得到新的样本信息之后,贝叶斯认为不应仍然依据频率的观点,而是由给定x的情况下的条件概率决定,而使这个条件概率最大的称为最大后验估计,即极大似然估计。
是样本的类别集合,概率密度函数是相对于的的似然函数,对于一个分类问题,即求得最可能的类别概率,由贝叶斯规则有:
此时,我们只需求最大的就可知道的类别。对于多维度特征必定存在一个决策面将每个类别划分,例如下图中的使得
若用判别函数表示,其中是单调升函数,决策面可以表示为:
二.正态分布的贝叶斯方法
贝叶斯方法最常使用的是高斯分布。原因是这种分布利于分析,且更有普遍性。
对于一维高斯有:
$$p(x)=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu)^2}{2\sigma^2})$$ 对于多维高斯有:
$$p(x)=\frac{1}{(2\pi)^{l/2}|\Sigma |^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma ^{-1}(x-\mu))$$ 是的协方差矩阵, 即 对于二维的高斯分布,其协方差矩阵决定了分布在xOy平面的投影情况,对角矩阵投影为圆形,非对角一般投影为椭圆。
![]()
![]()
易得是一个椭圆方程
而贝叶斯分类器目的就是找出决策面,此时是每一类的分布,并且服从,用自然指数(单调增)形式和(*)有:
展开可以看出这个式子是一个二次曲线,则两个二次曲线的差也为二次曲线(如椭圆,抛物线,双曲线,直线)。如果假设所有类具有相同协方差矩阵的情况下,得到更一般的形式:
其中和,所以对于两个已知分布的高斯分布,只需求出协方差矩阵,就可得到将它们分开的超平面。
三.未知参数估计
在实践中,我们通常不能知道样本的概率分布,有时可能知道是哪种类型的分布,但不知道分布具体的参数(如高斯分布的均值,方差)。
3.1 最大似然参数估计
是从概率密度函数中采样得到,假设样本之间统计独立,则有:
最大似然法估计,即计算使得似然函数最大的值(最大即为最大):
即对联合概率密度求导,求最大值即可,可以转换为自然对数的形式。最大似然函数有几点可取之处:
- 最大似然法是渐进一致的。对于足够大的N,最大似然估计的方差趋于零。
- 最大似然估计是渐进无偏的。即在N足够大的时候,估计的参数可认为是无偏估计。
- 最大似然估计是渐进有效的。可以达到Cramer Rao下界限制(证明略)
- 最大似然估计在N足够大的时候,概率密度函数接近于高斯分布。
3.2 最大后验概率估计
在最大似然估计中,是未知参数,而最大后验估计中把它当作随机向量。由贝叶斯理论有: 最大后验概率(MAP)估计为使得最大的点:
3.3 朴素贝叶斯分类器
对于贝叶斯分类器,需要大量的数据,且随着维度的增加,需要的数据量成指数增长。为了解决维度灾难的问题,不得不降低对准确性的要求。通常做法是假设每个特征值是统计独立的。此时:
这样每个类的样本需求量从降低为,这就是朴素贝叶斯分类器。分类的标准为:
四. 贝叶斯网络
朴素贝叶斯分类器虽然克服了维数灾难,但是将问题从完全依赖特征转换为相互独立特征。如果要在这两者之间找一个折衷点,那就是贝叶斯网络。由概率链式法则有:
而贝叶斯网则将每个特征向量的条件相关性限定在特征向量子集中,即:
其中, 贝叶斯网络有利于研究各个特征向量之间的独立性:
- 有共同父节点的节点之间:在父节点已知的情况下相互独立;
- 在三个顺序连接的节点中:中间节点已知情况下,另外两个节点独立;
- 有共同子节点的节点之间:在子节点未知的情况下相互独立。
且每个节点的状态只与其邻居有关。