0%

贝叶斯分类

一、贝叶斯学习

1.1 概述

\[ P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\sim A)P(\sim A)} \]

二、贝叶斯决策论

  1. 概率基础

    对于事件 A,其概率满足\(P(A)\in [0,1]\)

    条件概率:\(P(A|B)=\frac{P(AB)}{P(B)}\)

    乘法定理:\(P(AB)=P(A|B)P(B)=P(B|A)P(A)\)

    全概率公式:

    \[ A_1\cup A_2\cup ... \cup A_n = \Omega,且, A_i\cap A_j = \varphi, 则 P(B) = \sum_{i=1}^{n}P(B|A_i)P(A_i) \]

    贝叶斯公式:

    \[ P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j=1}^{n}P(B|A_j)P(A_j)} \]

  2. Bayes 决策,基于观察特征类别的贝叶斯公式:

    \[ P(\omega_i|x)= \frac{P(x|\omega_i)P(\omega_i)}{P(x)}=\frac{P(x|\omega_i)P(\omega_i)}{\sum_jP(x|\omega_i)P(\omega_i)} \]

    即, \(P(\omega_i|x) \propto P(x|\omega_i)P(\omega_i)\)

    \[ Decide \begin{cases} &\omega_1, \qquad & if\quad P(\omega_1|x)>P(\omega_2|x)\\ &\omega_2, \qquad & if\quad P(\omega_1|x)<P(\omega_2|x)\\ \end{cases} \] 原问题可转化为 \[ Decide \begin{cases} &\omega_1, \qquad & if\quad P(x|\omega_1)P(\omega_1)>P(x|\omega_2)P(\omega_2)\\ &\omega_2, \qquad & if\quad P(x|\omega_1)P(\omega_1)<P(x|\omega_2)P(\omega_2)\\ \end{cases} \]

\[ Decide \begin{cases}&\omega_1, \qquad & if\quad \frac{P(x|\omega_1)}{P(x|\omega_2)}>\frac{P(\omega_2)}{P(\omega_1)}\\&\omega_2, \qquad & if\quad \frac{P(x|\omega_1)}{P(x|\omega_2)}<\frac{P(\omega_2)}{P(\omega_1)}\\\end{cases} \]

  1. 类别相似性函数可写为如下形式:

    \[ g_i=P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{\sum_jP(x|\omega_i)P(\omega_i)}\\ g_i = P(x|\omega_i)P(\omega_i)\\ g_i = ln P(x|\omega_i)+lnP(\omega_i) \]

  2. 决策函数 \[ g(x) = g_1(x)-g_2(x) \] \(g(x)=0\)是决策平面。

三、贝叶斯分类器

  1. 预备知识

    贝叶斯分类器是基于贝叶斯决策的分类器

    变量和参数:

    类别\(C:C=\{c_1,c_2...c_M\}\)

    数据\(D\)和样本\(x:D={x_i}\)

    贝叶斯学习:\(P(c_i|x)\propto P(x|c_i)P(c_i)\)

    贝叶斯决策的类别相似性函数和决策函数如 2.2 节所示。

  2. 特殊的贝叶斯分类器:

    朴素贝叶斯分类器:假设\(P(x|c)\)\(x\)特征向量各维属性独立

    半朴素贝叶斯分类器:假设\(P(x|c)\)\(x\)的各维属性存在依赖

    正态分布的贝叶斯分类器:假设\(P(x|c(\theta))\)服从正态分布

  3. 朴素贝叶斯分类器

    采用了属性条件独立性假设,即

    \[ P(c|x)=\frac{P(c)P(x|c)}{P(x)}\propto P(c)\prod{_{i-1}^d}P(x_i|c) \]

    关键问题:由训练样本学习类别条件概率\(P(x_i|c)\)和类别先验概率\(P(c)\)

    \[ P(c) = \frac{|D_c|}{|D|} \]

    类别概率密度估计:

    \(x_i\)离散

    \[ P(x_i|c)=\frac{|D_{c,x_i}|}{D_c} \]

    \(D_{c,x_i}\)表示\(D_c\)中第\(i\)个属性上取值为\(x_i\)的样本组成的集合。

    \(x_i\)连续

    \[ P(x_i|c) = \frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu)^2}{2\sigma^2_{c,i}}) \]

    即由某一概率分布估计类别概率

  4. 朴素贝叶斯分类器

    学习过程:计算类别先验估计,计算类别条件概率估计

    决策过程:计算类别先验估计,计算类别条件概率估计,进行决策,决策公式如下:

    \[ h(x) = \max_{c\in y}\prod_{i=1}^{d}P(x_i|c) \]

  5. 拉普拉斯平滑

    避免因训练集样本数据不充分而导致概率为 0,对先验概率和类别条件概率进行计算时进行拉普拉斯平滑,如下

    \[ \hat{P}(c)= \frac{|D_c|+1}{|D|+N}\\ \hat{P}(x_i|c) = \frac{|D_{c,x_i}|+1}{|D_c|+N_i} \]

    其中,\(N\)为类别数,\(N_i\)\(x_i\)的可能取值个数。

  6. 正态密度的贝叶斯分类器 \[ h(x) = \max_{c\in y}P(c)P(x|c) \] 其中,\(P(x|c)\)服从正态分布。