判别式模型与生成式模型是机器学习领域中的基本概念,今天将两者的特点总结一下,如下表所示:
对比 判别式模型 生成式模型
特点 寻找不同类别之间的最优分类面,反映异类数据之间的差异 以统计的角度表示数据的分布情况,能够反映同类数据本身的相似度
区别(假如输入特征x,类别标签y) 估计的是条件概率分布:P(y|x) 估计的是联合概率分布 P(x,y)
联系 由判别式模型不能得到生成式模型 由生成式模型可以得到判别式模型(贝叶斯公式)
优势 (1)能清晰地分辨出多类或某一类与其他类之间的差异特征;(2)适用于较多类别的识别;(3)模型更简单
(1)研究单类问题比判别式模型更灵活;(2)模型可以通过增强学习得到;(3)能用于数据不完整的情况。
缺点 不能反映训练数据本身的特性; 学习和计算过程比较复杂
性能 较好(因为利用了训练数据的类别标识信息) 较差
常见模型举例 KNN,SVM,决策树,线性回归,LR,boosting,线性判别分析(LDA),条件随机场,感知机,传统神经网络
朴素贝叶斯,隐马尔科夫模型,高斯混合模型,限制玻尔兹曼机
主要应用场景 图像文本分类,时间序列预测 NLP,医疗诊断
最后再对上表中的条件概率与联合概率做一下回顾总结:
为便于理解,这里给出一个通俗的例子:
说是大飞哥要玩掷飞镖的游戏,飞镖偏离靶心的偏离其实是不确定的,所以适合用概率模型来描述。概率就是衡量可能性的指标。飞镖偏离靶心小于1厘米的概率,和风速,标靶距离都有关系。假定标靶距离可以是10到20米,风速可以是1米/秒到10米/秒,我们可以把每个距离下,每个风速情况下的偏离小于1厘米的概率,大于1厘米的概率整理成一个表格,就是距离与风速的联合概率分布。如下表所示:
距离 风速 偏离小于1厘米的概率 偏离大于1厘米的概率
10 1 99% 1%
11 1 98% 2%
12 1 97% 3%
…… …… …… ……
10 3 89% 11%
11 3 88% 12%
12 3 87% 13%
所谓条件概率,即有条件的联合概率,比如,如果风速确定为1不变,那么偏离小于1厘米的概率就只和距离有关系了。如距离为10时,概率为99%和1%。这就是条件概率(风速是条件)。
热门工具 换一换