集成分类器-数据挖掘
添加时间:2021-11-04 10:17:22
来源:
集成学习通过组合多个模型来帮助改善机器学习结果。与单个模型相比,这种方法允许产生更好的预测性能。基本思想是学习一组分类器(专家)并让他们投票。
优点:提高预测准确性。
缺点:难以理解分类器的集成。
为什么合奏会起作用?
Dietterich (2002) 表明集成克服了三个问题——
统计问题——
当假设空间对于可用数据量来说太大时,就会出现统计问题。因此,在数据上有许多具有相同准确性的假设,而学习算法仅选择其中之一!存在一种风险,即所选假设的准确性在看不见的数据上很低!
统计问题——
当学习算法不能保证找到最佳假设时,就会出现计算问题。
表征问题——
当假设空间不包含目标类的任何良好近似时,就会出现表征问题。
开发集成模型的主要挑战是什么?
主要的挑战不是获得高度准确的基础模型,而是获得产生不同类型错误的基础模型。例如,如果使用集成进行分类,如果不同的基模型对不同的训练样本进行错误分类,即使基分类器的准确度较低,也可以实现较高的准确度。
独立构建集成的方法 -
多数票
装袋和随机森林
随机性注入
特征选择合奏
纠错输出编码
协调构建集成的方法 -
提升
堆叠
可靠分类:元分类器方法
协同训练和自训练
集成分类器的类型 -
Bagging:
Bagging(Bootstrap Aggregation)用于减少决策树的方差。假设有 d 个元组的集合 D,在每次迭代i 时,d 个元组的训练集 D i被采样,并从 D 中替换(即引导)。然后分类器模型M我被学习为每个训练集d的<i。每个分类器 M i返回其类别预测。袋装分类器 M* 对投票进行计数,并将投票最多的类别分配给 X(未知样本)。
Bagging的实现步骤——
从具有相等元组的原始数据集创建多个子集,选择有替换的观察。
在这些子集中的每一个上创建一个基本模型。
每个模型都是从每个训练集中并行学习的,并且彼此独立。
最终的预测是通过结合所有模型的预测来确定的。
随机森林:
随机森林是对装袋的扩展。集成中的每个分类器都是一个决策树分类器,并使用在每个节点上随机选择的属性来确定拆分来生成。在分类过程中,每棵树投票,并返回最受欢迎的类。
随机森林的实现步骤——
从原始数据集创建多个子集,选择替换观察。
随机选择一个特征子集,并使用给出最佳分割的特征来迭代地分割节点。
这棵树长到最大。
重复上述步骤,根据来自 n 个树的预测的聚合给出预测。