热门关键词:

集成分类器-数据挖掘

添加时间:2021-11-04 10:17:22

来源:

浏览:

 集成学习通过组合多个模型来帮助改善机器学习结果。与单个模型相比,这种方法允许产生更好的预测性能。基本思想是学习一组分类器(专家)并让他们投票。


优点:提高预测准确性。

缺点:难以理解分类器的集成。


为什么合奏会起作用?


Dietterich (2002) 表明集成克服了三个问题——


统计问题——

当假设空间对于可用数据量来说太大时,就会出现统计问题。因此,在数据上有许多具有相同准确性的假设,而学习算法仅选择其中之一!存在一种风险,即所选假设的准确性在看不见的数据上很低!

统计问题——

当学习算法不能保证找到最佳假设时,就会出现计算问题。

表征问题——

当假设空间不包含目标类的任何良好近似时,就会出现表征问题。

开发集成模型的主要挑战是什么?


主要的挑战不是获得高度准确的基础模型,而是获得产生不同类型错误的基础模型。例如,如果使用集成进行分类,如果不同的基模型对不同的训练样本进行错误分类,即使基分类器的准确度较低,也可以实现较高的准确度。


独立构建集成的方法 -


多数票

装袋和随机森林

随机性注入

特征选择合奏

纠错输出编码

协调构建集成的方法 -


提升

堆叠

可靠分类:元分类器方法

协同训练和自训练


集成分类器的类型 -


Bagging:

Bagging(Bootstrap Aggregation)用于减少决策树的方差。假设有 d 个元组的集合 D,在每次迭代i 时,d 个元组的训练集 D i被采样,并从 D 中替换(即引导)。然后分类器模型M我被学习为每个训练集d的<i。每个分类器 M i返回其类别预测。袋装分类器 M* 对投票进行计数,并将投票最多的类别分配给 X(未知样本)。


Bagging的实现步骤——


从具有相等元组的原始数据集创建多个子集,选择有替换的观察。

在这些子集中的每一个上创建一个基本模型。

每个模型都是从每个训练集中并行学习的,并且彼此独立。

最终的预测是通过结合所有模型的预测来确定的。



随机森林:

随机森林是对装袋的扩展。集成中的每个分类器都是一个决策树分类器,并使用在每个节点上随机选择的属性来确定拆分来生成。在分类过程中,每棵树投票,并返回最受欢迎的类。


随机森林的实现步骤——


从原始数据集创建多个子集,选择替换观察。

随机选择一个特征子集,并使用给出最佳分割的特征来迭代地分割节点。

这棵树长到最大。

重复上述步骤,根据来自 n 个树的预测的聚合给出预测。


用户名 Name
评论 Comment

关注

SAP系统

  • 地 址:四川省成都市人民南路4段成科西路3号
  • 电 话:18215 660330
  • 手机:18215 660330
  • 传 真:18215 660330
  • 邮 箱:179001057@qq.com
  • 邮政编码:610000