国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默作者:[英]麦克斯·布拉默Max Bramer 开 本:16开 书号ISBN:9787302526810 定价: 出版时间:2019-09-01 出版社:清华大学出版社 |
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 本书特色
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。 普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解*前沿技术并进一步推动该领域的发展。 《数据挖掘原理(第3版)》在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 内容简介
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。 普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解很前沿技术并进一步推动该领域的发展。 本书在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 目录
目 录第 1 章 数据挖掘简介 1
1.1 数据爆炸 1
1.2 知识发现 2
1.3 数据挖掘的应用 3
1.4 标签和无标签数据 4
1.5 监督学习:分类 4
1.6 监督学习:数值预测 5
1.7 无监督学习:关联规则 6
1.8 无监督学习:聚类 7
第 2 章 用于挖掘的数据 9
2.1 标准制定 9
2.2 变量的类型 10
2.3 数据准备 11
2.4 缺失值 13
2.4.1 丢弃实例 13
2.4.2 用*频繁值/平均值替换 13
2.5 减少属性个数 14
2.6 数据集的UCI存储库 15
2.7 本章小结 15
2.8 自我评估练习 15
第 3 章 分类简介:朴素贝叶斯和*近邻算法 17
3.1 什么是分类 17
3.2 朴素贝叶斯分类器 18
3.3 *近邻分类 24
3.3.1 距离测量 26
3.3.2 标准化 28
3.3.3 处理分类属性 29
3.4 急切式和懒惰式学习 30
3.5 本章小结 30
3.6 自我评估练习 30
第 4 章 使用决策树进行分类 31
4.1 决策规则和决策树 31
4.1.1 决策树:高尔夫示例 31
4.1.2 术语 33
4.1.3 degrees数据集 33
4.2 TDIDT算法 36
4.3 推理类型 38
4.4 本章小结 38
4.5 自我评估练习 39
第 5 章 决策树归纳:使用熵进行属性选择 41
5.1 属性选择:一个实验 41
5.2 替代决策树 42
5.2.1 足球/无板篮球示例 42
5.2.2 匿名数据集 44
5.3 选择要分裂的属性:使用熵 46
5.3.1 lens24数据集 46
5.3.2 熵 47
5.3.3 使用熵进行属性选择 48
5.3.4 信息增益*大化 50
5.4 本章小结 51
5.5 自我评估练习 51
第 6 章 决策树归纳:使用频率表进行属性选择 53
6.1 实践中的熵计算 53
6.1.1 等效性证明 55
6.1.2 关于零值的说明 56
6.2 其他属性选择标准:多样性基尼指数 56
6.3 χ2属性选择准则 57
6.4 归纳偏好 60
6.5 使用增益比进行属性选择 61
6.5.1 分裂信息的属性 62
6.5.2 总结 63
6.6 不同属性选择标准生成的规则数 63
6.7 缺失分支 64
6.8 本章小结 65
6.9 自我评估练习 65
第 7 章 估计分类器的预测精度 67
7.1 简介 67
7.2 方法1:将数据划分为训练集和测试集 68
7.2.1 标准误差 68
7.2.2 重复训练和测试 69
7.3 方法2:k-折交叉验证 70
7.4 方法3:N -折交叉验证 70
7.5 实验结果I 71
7.6 实验结果II:包含缺失值的数据集 73
7.6.1 策略1:丢弃实例 73
7.6.2 策略2:用*频繁值/平均值替换 74
7.6.3 类别缺失 75
7.7 混淆矩阵 75
7.8 本章小结 77
7.9 自我评估练习 77
第 8 章 连续属性 79
8.1 简介 79
8.2 局部与全局离散化 81
8.3 向TDIDT添加局部离散化 81
8.3.1 计算一组伪属性的信息增益 82
8.3.2 计算效率 86
8.4 使用ChiMerge算法进行全局离散化 88
8.4.1 计算期望值和χ2 90
8.4.2 查找阈值 94
教材 研究生/本科/专科教材 工学
在线阅读
- 最新内容
- 相关内容
- 网友推荐
- 图文推荐
[家长教育] 孩子为什么会和父母感情疏离? (2019-07-14) |
[教师分享] 给远方姐姐的一封信 (2018-11-07) |
[教师分享] 伸缩门 (2018-11-07) |
[教师分享] 回家乡 (2018-11-07) |
[教师分享] 是风味也是人间 (2018-11-07) |
[教师分享] 一句格言的启示 (2018-11-07) |
[教师分享] 无规矩不成方圆 (2018-11-07) |
[教师分享] 第十届全国教育名家论坛有感(二) (2018-11-07) |
[教师分享] 贪玩的小狗 (2018-11-07) |
[教师分享] 未命名文章 (2018-11-07) |