数据处理与知识发现 mobi 下载 网盘 caj lrf pdf txt 阿里云

数据处理与知识发现电子书下载地址
内容简介:
本书系统地介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术, 以及采用Mahout 对相应的挖掘算法进行实际练习。本书共有11 章, 分为两大部分。第1 ~7 章为理论部分。第1 章为绪论, 介绍了数据挖掘与知识发现领域中的一些基本理论、研究方法等, 也简单介绍了Hadoop 生态系统中的Mahout; 第2 ~7 章按知识发现的过程, 介绍数据预处理的方法和技术、数据仓库的构建与OLAP 技术、数据挖掘原理及算法(包括关联规则挖掘、聚类分析方法、分类规则挖掘)、常见的数据挖掘工具与产品。第8 ~11 章为实验部分, 采用Mahout 对数据挖掘各类算法进行实际练习。
本书应用性较强, 与实践相结合, 以小数据集为例详细介绍各种挖掘算法, 使读者更易掌握挖掘算法的基本原理及过程; 使用广泛的大数据平台———Hadoop 生态系统中的Mahout 对各种挖掘算法进行实际练习, 实战性强, 也符合目前数据处理与挖掘的发展趋势。
本书既便于教师课堂讲授, 又便于自学者阅读, 可作为高等院校高年级学生“数据挖掘技术” “数据仓库与数据挖掘” “数据处理与智能决策”等课程的教材。
书籍目录:
目录
前 言
上篇 理论部分
第1 章 绪论 2
1. 1 KDD 与数据挖掘 2
1. 1. 1 KDD 的定义 2
1. 1. 2 KDD 过程与数据挖掘 3
1. 2 数据挖掘的对象 4
1. 3 数据挖掘的任务 8
1. 4 Mahout 简介 12
1. 4. 1 Mahout 12
1. 4. 2 Mahout 算法库 13
1. 4. 3 Mahout 应用 16
1. 5 小结 17
1. 6 习题 17
第2 章 数据预处理 18
2. 1 数据概述 18
2. 1. 1 属性与度量 19
2. 1. 2 数据集的类型 23
2. 2 数据预处理 27
2. 2. 1 数据预处理概述 28
2. 2. 2 数据清理 30
2. 2. 3 数据集成 34
2. 2. 4 数据变换 38
2. 2. 5 数据归约 40
2. 2. 6 离散化与概念分层 48
2. 3 小结 52
2. 4 习题 53
第3 章 数据仓库 55
3. 1 数据仓库概述 55
3. 1. 1 从数据库到数据仓库 55
3. 1. 2 数据仓库 56
3. 1. 3 数据仓库系统结构 59
3. 1. 4 数据仓库中的名词 59
3. 2 数据仓库的ETL 60
3. 2. 1 ETL 的基本概念 60
3. 2. 2 ETL 的工具 60
3. 3 元数据与外部数据 62
3. 3. 1 元数据的定义 62
3. 3. 2 元数据的存储与管理 63
3. 3. 3 外部数据 64
3. 4 数据仓库模型及数据仓库的建立 65
3. 4. 1 多维数据模型 65
3. 4. 2 多维数据模型的建立 67
3. 5 联机分析处理OLAP 技术 73
3. 5. 1 OLAP 概述 73
3. 5. 2 OLAP 与数据仓库 75
3. 5. 3 OLAP 的模型 77
3. 5. 4 OLAP 的基本操作 79
3. 6 数据仓库实例 80
3. 6. 1 数据仓库的创建 81
3. 6. 2 数据的提取、转换和加载 83
3. 7 小结 83
3. 8 习题 83
第4 章 关联规则挖掘 84
4. 1 问题定义 85
4. 1. 1 购物篮分析 85
4. 1. 2 基本术语 85
4. 2 频繁项集的产生 87
4. 2. 1 先验原理 88
4. 2. 2 Apriori 算法的频繁项集产生 90
4. 3 规则产生 94
4. 3. 1 基于置信度的剪枝 94
4. 3. 2 Apriori 算法中规则的产生 94
4. 4 FP-growth 算法 95
4. 5 多层关联规则和多维关联规则 99
4. 5. 1 多层关联规则 99
4. 5. 2 多维关联规则 102
4. 6 非二元属性的关联规则 103
4. 7 关联规则的评估 104
4. 8 序列模式挖掘算法 106
4. 8. 1 序列模式的概念 106
4. 8. 2 Apriori 类算法———AprioriAll
算法 109
4. 9 小结 114
4. 10 习题 115
第5 章 聚类分析方法 118
5. 1 聚类分析概述 118
5. 1. 1 聚类的定义 118
5. 1. 2 聚类算法的要求 119
5. 1. 3 聚类算法的分类 120
5. 1. 4 相似性的测度 121
5. 2 基于划分的聚类算法 126
5. 2. 1 基于质心的(Centroid-based)
划分方法———基本K-means
聚类算法 126
5. 2. 2 K-means 聚类算法的拓展 128
5. 2. 3 基于中心的(Medoid-based)
划分方法———PAM 算法 130
5. 3 层次聚类算法 133
5. 3. 1 AGNES 算法 136
5. 3. 3 改进算法———BIRCH 算法 137
5. 3. 4 改进算法———CURE 算法 141
5. 4 基于密度的聚类算法 143
5. 5 聚类算法评价 147
5. 6 离群点挖掘 149
5. 6. 1 相关问题概述 149
5. 6. 2 基于距离的方法 150
5. 6. 3 基于相对密度的方法 154
5. 7 小结 158
5. 8 习题 158
第6 章 分类规则挖掘 160
6. 1 分类问题概述 160
6. 2 近邻分类法 162
6. 2. 1 KNN 算法原理 162
6. 2. 2 KNN 算法的特点及改进 165
6. 2. 3 基于应用平台的KNN 算法应用
实例 166
6. 3 决策树分类方法 167
6. 3. 1 决策树概述 167
6. 3. 2 信息论 171
6. 3. 3 ID3 算法 172
6. 3. 4 算法改进: C4. 5 算法 176
6. 4 贝叶斯分类方法 180
6. 4. 1 贝叶斯定理 181
6. 4. 2 朴素贝叶斯分类器 183
6. 4. 3 朴素贝叶斯分类方法的改进 185
6. 5 神经网络算法 188
6. 5. 1 前馈神经网络概述 188
6. 5. 2 学习前馈神经网络 189
6. 5. 3 BP 神经网络模型与学习算法 191
6. 6 回归分析 193
6. 7 小结 196
6. 8 习题 197
第7 章 数据挖掘工具与产品 198
7. 1 评价数据挖掘产品的标准 198
7. 2 数据挖掘工具简介 200
7. 3 数据挖掘的可视化 203
7. 3. 1 数据挖掘可视化的过程与方法 203
7. 3. 2 数据挖掘可视化的分类 204
7. 3. 3 数据挖掘可视化的工具 206
7. 4 Weka 207
7. 4. 1 Weka Explorer 208
7. 4. 2 Weka Experimenter 216
7. 4. 3 KnowledgeFlow 219
7. 5 小结 221
7. 6 习题 221
下篇 实验部分
第8 章 Mahout 入门 224
8. 1 Mahout 安装前的准备 224
8. 1. 1 安装JDK 224
8. 1. 2 安装Hadoop 227
8. 2 Mahout 的安装 237
8. 3 测试安装 238
8. 4 小结 239
第9 章 使用Mahout 实践关联规则
算法 240
9. 1 FP 树关联规则算法 240
9. 1. 1 Mahout 中Parallel Frequent Pattern
Mining 算法的实现原理 240
9. 1. 2 Mahout 的Parallel F
作者介绍:
暂无相关内容,正在全力查找中
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
原文赏析:
暂无原文赏析,正在全力查找中!
其它内容:
前言
前言
现在的社会是一个高速发展的社会, 科技发达, 信息畅通, 人们之间的交流越来越密切, 生活也越来越方便, 大数据就是这个高科技时代的产物, 并且将会以更多、更复杂、更多样化的方式持续增长。大数据的复杂化和格式多样化, 决定了应用服务平台中针对大数据的服务场景和类型的多样化, 从而要求应用服务平台必须融合大数据技术来应对, 传统的数据存储和分析技术已无法满足应用的需求。
目前行业中使用广泛的大数据平台是基于Apache 开源社区版本的Hadoop 生态体系,阿里巴巴、腾讯、百度、脸书(Facebook) 等国内外各大互联网公司的系统基本都采用Hadoop生态系统, 来完成数据存储和处理。事实上, 在未来2 ~3 年预计有超过50% 的大数据项目会在Hadoop 框架下运行。
在大数据时代, 大学生应具备一定的大数据处理能力。本书围绕大数据背景下的数据处理和知识发现问题, 从基本概念入手, 由浅入深、循序渐进地介绍了数据处理与知识发现过程中的数据预处理技术、数据仓库技术、数据挖掘的基本方法, 并在后使用广泛的大数据平台———Hadoop 生态系统中的Mahout 对各种挖掘算法进行实际练习, 实战性强, 也符合目前数据处理与挖掘的发展趋势。
目前, 数据处理与知识发现及应用方法逐渐成为各高校信息类和管理类本科专业的必修内容。本书作为立足于本科教学的教材, 具有如下特色:
(1) 在逻辑安排上循序渐进, 由浅入深, 便于读者系统学习。
(2) 内容丰富, 信息量大, 融入了大量本领域的新知识和新方法。
(3) 作为教材, 以小数据集为例详细介绍各种挖掘算法, 使读者更易掌握挖掘算法的基本原理及过程; 使用Mahout 实践各种挖掘算法, 符合大数据的发展趋势。
(4) 图文并茂, 形式生动, 可读性强。
本书的编写得到了武汉民办高校合作联盟、武昌首义学院信息科学与工程学院和机械工业出版社的大力支持和帮助, 在此深表谢意!
由于编者水平有限, 书中难免会出现不足之处, 欢迎读者批评指证。如果您有更多的宝贵意见, 欢迎发邮件至邮箱xuqin@ wsyu. edu. cn。
编 者
网站评分
书籍多样性:7分
书籍信息完全性:3分
网站更新速度:9分
使用便利性:8分
书籍清晰度:6分
书籍格式兼容性:4分
是否包含广告:9分
加载速度:9分
安全性:3分
稳定性:3分
搜索功能:8分
下载便捷性:6分
下载点评
- 下载快(365+)
- 服务好(128+)
- 强烈推荐(181+)
- 推荐购买(61+)
- 愉快的找书体验(117+)
- 三星好评(427+)
- 还行吧(258+)
- 无漏页(595+)
- 无广告(304+)
下载评价
- 网友 孙***夏:
中评,比上不足比下有余
- 网友 堵***洁:
好用,支持
- 网友 索***宸:
书的质量很好。资源多
- 网友 益***琴:
好书都要花钱,如果要学习,建议买实体书;如果只是娱乐,看看这个网站,对你来说,是很好的选择。
- 网友 方***旋:
真的很好,里面很多小说都能搜到,但就是收费的太多了
- 网友 冉***兮:
如果满分一百分,我愿意给你99分,剩下一分怕你骄傲
- 网友 蓬***之:
好棒good
- 网友 师***怀:
好是好,要是能免费下就好了
- 网友 居***南:
请问,能在线转换格式吗?
- 网友 晏***媛:
够人性化!
- 网友 曾***玉:
直接选择epub/azw3/mobi就可以了,然后导入微信读书,体验百分百!!!
- 网友 辛***玮:
页面不错 整体风格喜欢
喜欢"数据处理与知识发现"的人也看了
特斯拉自传 mobi 下载 网盘 caj lrf pdf txt 阿里云
全国美术考级指定专用教材硬笔书法考级78级 mobi 下载 网盘 caj lrf pdf txt 阿里云
海军陆战队·王牌战机 mobi 下载 网盘 caj lrf pdf txt 阿里云
坚持“***”推进祖国统一(第五批全国干部学习培训教材) mobi 下载 网盘 caj lrf pdf txt 阿里云
学校心理咨询专业理论与技术 陈福国 主编,上海市职业能力考试院 编 上海人民出版【正版保证】 mobi 下载 网盘 caj lrf pdf txt 阿里云
中南及台湾地区博物馆镇馆之宝 mobi 下载 网盘 caj lrf pdf txt 阿里云
湖州有意思(“浙江有意思”系列) mobi 下载 网盘 caj lrf pdf txt 阿里云
实用姓名学 mobi 下载 网盘 caj lrf pdf txt 阿里云
战术学教程 mobi 下载 网盘 caj lrf pdf txt 阿里云
二外法语真题及强化习题详解 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 颜氏家训 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 人力资源管理实操从入门到精通囊括HR重点领域实战技能适合国情的HR实用宝典人员招聘新人入职绩效考 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 五彩斑斓的纸串珠饰品 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 全新正版图书 光子晶体光纤的特与应用国防工业出版社9787118112207 光学晶体光导纤维研究普通大众人天图书专营店 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 美少女美少年漫画入门教程/漫画吧! mobi 下载 网盘 caj lrf pdf txt 阿里云
- 美国检察制度研究(第三版) 张鸿巍著 法律出版社 mobi 下载 网盘 caj lrf pdf txt 阿里云
- The road not taken mobi 下载 网盘 caj lrf pdf txt 阿里云
- 造价模拟试题2011——工程造价管理基础理论与相关法规 New! mobi 下载 网盘 caj lrf pdf txt 阿里云
- 老子的人生智慧 mobi 下载 网盘 caj lrf pdf txt 阿里云
- 自然笔记金波 辑:长白山的雪狐狸/金波主编,自然文学,科普美文,全彩美绘,亲近自然,趣读自然 mobi 下载 网盘 caj lrf pdf txt 阿里云
书籍真实打分
故事情节:7分
人物塑造:8分
主题深度:3分
文字风格:4分
语言运用:5分
文笔流畅:7分
思想传递:8分
知识深度:8分
知识广度:7分
实用性:4分
章节划分:9分
结构布局:3分
新颖与独特:5分
情感共鸣:6分
引人入胜:4分
现实相关:6分
沉浸感:9分
事实准确性:5分
文化贡献:9分