图书介绍

微软大数据解决方案【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

（美）约根森著著
出版社：北京：清华大学出版社
ISBN：9787302396529
出版时间：2015
标注页数：300页
文件大小：56MB
文件页数：320页
主题词：企业管理－数据管理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：93939d5d146d6497d070b791e39dd7ee

下载说明

微软大数据解决方案PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第Ⅰ部分大数据的含义3

第1章行业需求与解决方案3

1.1 何谓“大”数据3

1.2 Hadoop简史4

1.2.1 Google4

1.2.2 Nutch5

1.3 Hadoop的概念5

1.3.1 衍生品和分发版6

1.3.2 Hadoop分发版7

1.3.3 Hadoop生态系统的核心8

1.3.4 Hadoop中的重要Apache项目10

1.3.5 Hadoop的未来14

1.4 本章小结14

第2章 Microsoft大数据解决方法15

2.1 “优质组合”的故事15

2.2 生态系统中的竞争16

2.2.1 SQL on Hadoop现状16

2.2.2 Hortonworks和Stinger16

2.2.3 Cloudera和Impala18

2.2.4 Microsoft对Hadoop中SQL应用的贡献20

2.3 Hadoop的部署20

2.3.1 部署要素20

2.3.2 部署拓扑结构23

2.3.3 部署计分卡26

2.4 本章小结28

第Ⅱ部分使用Microsoft建立大数据31

第3章配置首个大数据环境31

3.1 入门31

3.2 开始安装32

3.3 安装过程32

3.3.1 本地安装：单节点安装32

3.3.2 HDInsight服务：云端安装40

3.3.3 Windows Azure存储管理器选项41

3.4 验证新集群43

3.4.1 登录HDInsight服务43

3.4.2 通过日志验证HDP功能44

3.5 常见的安装后任务45

3.5.1 加载首个文件45

3.5.2 验证Hive和Pig46

3.6 本章小结50

第Ⅲ部分存储并管理大数据53

第4章 HDFS、Hive、HBase和HCatalog53

4.1 探讨HDFS53

4.1.1 HDFS体系结构阐述54

4.1.2 与HDFS交互57

4.2 探讨Hive:Hadoop数据仓库平台59

4.2.1 设计、构建和加载表60

4.2.2 查询数据61

4.2.3 配置Hive ODBC驱动程序61

4.3 探讨HCatalog:HDFS表和元数据管理62

4.4 探索HBase：面向列的HDFS数据库63

4.4.1 面向列的数据库63

4.4.2 定义和填充HBase表65

4.4.3 使用查询操作66

4.5 本章小结66

第5章 HDFS的数据存储与管理67

5.1 了解HDFS基本原理67

5.1.1 HDFS体系结构68

5.1.2 名称节点和数据节点69

5.1.3 数据复制71

5.2 使用常用命令与HDFS进行交互72

5.2.1 使用HDFS的界面72

5.2.2 文件处理命令74

5.2.3 HDFS的管理功能76

5.3 在HDFS中移动和组织数据78

5.3.1 在HDFS中移动数据78

5.3.2 实现便于管理的数据结构79

5.3.3 重新平衡数据79

5.4 本章小结80

第6章添加Hive结构81

6.1 理解Hive的作用和角色82

6.1.1 为非结构化数据提供结构82

6.1.2 启用数据访问与转换88

6.1.3 鉴别Hive与传统RDBMS系统88

6.1.4 使用Hive89

6.2 创建和查询基本表90

6.2.1 创建数据库90

6.2.2 创建表91

6.2.3 添加和删除数据94

6.2.4 查询表95

6.3 使用Hive的高级数据结构97

6.3.1 设置分区表97

6.3.2 加载分区表99

6.3.3 使用视图100

6.3.4 创建表索引100

6.4 本章小结101

第7章使用HBase和HCatalog来扩展功能103

7.1 使用HBase104

7.1.1 创建HBase表104

7.1.2 将数据加载到HBase表106

7.1.3 执行快速查找107

7.1.4 加载和查询HBase108

7.2 使用HCatalog管理数据109

7.2.1 使用HCatalog和Hive109

7.2.2 定义数据结构110

7.2.3 建立索引111

7.3 创建分区111

7.4 HCatalog与Pig和Hive的集成113

7.5 使用HBase或Hive作为数据仓库116

7.6 本章小结117

第Ⅳ部分使用大数据121

第8章使用SSIS、Pig和Sqoop进行有效的大数据ETL121

8.1 结合大数据与SQL Server工具获取更优解决方案122

8.1.1 为何要移动数据122

8.1.2 在Hadoop和SQL Server之间移动数据123

8.2 使用SSIS和Hive123

8.3 配置包128

8.3.1 将数据加载到Hadoop131

8.3.2 从SSIS获得最佳性能132

8.4 使用Sqoop转移数据132

8.4.1 从SQLServer复制数据133

8.4.2 将数据复制到SQL Server135

8.5 使用Pig移动数据135

8.5.1 使用Pig转换数据136

8.5.2 同时使用Pig和SSIS138

8.6 选择正确的工具139

8.6.1 何时使用SSIS139

8.6.2 何时使用Pig139

8.6.3 何时使用Sqoop139

8.7 本章小结140

第9章使用Pig和Hive进行数据研究和高级数据清理141

9.1 了解Pig141

9.1.1 使用Pig的时机142

9.1.2 利用内置函数142

9.1.3 执行用户自定义函数143

9.1.4 使用UDF144

9.1.5 为Pig创建专属UDF151

9.2 使用Hive153

9.2.1 使用Hive进行数据分析153

9.2.2 Hive函数类型154

9.2.3 使用map-reduce脚本扩展Hive155

9.2.4 创建自定义map-reduce脚本158

9.2.5 为Hive创建专属UFD159

9.3 本章小结161

第Ⅴ部分大数据与SQL Server的整合165

第10章数据仓库与Hadoop整合165

10.1 行业状况166

10.2 传统数据仓库架构面临的挑战166

10.2.1 技术制约167

10.2.2 业务挑战171

10.3 Hadoop在数据仓库市场上的影响173

10.3.1 保持一切173

10.3.2 代码优先（模式延后）174

10.3.3 塑造价值175

10.3.4 计算问题176

10.4 介绍并行数据仓库176

10.4.1 何谓PDW177

10.4.2 PDW为什么重要178

10.4.3 PDW的工作方式180

10.5 Polybase项目188

10.5.1 Polybase架构188

10.5.2 当今Polybase的商业案例199

10.5.3 预测Polybase的未来201

10.6 本章小结204

第11章使用Windows BI呈现大数据205

11.1 工具生态系统205

11.1.1 Excel206

11.1.2 PowerPivot206

11.1.3 Power View207

11.1.4 Power Map207

11.1.5 报表服务208

11.2 使用PowerPivot的自助式大数据210

11.2.1 设置ODBC驱动程序210

11.2.2 加载数据211

11.2.3 更新模型217

11.2.4 添加度量标准218

11.2.5 创建数据透视表218

11.3 使用Power View加速大数据探索220

11.4 使用Power Map的快速空间探索224

11.5 本章小结225

第12章大数据分析227

12.1 数据科学、数据挖掘与预测分析227

12.1.1 数据挖掘227

12.1.2 预测分析228

12.2 Mahout介绍229

12.3 构建一个推荐引擎230

12.3.1 开始231

12.3.2 运行用户到用户推荐作业232

12.3.3 运行项目到项目推荐作业234

12.4 本章小结235

第13章大数据与云237

13.1 定义云237

13.2 探索大数据云提供商238

13.2.1 Amazon238

13.2.2 Microsoft239

13.3 在云端设置大数据沙盒239

13.3.1 开始使用Amazon EMR240

13.3.2 开始使用HDInsight244

13.4 在云端存储数据251

13.4.1 存储数据251

13.4.2 上传数据252

13.4.3 探索大数据存储工具252

13.4.4 整合云端数据254

13.4.5 其他云端数据源255

13.5 本章小结255

第14章现实生活中的大数据257

14.1 常见行业分析257

14.1.1 电信257

14.1.2 能源258

14.1.3 零售258

14.1.4 数据服务259

14.1.5 IT／托管优化259

14.1.6 市场社会情绪260

14.2 运营分析260

14.2.1 快速失败260

14.2.2 一个新的技术生态系统260

14.2.3 用户受众262

14.3 本章小结264

第Ⅵ部分继续向前发展大数据267

第15章创建和执行大数据计划267

15.1 获得赞助方和利益相关方的认同267

15.1.1 问题定义268

15.1.2 范围管理269

15.1.3 利益相关方的期望270

15.1.4 定义成功的标准270

15.2 确定技术上的挑战271

15.2.1 环境的挑战271

15.2.2 技能的挑战272

15.3 确定运营上的挑战273

15.3.1 制定设置／配置计划273

15.3.2 制定运行维护计划274

15.4 更进一步275

15.4.1 交付到运营276

15.4.2 部署之后276

15.5 本章小结276

第16章运营的大数据管理279

16.1 混合型大数据环境：云端与本地解决方案协同工作279

16.2 使用云计算和本地解决方案的动态数据集成280

16.3 大数据的集成思想281

16.4 大数据环境中的备份和高可用性283

16.4.1 高可用件283

16.4.2 灾难恢复285

16.5 大数据解决方案的管理286

16.6 创建运营分析286

16.6.1 HDP系统中心运营管理器287

16.6.2 安装Ambari SCOM管理软件包288

16.6.3 使用Ambari SCOM管理软件包进行监控296

16.7 本章小结300