大数据技术入门HadoopSpar

技术背景

近年来，随着大数据底层设施的逐渐成熟，大数据技术开始结合具体行业，向行业应用延伸。围绕数据资源、基础硬件、通用软件等方面的大数据产业正在逐渐形成。各行各业对大数据人才的需求也日益增强。鉴于此，国内外一些高校先后开设“数据科学与大数据”专业，旨在培养具备大数据技术的高级人才。

编写目的

为满足相关技术人员和高校师生学习大数据技术基础知识，我们在总结近几年大数据技术基础知识和应用案例的基础上，以理论结合实践的方式将大数据基本概念、大数据开发技术与实际应用相结合，精心组织并完成了本书的编写。

本书主要内容

本书为一本夯实大数据基础知识，以实际应用为导向的书籍，非常适合初、中级学习大数据技术的读者。读者可以在短时间内学习本书中介绍的所有知识，掌握大数据技术的开发方法。

作为一本关于大数据技术的入门书籍，本书共有14章。

第1章主要介绍了大数据的研究背景、大数据的定义及其技术特点以及大数据处理的主要技术特点与难点，最后阐述了研究大数据的意义。

第2章主要介绍了Hadoop的起源、生态体系和集群架构，对Hadoop的安装配置进行了详细的讲解。

第3章主要介绍了Hadoop中非常重要的分布式存储文件系统——HDFS，分析了HDFS的存储架构以及常用Shell命令和JavaAPI，并且通过一个具体案例实现了HDFS的JavaAPI的编程。

第4章主要介绍了Hadoop的分布式计算框架MapReduce，分析了MapReduce的核心思想、工作原理、运行机制以及MapReduce的核心过程Shuffle，最后通过单词计数和倒排索引两个案例详细分析MapReduce的编写过程和思路。

第5章主要介绍了Hive的架构、安装和相关操作，重点介绍Hive的DDL、DML、DQL操作。

第6章首先介绍了HBase的架构、寻址机制以及HBase的安装，然后介绍了HBase的Shell操作，包括新建表、插入数据、删除等操作，最后介绍了HBase常用的JavaAPI，并且进行了案例实现。

第7章主要介绍了Spark的基本概念和主要特点、Spark的安装、运行架构和运行基本流程，是为学习SparkRDD和SparkSQL做基础知识储备。

第8章主要介绍了RDD的运行原理和运行流程，并对RDD的基本操作进行了详细的介绍，最后用一个Scala编程案例实现对RDD的操作。

第9章主要介绍了SparkSQL的原理和运行流程，并对DataFrame的基本操作进行了详细的介绍，最后通过三个Scala编程案例实现了SparkSQL的DataFrame操作、SparkSQL读写MySQL数据库和SparkSQL读写Hive。

第10章主要介绍了SparkStreaming的一些基本概念和原理，介绍了DStream编程模型，最后通过三个Scala编程案例实现了DStream的有状态状态操作、无状态状态操作、输出操作。

第11章主要介绍了SparkStreaming与Flume、Kafka的整合，介绍了Flume和Kafka的安装过程，最后通过一个Scala编程案例实现SparkStreaming与Flume、Kafka的整合与开发。

第12章介绍了机器学习的定义和分类，重点介绍了SparkMLlib目前包含的算法和组件，通过四个具体实例TFIDF、线性回归、逻辑回归、协同过滤展示了利用SparkMLlib进行机器学习的方法和步骤。

第13章介绍了分布式优惠券后台应用系统的开发核心思路，优惠券后台应用系统包括商户投放子系统和用户消费子系统，分别介绍了两个子系统的核心代码以及测试调用过程。

第14章介绍了新闻话题实时统计分析系统的开发核心思路和核心代码以及启动调用过程。

本书特色

（1）以实战开发为导向，对基础理论知识点与开发过程进行详细讲解。

（2）实战案例丰富，涵盖16个完整项目案例和两个综合案例，综合案例可以加深对本书所学的知识点的理解和掌握。

（3）代码详尽，避免对API的形式展示，规避重复代码。

（4）语言简明易懂，由浅入深带领读者学会以Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。

配套资源

为便于教学，本书配有源代码、数据集、安装程序、教学大纲。

编辑推荐

16个完整的项目案例和两个综合案例，配有教学大纲等资源

读者对象

本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。