大数据开发之数据仓库Hive环境的搭建

数据仓库

数据仓库，英文名称为DataWarehouse，可简写为DW或DWH。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。

它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

数据库和数据仓库区别

数据库是面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。

数据仓库一般针对某些主题的白癜风进行分析，支持管理决策，又被称为联机分析处理OLAP（On-LineAnalyticalProcessing）。

比如，支付宝年度账单其本质是基于数据仓库进行数据可视化而成。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。

数据仓库分层

按照数据流入流出的过程，数据仓库架构可分为三层——源数据（ODS）、数据仓库（DW）、数据应用（APP）。

Hive

Hive是一个构建在Hadoop上的数据仓库框架。最初，Hive是由Facebook开发，后来移交由Apache!软件基金会开发，并作为一个Apache开源项目。

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以存储、查询和分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL査询语言，通过底层的计算引擎，将SQL转为具体的计算任务进行执行。

Hive支持Mapreduce、Tez、Spark等分布式计算引擎。

Hive环境搭建

在Hive环境搭建无需配置集群，Hive的安装其实有两部分组成，一个是Server端、一个是客户端，所谓服务端其实就是Hive管理Meta的那个Hive，服务端可以装在任何节点上，可以是Namenode上也可以是Datanode的任意一个节点上。

Hive的客户端界面工具早期选择SQuirrelSQLClient，但最近我喜欢上了ApacheZeppelin，ApacheZeppelin是一款基于Web的NoteBook，其实和JuypyterNotebook没有什么两样。

在Hive环境搭建，需要搭建Mysql，这里选择节点node02进行Mysql环境搭建。

[hadoop

node02~]cdmodule/[hadoop

node02module]mkdirmysql[hadoop

node02module]cdmysql/[hadoop

node02mysql]#wget