大数据开发之数据仓库Hive环境的搭建

设计求职招聘微信群 http://liangssw.com/bozhu/12963.html

数据仓库

数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。

它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

数据库和数据仓库区别

数据库是面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。

数据仓库一般针对某些主题的历史数据进行分析,支持管理决策,又被称为联机分析处理OLAP(On-LineAnalyticalProcessing)。

比如,支付宝年度账单其本质是基于数据仓库进行数据可视化而成。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。

数据仓库分层

按照数据流入流出的过程,数据仓库架构可分为三层——源数据(ODS)、数据仓库(DW)、数据应用(APP)。

Hive

Hive是一个构建在Hadoop上的数据仓库框架。最初,Hive是由Facebook开发,后来移交由Apache!软件基金会开发,并作为一个Apache开源项目。

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以存储、查询和分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL査询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行。

Hive支持Mapreduce、Tez、Spark等分布式计算引擎。

Hive环境搭建

在Hive环境搭建无需配置集群,Hive的安装其实有两部分组成,一个是Server端、一个是客户端,所谓服务端其实就是Hive管理Meta的那个Hive,服务端可以装在任何节点上,可以是Namenode上也可以是Datanode的任意一个节点上。

Hive的客户端界面工具早期选择SQuirrelSQLClient,但最近我喜欢上了ApacheZeppelin,ApacheZeppelin是一款基于Web的NoteBook,其实和JuypyterNotebook没有什么两样。

在Hive环境搭建,需要搭建Mysql,这里选择节点node02进行Mysql环境搭建。

[hadoop

node02~]cdmodule/[hadoop

node02module]mkdirmysql[hadoop

node02module]cdmysql/[hadoop

node02mysql]#wget


转载请注明:http://www.aierlanlan.com/rzdk/3613.html