很多大数据开发工程师,特别是Hadoop初级工程师,经常被如何快速开发和调试Hadoop生态系统各种应用的问题所困扰。Hadoop生态组件众多,每个组件都有自己的访问方式和开发接口。在以往的开发工作中,开发者需要打开各种终端来调试一个问题,当使用Hive时,需要开启hivecli终端,此时,如果需要访问HBase中的数据时,又得再开启一个Hbase的shell终端,然后还需要对spark程序调试时……这还不包括频繁shell远程登录hadoop集群上的Linux系统。
这样做的结果就是效率就会非常低,尤其是反复调试查询语句时,需要不断修改代码再重复打包上传。现在,亿信华辰实时大数据平台PetaBase-i提供了一种非常方便的数据可视化开发工具PetaBaseUDE,能帮助开发者轻松开发和调试Hadoop中各种应用的数据。
PetaBaseUDE几乎可以支持所有大数据框架,包括HDFS文件系统的页面,你可以对hdfs文件进行增删改查;有HIVEUI界面,你可以在页面上编写HiveQL语句,进行数据分析查询,还有YARN监控及Oozie工作流任务调度页面等等。PetaBaseUDE通过把这些大数据技术栈整合在一起,通过统一的WebUI来访问和管理,可以极大地提高开发者和管理员的工作效率。这里我们向大家展示一下PetaBaseUDE的几个核心功能:
SQL编辑器
这是SQL开发人员和分析师的智能编辑器,它打通了多个计算引擎如:Spark、Hive和HBase等,用户可以在编辑器中提交执行SparkSQL、HiveQL进行数据操纵,甚至是查询其他关系型数据库数据。编辑器在易用性方面做了一些增强,包括代码高亮、自动完成、智能提示、SQL助手、代码格式化、历史浏览、结果导出等。
HDFS文件浏览器
PetaBaseUDE提供了可视化的HDFS文件系统访问界面,使得对HDFS中的数据的操作完全能够通过UI界面完成,包括查看文件中的内容。用户可以很方便的浏览HDFS中的目录和文件,并且进行文件和目录的创建、复制、删除、下载以及修改权限等操作。
作业浏览器
PetaBaseUDE以可视化的方式向用户展示任务的执行情况,例如:任务的执行进度、任务的执行状态(正在运行、成功、失败、停止),任务的执行时间。选择具体的某个任务,还能够显示该任务的详细信息、元数据、错误日志等。除此之外,PetaBaseUDE还提供了关键字查找和按照任务执行状态分类查找的功能。
笔记本编辑
PetaBaseUDE提供了一个名叫笔记本的脚本编辑功能,用户可以通过笔记本执行scala、python或者spark程序,在笔记本中编写并提交基于各种框架的程序,可极大提高用户代码的复用性。在日常数据分析应用中,有时候需要编写一段代码或者多个查询语句,提供给业务方实现某个需求,以供他们需要时使用,这时候就可以在笔记本编辑中开发并保存,然后将笔记本提交给业务方即可。
笔记本编辑支持绝大部分主流语言,包括:scala、java、hive,spark,R等,还能支持mysql等关系型数据库的sql语言。如下图所示,在笔记本编辑器中编写scala代码。
或者在笔记本中执行spark程序,如下图:
PetaBaseUDE还有许多非常有趣的功能,限于篇幅,这里就不一一介绍了,如果你有兴趣,欢迎留言或私信。