近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生到分析结果的计算,数据时效性对业务的蓬勃发展起到更至关重要的作用。
而针对当前大数据领域分析场景需求各异而导致的存储问题,亿信华辰则提供了一种新的融合数据存储方案,能融合不同架构的统一数据管理平台即PetaBase-s实时大数据平台。与早期的分布式数据库产品相比,PetaBase-s全面升级为实时大数据平台。它基于开源Hadoop框架开发,融合MPP、SQLonHadoop、流处理等大数据技术,支持海量数据的高效储存和统一管理,为企业决策提供实时的数据支撑。
这些年,我们一直在致力于解决两个问题:
1)数据量不断快速增长,期望获取、处理和存储要求的时间越来越短;
2)用户对即时查询(hocquery)响应的要求越来越高。
在经过近一年紧张有序的开发和大量测试之后,PetaBase-s在功能和性能上都实现大幅度的提升。它就可以解决星形模型、企业数据仓库以及集成的先进分析混合模型分析等应用场景,从传统数据仓库用例到敏捷快速的实时数据智能平台,PetaBase-s实时大数据平台都很适合。
△PetaBase-s产品架构图下面让我们一起来看看PetaBase-s实时大数据平台都有哪些重要特性:
01全面扩展开源软件
早期的PetaBase分布式数据库集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共计5个主流组件,主要面向海量数据集的交互式联机分析场景。
新版的PetaBase-s实时大数据平台采用了全新的企业级平台框架,以开源的Ambari作为平台统一管理工具,集成了诸多主流开源组件,数量总计近20个。其中包括:YARN(统一资源管理)、HBase(列存NoSQL数据库)、Spark(快速通用的、基于内存的、分布式的计算引擎)、Kudu(支持单条记录级别的增删改查的存储系统)、Kafka(分布式发布订阅消息系统)、Flume(分布式的海量日志采集系统)、Sqoop(关系型数据库与hdoop之间的数据ETL工具)等。
无论你需要处理的数据结构是哪种:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,PetaBase-s都能处理。在海量的非结构化/半结构化/结构化数据集上同时进行离线计算和流式处理,还能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
02支持单行记录级的增删改查
PetaBase-s实时大数据平台引入了新的存储系统——Kudu。Kudu是一个既支持随机读写、又支持OLAP分析的大数据存储引擎。Kudu引擎不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。
03基于流式处理的实时计算功能
PetaBase-s实时大数据平台集成了Spark引擎,并基于SparkStreaming框架开发了一套可进行实时流计算的功能模块StreamProcessor。StreamProcessor可以实现高吞吐量的、具备容错机制的实时流数据的处理。它借助ApacheSparkEngine处理微小批量的实时数据,并进行内存计算和处理优化。
另一个显著特点是用户可以用SQL书写数据处理逻辑,比如聚合、关联、过滤等。它支持SparkSQL语法,这样用户能直接使用现有的查询技术实时计算流数据。
04支持多种传输协议的数据采集
Petabase-s实时大数据平台添加了对多种数据源的接入支持,可支持OPC、MQTT等数十种传输协议,覆盖从工业物联网到传统电子交易的实时采集场景。
PetaBase还提供了基于数据库日志的采集接口,能支持Oracle、Mysql、PostgresQL、SqlServer等主流rdbms的cdc数据采集,实现联机交易类的业务数据到大数据平台的实时同步。
05更加直观易用的统一运维中心
PetaBase-s实时大数据平台提供了一致、安全的可视化管理工具。平台向用户提供直观的WebUI以及强大的RESTAPI,特别有利于自动化群集操作。与早期的控制台相比,新版的控制台可显著简化安装,配置和管理流程,提供集中式安全设置,增加了对群集健康的可视化监控,并具有高度可扩展性和可定制性。
除此之外,控制台还提供了对存储在PetaBase-s中的文件、数据进行访问管理的IDE。用户可以在这个IDE中编写mr,查看修改Hdfs的文件,管理Hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
06HTAP(OLAP+OLTP)性能增强
PetaBase-s实时大数据平台在存储层增加了LSM存储模型,LSM(结构化日志合并)树模型非常适合大规模在线读写。新增的存储模型对用户是非常友好的,用户甚至不需要特别