背景:某电信运营商是中国三大通信运营商之一,在全国30个省设有分公司,用户总量达7亿户。为提升整个集团公司的审计能力,促进企业活动的合法合规性,及时发现企业经营管理问题,避免重大经济损失,该运营商自年起在集团全国范围内开展了审计风险体系应用及实践工作。目前,已经在全国31个省分公司完成了大数据审计系统的建设。其中一半以上的省分公司底层数据库都采用CirroData进行支撑。
挑战:提高企业识别风险的及时性和准确性
数字化审计的核心技术一般分为五个步骤(如图1所示)。首先,通过研究政策法规、业务处理流程等,结合采集的电子数据,确定审计需求。根据审计需求,会建立多个分析模型,通过对原始数据的分析,对模型进行反复修正,最终选择一个最优的审计模型进行固化。此外,要想利用数据库中的原始数据进行审计分析,就必须要对这些数据按审计的目的进行“再加工”,换句话说,就是根据不同的维度,建立审计数据集市。最后,按照分析模型,对审计数据集市中的相应数据集进行扫描、分析,识别审计风险点,最终达到审计的目的。
而所有这一切动作的顺利进行都要依赖于底层数据库的存储与计算性能。
大数据审计需要大数据库。
审计系统能否全面的发现企业或政府工作中存在的风险点,很大程度上依赖于所使用的数据。由于数据量巨大,数据增长速度快,审计手段有限,从前审计工作都是使用抽样数据,存在风险隐患。无疑使用全量数据进行审计分析能够最为全面的检测到企业风险。这就需要背后有一个具备海量存储能力和极致计算性能的数据库支撑,以提高企业风险识别的全面性和及时性。
优化审计分析模型需要数据库具备高效的即席查询(ad-hocquery)能力。
建立优化、高效的审计分析模型是实施数字化审计的关键点。通常审计人员在设定了一个审计规则后,需要对全量数据进行查询,对该模型进行反复的验证和修改。这是一个主动探索的实验过程,设计的实验需要及时反馈结果,进而做出迅速调整。如果每一次反馈都需要数小时甚至数天的时间,不但直接影响工作效率,更会打断审计人员的思路,对建模过程造成干扰。因此,一个具备极致即席查询能力的数据库是必须的。
常态化风险扫描需要高性能的数据库。
当优化的审计分析模型被固化下来后,就需要根据该模型建立审计分析中间表,并对该数据集进行扫描、分析,识别风险点。这期间需要对数据原始表进行投影、连接、关联、筛选等一系列操作,之后还要定期对海量数据进行扫描,过滤、查询。高性能的数据库使得企业可以从之前的一次性风险核查转变为常态化风险扫描,将事后审计转变为事前事中审计,大大降低企业经营风险的发生。同时,也可以提高审计工作效率,节约审计人员成本。
为什么选择CirroData数据库:对海量数据快速处理
结合该电信运营商海量的数据规模,与审计系统的业务需求和特性,最终有一半以上的省分公司选择了CirroData数据库来支撑他们的大数据审计应用系统。
审计人员从前需要一天甚至几天才能得到的结果,现在数秒就能看到反馈,满足了建模过程中对时效性的要求。
电信运营商的数据量巨大,审计风险模型的逻辑复杂。CirroData高效的即席分析能力能够完美的支撑智能分析工具进行自助探索式分析,以构建并优化审计分析模型。CirroData底层采用分布式文件系统对大数据进行存储,同时又具备极致的MPP数据库计算性能。在电信某省分公司,审计人员对全量数据做同样的查询,CirroData数据库一般几秒到十几秒就能返回结果,而Oracle数据库需要数小时,甚至第二天才能结束查询。图2是该省分公司做的CirroData四节点集群和Oracle数据库(小型机)的性能对比测试。
多数据源数据轻松快速加载。该电信运营商业务庞杂,数据源众多。审计集市需要对企业的全量数据进行风险扫描,因此通常需要将数据从十余个,甚至更多数据源导入CirroData。目前,CirroData支持从Oracle,MySQL,DB2,Informix,Sybase,Hive等若干个远端或本地数据库的数据导入,同时还支持CirroData跨库加载,本地文本文件、本地和外部HDFS文本文件、以及UTF8和GBK、归档和压缩文件等多种不同格式的数据轻松迅速导入CirroData的各种表中。
审计人员能够使用熟悉的标准SQL提取和分析数据,无须学习新语言、熟悉新环境。
CirroData提供了与Oracle数据库高度兼容的PL/SQL标准服务,使用者无须学习新的语言和环境选项,降低了工作人员的学习成本。
结果:大数据统计分析赋能业务的不断提升
在使用大数据审计系统之前,审计人员构建、优化分析模型,以及扫描审计风险点的过程都十分低效。由于数量巨大,往往一个风险规则查询就需要数小时,甚至一天的时间。在这种系统条件下,工作人员很难构建出优秀的审计模型,并及时的发现存在的风险。而现在,用了该系统的审计人员,可以在数秒就得到查询结果,能够对审计模型反复进行修改和优化。在运营商内部进行的“创先争优风险模型竞赛”中,有三分之二的获奖省份都是采用了CirroData数据库进行支撑。截至去年,基于该审计系统建立的模型数百个,风险确认问题数量近三千个。
不同部门、不同岗位的工作人员都获益于审计系统统计分析性能的提升。领导层通过系统对风险模型的实时监控,能够更为及时的获得风险预警,以迅速做出管理决策;审计人员通过对海量数据的探索分析,高效的优化和管理模型,及时发现审计问题;信息化部只需将标准化的数据结构固化在系统中,便可支持审计人员自助提取数据和分析,将单次专题审计的时间从原来的1个月缩短为2周,工作效率提升50%。
通过构建基于CirroData数据库的审计系统,该电信运营商能够更全面、准确的分析、判断风险,在全国各省分公司及时发现管理漏洞,截至去年,该运营商发现问题金额近亿元,及时避免了多起重大经济损失;大大提升审计效率,节约人员成本;全国标准化的数据结构方便集团各分公司间的交叉审计;持续优化的风险库和风险分析模型,极大提高了智慧审计的层次与水平。
CirroData简介
CirroData是东方国信自主研发的新一代云化数据库,至今已拥有数百名企业级客户,部署超过数千节点。CirroData采用了先进的计算存储分离架构,融合了分布式存储和MPP并行计算的各自优势,轻松实现云平台上的即时弹性伸缩和扩展。
目前,CirroData已经成功申请国家发明专利二十余项,获得国家发改委定向数据库资金支持,并入选工信部颁发的百家大数据优秀案例。