本文根据吴仕橹老师在〖Gdevops全球敏捷运维峰会-广州站〗现场演讲内容整理而成。
讲师介绍
吴仕橹,汇丰科技数据分析经理。曾任职于Accenture负责对MG的大型系统集成系统的研发和交付,主要采用SpringIntegration并对其进行封装同时采用SOAP架构,近几年来,任职于HSBCTechnology投资银行部,致力于大型前台系统的开发和运维,从年开始专注于大数据方面包括数据安全、数据处理、数据可视化等自研平台的研发以及团队的DevOps转型。
分享概要
一、业务洞察和分析
二、数据和分析执行
三、数据安全与管理
四、数据交换
五、Rapid-V
大家常经常把数据比喻成石油。但是石油真正有价值的,是通过一些相应的技术提炼后得到的产品,比如煤油、汽油、机油以及一些通过进一步催化、裂化等技术得到的像凡士林之类产品。
因此,在看大数据时,我会把石油处理的整个工业化思路套入其中,再展开去看。一方面,大数据需要有一个技术平台的支撑;另一方面,它需要有各种各样的数据。技术平台支撑数据的处理,数据通过平台去实现业务价值。也就是工艺创造可重复利用的数据资产,然后在这些数据资产的基础上进一步带来更多更长远的业务价值。
一、业务洞察和分析
这个图就是我看大数据的第三个维度:数据的流水线,也就是我们常说的datapipeline。图中的s1s2s3相当于我们的石油开采厂,负责开采数据,然后通过运输管,把采集到的数据输送到相应的目标点进行储存。在我们的场景中,这个目标点就是数据湖。
数据存储起来之后,需要有相应的工艺对它进行加工。我们的数据工厂相当于石油的炼制工厂,它会通过蒸馏、催化裂化的技术对数据进行相应的处理,产出可重复利用的数据资产。这时候的数据资产可以怎么用呢?我们可以将它应用在很多维度。比如直接使用,因为这个阶段这些数据资产就好比石油炼制出来的煤油、汽油、机油等可以直接用在燃油机上,我们可以用这些数据资产来做报表或表格的直接呈现。
往更深的数据处理维度,也就是数据的insight。一个特别的例子就是数据科学,科学家可以在这个维度入场,在这些已经清理过并且处理得很漂亮的数据上建立机器学习的模型,从中带出更多的businessinsight。在这里我们会有一个疑问:这时候这些insight可以用来做什么呢?答案是帮公司省钱,或者带来新的业务价值。
我们回过头来讲一讲大数据平台的搭建。大数据平台中的部件很多,包括数据的采集平台或工具等。数据采集这部分我最不喜欢,因为我觉得它比较单一,简单粗暴地讲就是把数据进行copy和paste。但是如果想把它做好,这也可以是个技术活。设想一下,每天上千个系统的数据会通过离线和实时的方式注入数据湖中,所以它涉及到的数据量和工作流的调度,对它并发性的要求会特别高,所以喜欢做高并发的系统的小朋友们可以在这方面进行研究。
数据注入后,接着是数据的清洗、智能治理、数管理、安全性、可视化等,每一个都是可以展开讲的大话题,我今天只是拿其中的一两个来讲一讲。
二、数据和分析执行
图中展示的是我们的一个datapipeline,以用户案例作为视觉切入点。在这上面,我们有数据注入、数据清洗、数据连接、数据科学家进行数据分析、将最终的insight发给用户去consume。在这里我想着重讲一下关于link的这部分。在我们的部门里,我们用到了一个技术叫做EntityResolution,主题思想可以参考: