‘大’有可为”暨星环科技第二届证券基金高峰论坛在上海拉下帷幕。星环科技携手证券基金行业精英,共同探讨如何通过大数据和人工智能为证券基金业务创新赋能。因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,特推出演讲嘉宾速记,以最大程度弥补这个遗憾。山西证券科技金融部副总经理林永峰和大家分享了山西证券在大数据智能中心构建过程中的问题与经验,演讲内容主要包括以下三个方面:一、数据工作常见问题二、大数据智能中心三、大数据应用介绍01、数据工作常见问题各位领导、现场的各位大数据同仁,大家好,感谢主办方的邀请,由我来分享一下山西证券在大数据方面的一些工作实践:“大数据智能中心助力科技证券构建”。报告分3个部分:背景、内容和应用。首先讲2个问题,作为大数据的甲方客户经常会被问到的2个问题。第一个是,我们要不要上大数据系统?答案是肯定的,要。为什么呢?有这样一些原因,都很实际。但如果再深入问一句:“哎,你们家上的大数据平台好用吗?”“其实效果一般般”。为什么呢?这里既有厂商的原因,也有金融企业自身的原因。自身的原因还更多一些。厂商在推介产品的时候更多的是介绍成功案例,却很少说这些成功案例中的甲方如何投入。而企业自身呢?不主动调查,不愿意深入投入,以为搭个平台、做个系统就可以实现诸如用户画像、精准营销、大数据风控之类的应用产品。很奇怪,如果做个类比,大数据计算和存储系统,其实就是类比于Oracle、sqlserver等关系型数据库,但我们买个密钥,装个Oracle,却不会有类似的高期望。究其本质,就在于我们对关系型数据库已经非常熟悉了,它就是做计算和存储的嘛,至于应用如何开花结果、如何服务客户,那还需要再加倍投入。同样的道理,对于大数据系统和应用,光有这把屠龙刀还不够,还需要企业有屠龙术。这个报告主要是分享一下大数据的屠龙术。首先是我们在大数据工作中会遇到的几个常见问题,声明一下,上列的问题主要是出现在构建大数据平台和满足业务需求的阶段,并不全面覆盖所有数据处理和数据分析过程。但这些的确是困扰数据团队的最基础的几个问题。首先是:多种数据库并存,数据存储分散,交叉使用不便。至少我们会碰到sqlserver、Oracle、mysql、文本日志、json、hdfs等基础数据存储格式,给交叉分析带来很多不便。第二个是数据处理缺乏统一规范,不同人员的理解及处理方法不一致,引起歧义,且方法难以复用和扩展。第三点是单点开发,文档记录不完善,数据知识共享不便,导致重复造轮子及交接不便。也就是说在解决业务,一个人从头做到尾,解决需求的过程中也没法留下一些可用的中间结果,给团队其他同事复用,其他类似需求,如果换个人做,几乎就是从头做一遍。最后是任务调度,在大数据中心建设好一段实践后,任务数量上来了,如何安排新任务的执行,需要对已有任务非常熟悉,才能保证系统不会崩溃,不会锁表,非常劳心费神。面对刚才提到的问题,我们的建设方案主要有:建立统一的数据接入及存储方案,集中管理和使用数据;建立自动化数据处理框架,规范数据处理方法,并支持快速扩展及复用;建立数据管理平台做为数据工作的统一入口,通过平台记录和积累工作成果以及知识共享;自适应任务调度+数据监控,自适应环境+快速发现及定位问题,让机器自己去调度。这里过得比较快,因为这些在我们的大数据智能中心中会重点介绍。02、大数据智能中心下面开始主要的内容,介绍山西证券的大数据智能中心。什么是大数据智能中心呢,简单的就是:集数据资产、智能数据平台、数据应用组装的大数据解决方案。整体结构如下图所示,业务需求进入“大数据智能中心”,智能数据平台基于完善的数据字典,快速抽取合适的数据资产,在智能调度下,组装出一个个的应用,输出满足业务需求的赋能产品。这些数据应用可以灵活组装,保证数据服务的稳定高效,同时值得指出的是,这个系统是智能的,即可以自我学习和进化,进化到适合当前的山西证券的业务和硬件形态,这个在后面会详细讲到。通过这些智能技术手段,可以使大数据更快更灵活的发挥效用,保证业务应用的快速探索和投产。数据资产是“大数据智能制造厂”的基石。数据资产来自生产数据的清洗、转换和整合,达到科学管理的目的。截止至目前,已累积这些数据量,规模还不算大,正在逐步接入更多的业务系统。大数据平台是计算存储核心,以星环的Hadoop/Spark为基础,集大数据采集、存储、计算、分析与应用功能。在数据工厂和模型工厂,生成各个集市,存放着我们的数据资产,上层是各种应用,利用这些应用进一步支持业务需求。这个整体以数据字典和智能调度系统为基础的数据治理平台来管控。数据应用灵活组装是业务赋能、客户赋能、管理赋能的基础,数据应用在应用组装工作间中产生。应用组装工作间坚持“去中心化”,需求导向促进数据字典自动进化,数据字典促进工具和调度系统进化。当需求引入后,就进入数据字典配置。开发人员通过自助建模工具提交任务。任务智能调度系统依据数据字典自动调整计算优先级。任务智能调度系统具有自我学习功能,会根据最新的数据字典和任务运行情况自动调整任务执行顺序,达到系统最佳运行状态和资源最优化。通过应用的便捷组装,快速稳定高效的输出数据服务,保证智能产品的快速投产。03、大数据应用介绍以上就是大数据智能中心的技术核心,下面是基于大数据智能中心的一些应用介绍。按服务对象,我们将大数据应用分为3类,第一个是为业务赋能,提升业务工作效率,更有效支撑业务发展;第二是直接为客户赋能,也有为机构客户的数据产品。第三是为管理赋能,建立科学的管理指标体系,包括大数据风控、监管数据报送、绩效考核等等。下面我们来看一些具体的应用。数据可视化是数据透明服务的基础,帮助业务发现问题、定位问题。我们的宗旨是打造一个多层次多端的数据触达服务,为不同的数据消费者提供便捷的数据触达,同时满足行业数据安全的要求。用户画像系统是客户服务体系IT框架中的重要一环,结合数据可视化门户,使之具备实用和传播特性。采用用户数据化、专家规则、机器学习预测等方法实现个体客户画像,采用业务分类的方式实现客户群体画像。利用此系统,配合营销策略和产品画像,实现精准营销和个性化推荐。右边是一些群体画像,比如可以看出年龄越大,可支配财富越多,财富都在老年人手里等等,这些结论,积累的多了,对线下服务可起到确定性的帮助。这是我们利用星环的算法产品sophon做的潜在高价值客户预测,主要使用了随机森林模型。在召回率和准确率约75%的时候,可以从现有低价值客户中预测出大约15%的潜在高价值客户。右边这边的小人,是对结果的特征总结,这些都是模型中考虑的特征项,字越大,对模型结果的决定性越高。比如高学历、开户时间长、历史资产峰值,某个客户如果具有这几个特征,那他是高价值客户的概率就很高。CRM是用户数据和产品数据的主要输出口,也是一线营销经验反馈回大数据中心的入口,所以是总部后台、分支机构、客户服务的链接纽带。山西证券的CRM、MOT正在逐步由大数据智能中心进行直接支撑。为管理赋能,这里以山西证券正在全力推进的大数据风控平台建设为例。为改变当前风控系统都是烟囱式的技术架构,造成各系统使用不便,迭代缓慢,定制化需求几乎无法得到满足。因此我们构建以大数据为中心,以统一数据治理为管控的全面风控平台。主要由4部分,一个风险管理驾驶舱,呈现核心风险指标,风险监控和风险管理形成有机整体,底层由大数据中心形成数据资产,统一支撑和管理。这样可以达到既定的5个目的:风控系统统一用户管理、多供应商模块接入、核心算法自控、科学的数据治理和快速需求响应和迭代。最终目标是形成实时的、涵盖事前事中事后的主动式风控体系。为管理赋能的最终目标是打造数据透明服务,让数据像空气、像水那样,无处不在,触手可得,持续为公司和业务部门管理及运作提供数据支持。目前,大数据智能中心已通过各种报表的方式触达各个部门,逐步在整个公司形成“人人都是数据分析师”的数据文化。为客户赋能主要集中在智能化投资辅助工具的打造,这一块基本还在规划中。可以分为4个部分,交易服务、专业服务、社区服务和智能客服。在交易服务中,在客户交易的每一个过程中为客户的决策进行全方位智能服务。专业服务是偏向于财富管理类的智能投顾服务。智能化的社区服务产品,能有效的提升客户活跃,投教类可能会成为下一轮智能营销的突破点。最后是智能客服服务,这一块该是人工智能技术应用最广泛的领域,主要由于其普适性,所以有很多供应商在这方面做得很好,区别于上面3块,山西证券的智能客服已经由外部供应商进行了部署。最后再次谢谢大家,以上就是我的分享和汇报。谢谢!