文章以数据产品经理老曹和数据开发工程师大熊对话的这则小故事,来给大家科普一下,数据治理到底是怎么去弄呢?最近,前同事老曹跳槽到去了一家初具规模的互联网公司,作为刚入职公司的第一位数据产品经理,在数据质量这块,明显感觉到了前所未有的焦虑和心酸:数据分析师翠花:老曹,今天的数据又没有产出,咋回事啊?我还忙着写分析报告呢!!!数据产品经理老曹:呃……你等等,我和数据开发工程师大熊一起看看。于是,老曹急忙跑到数据开发工程师大熊身边,气喘吁吁的说:大熊,今天数据的pipeline是不是又挂掉了啊?数据开发工程师大熊一脸迷茫的看着老曹,胆怯的说到:“我也不知道啊,我手动查查看吧。”数据产品经理老曹有点暴躁了,一脸问号的说:数据没有产出或者有问题,你们都不做报警的吗?数据开发工程师大熊低下了头,一言不语。老曹有点忍不了了,拖过来一个画板,开始给大熊科普下数据治理应该怎么搞。产品千万种,数据第一条,建设不规范,公司两行泪。作为一个在大数据领域工作多年的数据产品经理,我觉得数据中特别重要的就是数据质量,随着业务发展,数据量呈爆炸式增加,数据发挥的价值越来越大,数据质量问题也变得越来越严重,低质量的数据不仅使用不便,还会误导决策,甚至灾难性的结果,数据质量的好坏,决定了数据是否能够真正发挥价值。数据开发工程师大熊低着头说:你说的这些,我都懂,但是总感觉数据质量有点虚,应该从哪些方面来衡量它呢?老曹接着往下说:是的,那么如何判断数据质量的高低呢?什么样的数据是高质量的呢?引用美国著名的质量管理学家朱兰博士(J.M.Juran)的一句话:Iftheyarefitfortheirintendedinoperations,decisionmakingandplanning.翻译一下,就是,如果根据这些数据做出的操作、决策和规划,符合之前的预期,那么这些数据就是高质量的,换个角度来理解,高质量的数据可以真实反映它们所代表的主体信息。结合大数据与业务经验,在从定性的角度来看,影响数据质量的因素包括数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。其中,数据的完整性是指业务涉及到数据是完整的,能够对业务使用影响很大的数据都要保持一定的完整性;数据的正确性要满足准确性和精准性两方面,即数据要是准确无误的,数据要在精度上满足业务需求;数据的一致性要满足同一个指标的口径要一致,数据不要有二义性;数据的可获取性是指使用数据的时候,数据是被有效组织的,并且能够被高效获取;数据的时效性指使用的业务数据都是最新的,而不是无效的过期数据。数据开发工程师大熊越听越有兴趣,抬起头说:我们程序员都比较
转载请注明:http://www.aierlanlan.com/rzfs/8793.html