第二章:数据治理的边界在哪里
在数字化转型的浪潮中,数据治理已成为企业不可忽视的核心议题。然而,面对这一庞然大物,许多企业和数据管理者往往感到无从下手。本文深入探讨了数据治理的边界问题,分析了数据生产者、数据加工者和数据消费者三个参与方的角色与责任,以及数据治理的两种边界范围。 面对数据治理,不知道其他人什么感受,我的感受好像面对一个庞然大物,无从下手。似乎有很多的事情需要做,但是具体做哪些?先做什么,再做什么?有没有牵一发而动全身的那个关键节点?如何能够做到有阶段性产出?怎么顺利进行推进?等等,似乎问题比答案要多。 如果说第一个需要达成共识的,目前,个人认为,数据治理的第一步是确定要治理的边界。 一、数据的三个参与方 如果按照数据流向,数据一共有数据生产者、数据加工者、数据消费者,这三个参与方。 数据生产者就是产生数据的业务系统。数据加工者,就是进行清洗、建模、加工的数据部门,一般是数据中台部门。数据消费者,就是最终使用清洗、加工好数据的部门,可以是业务部门,也可以是分析部门。 二、数据治理的两种边界范围 这里所说的确定数据治理的边界,是要确定,仅针对数据加工者所涉及的范围进行治理,还是也要包括数据生产者所涉及的范围。 换句话说,是仅仅对业务系统产生数据后,导入到数据中台的数据进行治理,即入湖后的治理。还是对业务系统产生数据时,在导入数据中台之前就开始治理,即入湖前的治理。 从名字上来说,要进行企业级的数据治理,那么我们当然既要入湖前的治理,又要入湖后的治理了。但是实例情况是这两种治理在难度上、流程的、沟通范围程度等等差别还是挺大的。都说数据像水流,这种入湖前的数据治理,就像一条河的下游,要求河上游进行治理,可想而知难度了。 第一种,入湖后的数据治理,主要是数据中台(假设是数据中台进行牵头)为主,其他业务部门辅助。第二种包含入湖前的数据治理,却是真正的全公司都需要进行系统适配、改造了。华为据说已经达成了,入湖前和入湖后的治理,在业务系统上线发布前,都必须符合数据治理的一些标准,质量要求,如果不符合不允许系统上线。 如果在数据治理项目初期就说,我需要进行入湖前和入湖后的全局数据治理,我需要全公司的配合改造,大概率是不会成功的。这时候经常会听到“数据治理是一把手工程”,但是个人感觉,一把手怎么支持,支持什么。真要无脑支持影响了业务系统谁负责。毕竟,数据治理 在目前来看还是属于锦上添花阶段。 而且,目前的感觉,一个明确的、可成功的路径似乎并不是完全清晰的。 当然,这并不是说不需要领导的支持,领导的支持在数据治理过程,个人认为算是一个天时的条件(后续还会说到地利、人和)。而是说明确路径之后,才能让领导支持,让领导给人、给钱、给时间,并要控制好预期。 大部分时候支持都是有条件的,需要先看到成功的希望,才能得到支持。 三、是否做入湖前的数据治理 那就完全不进行入湖前的数据治理了吗?倒也不是。而是说在开始的时候,只做入湖后的数据治理,之后通过问题驱动,通过场景驱动来逐渐的渗透到入湖前的数据治理,来影响业务,实现全局数据治理。 问题驱动好理解,就是哪天发现哪个数据出现不一致了,口径无法统一,值没有办法对齐,原因是因为某个系统数据经常有异常,这个时候,就可以通过这个问题来驱动业务进行导入数据中台前的数据治理,也就是对业务系统进行数据治理。通过错误数据,来倒逼源头系统的数据质量改善。 当然,这个过程都需要有工具监控,有工具支撑。能够让业务系统使用工具灵活的配置相关的监控规则。而不是人工进行操作,后续也没有办法进行效果统计。这个就涉及到工具准备了。而且在工具之上还需要有政策规范,通过工具来落地。还要有对应的组织人力,能够响应负责这件事情。 另一个,就是通过场景驱动。通过一个比较重要的场景,公司内部一直有对不齐的口径,相同的指标,你说这个值,我说这个值。或者是关键主数据信息,就是不能跨系统拉通,如:人员、地址等等。这个时候,通过一个场景,来协调不同组织的人,按照同一个规范,使用工具进行口径的统一。如将公司内不同系统的地址数据统一,将公司内不同系统采集的人员建立ECIF打通一致。 这种场景驱动的治理,每一个都会是一个比较大的系统工程。像上面说的ECIF就是一套独立的系统来做用户主数据的打通。 采用这种逐步改进的形式来影响业务,实现将入湖前的系统数据治理的目标。 而且,先进行入湖后的数据治理,也有一个原因,通过入湖后的治理这个动作,来增加数据中台部门和业务的沟通交流,以及信任。能够让业务知道,正在做的事情是一件什么事情,从行动层面影响业务,而不是让业务觉得这件事情可做可不做,甚至有抵触情绪。 四、总结 本章主要说了下,个人理解的数据治理时,需要第一个确认的问题:数据治理的边界问题。在开始的时候,主要针对入湖后的数据进行治理,而后不断通过,问题驱动、场景驱动的方式进行入湖前的治理,从而实现全局的治理。 确认了数据治理的边界之后,在继续介绍数据治理内容之前,我们先说一下数据管理和数据治理的区别。通过确定这两个概念的不同含义,进而更好的理解数据治理是个概念。 本文由人人都是产品经理作者【数据小吏】,微信公众号:【数据小吏】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
在数字化转型的浪潮中,数据治理已成为企业不可忽视的核心议题。然而,面对这一庞然大物,许多企业和数据管理者往往感到无从下手。本文深入探讨了数据治理的边界问题,分析了数据生产者、数据加工者和数据消费者三个参与方的角色与责任,以及数据治理的两种边界范围。
面对数据治理,不知道其他人什么感受,我的感受好像面对一个庞然大物,无从下手。似乎有很多的事情需要做,但是具体做哪些?先做什么,再做什么?有没有牵一发而动全身的那个关键节点?如何能够做到有阶段性产出?怎么顺利进行推进?等等,似乎问题比答案要多。
如果说第一个需要达成共识的,目前,个人认为,数据治理的第一步是确定要治理的边界。
一、数据的三个参与方
如果按照数据流向,数据一共有数据生产者、数据加工者、数据消费者,这三个参与方。
数据生产者就是产生数据的业务系统。数据加工者,就是进行清洗、建模、加工的数据部门,一般是数据中台部门。数据消费者,就是最终使用清洗、加工好数据的部门,可以是业务部门,也可以是分析部门。
二、数据治理的两种边界范围
这里所说的确定数据治理的边界,是要确定,仅针对数据加工者所涉及的范围进行治理,还是也要包括数据生产者所涉及的范围。
换句话说,是仅仅对业务系统产生数据后,导入到数据中台的数据进行治理,即入湖后的治理。还是对业务系统产生数据时,在导入数据中台之前就开始治理,即入湖前的治理。
从名字上来说,要进行企业级的数据治理,那么我们当然既要入湖前的治理,又要入湖后的治理了。但是实例情况是这两种治理在难度上、流程的、沟通范围程度等等差别还是挺大的。都说数据像水流,这种入湖前的数据治理,就像一条河的下游,要求河上游进行治理,可想而知难度了。
第一种,入湖后的数据治理,主要是数据中台(假设是数据中台进行牵头)为主,其他业务部门辅助。第二种包含入湖前的数据治理,却是真正的全公司都需要进行系统适配、改造了。华为据说已经达成了,入湖前和入湖后的治理,在业务系统上线发布前,都必须符合数据治理的一些标准,质量要求,如果不符合不允许系统上线。
如果在数据治理项目初期就说,我需要进行入湖前和入湖后的全局数据治理,我需要全公司的配合改造,大概率是不会成功的。这时候经常会听到“数据治理是一把手工程”,但是个人感觉,一把手怎么支持,支持什么。真要无脑支持影响了业务系统谁负责。毕竟,数据治理 在目前来看还是属于锦上添花阶段。
而且,目前的感觉,一个明确的、可成功的路径似乎并不是完全清晰的。
当然,这并不是说不需要领导的支持,领导的支持在数据治理过程,个人认为算是一个天时的条件(后续还会说到地利、人和)。而是说明确路径之后,才能让领导支持,让领导给人、给钱、给时间,并要控制好预期。
大部分时候支持都是有条件的,需要先看到成功的希望,才能得到支持。
三、是否做入湖前的数据治理
那就完全不进行入湖前的数据治理了吗?倒也不是。而是说在开始的时候,只做入湖后的数据治理,之后通过问题驱动,通过场景驱动来逐渐的渗透到入湖前的数据治理,来影响业务,实现全局数据治理。
问题驱动好理解,就是哪天发现哪个数据出现不一致了,口径无法统一,值没有办法对齐,原因是因为某个系统数据经常有异常,这个时候,就可以通过这个问题来驱动业务进行导入数据中台前的数据治理,也就是对业务系统进行数据治理。通过错误数据,来倒逼源头系统的数据质量改善。
当然,这个过程都需要有工具监控,有工具支撑。能够让业务系统使用工具灵活的配置相关的监控规则。而不是人工进行操作,后续也没有办法进行效果统计。这个就涉及到工具准备了。而且在工具之上还需要有政策规范,通过工具来落地。还要有对应的组织人力,能够响应负责这件事情。
另一个,就是通过场景驱动。通过一个比较重要的场景,公司内部一直有对不齐的口径,相同的指标,你说这个值,我说这个值。或者是关键主数据信息,就是不能跨系统拉通,如:人员、地址等等。这个时候,通过一个场景,来协调不同组织的人,按照同一个规范,使用工具进行口径的统一。如将公司内不同系统的地址数据统一,将公司内不同系统采集的人员建立ECIF打通一致。
这种场景驱动的治理,每一个都会是一个比较大的系统工程。像上面说的ECIF就是一套独立的系统来做用户主数据的打通。
采用这种逐步改进的形式来影响业务,实现将入湖前的系统数据治理的目标。
而且,先进行入湖后的数据治理,也有一个原因,通过入湖后的治理这个动作,来增加数据中台部门和业务的沟通交流,以及信任。能够让业务知道,正在做的事情是一件什么事情,从行动层面影响业务,而不是让业务觉得这件事情可做可不做,甚至有抵触情绪。
四、总结
本章主要说了下,个人理解的数据治理时,需要第一个确认的问题:数据治理的边界问题。在开始的时候,主要针对入湖后的数据进行治理,而后不断通过,问题驱动、场景驱动的方式进行入湖前的治理,从而实现全局的治理。
确认了数据治理的边界之后,在继续介绍数据治理内容之前,我们先说一下数据管理和数据治理的区别。通过确定这两个概念的不同含义,进而更好的理解数据治理是个概念。
本文由人人都是产品经理作者【数据小吏】,微信公众号:【数据小吏】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
你的反应是什么?