行业资讯

数据管理与数据治理发展史综述

阅读量:8,1972021-05-08

伴随着数字经济的蓬勃发展,数据在企业中的地位日益提升。围绕数据资产的构建,数据仓库、大数据、数据中台等专业技术及理念也在不断推陈出新。相应地,则是对数据精细化管理的要求,因此,数据治理被推到了风口浪尖。在2020DAMA中国数据管理峰会上,中国软件评测中心副主任吴志刚在演讲报告中提出,2020年是数字经济的元年,更是数据治理的元年。这一提法得到业界的广泛认同,由此可见,数据治理是企业数字化转型的关键,是数字经济基础的基础。

虽然“数据治理”这一概念近年来可谓是爆火,但“数据管理”“数据治理”从来不是一个新的名词。其相关概念和含义甚至伴随着数据的诞生,就已经存在。目前,国内数据治理领域百家争鸣、百花齐放、百舸争流,对于相关概念的理解和践行,也各有不同,因此在这里,笔者希望通过对“数据管理”“数据治理”这几十年的发展史进行综述介绍,来帮助大家更加清晰地理解“数据管理”“数据治理”背后的含义,希望本文能够对读者未来的数据治理之路,起到一点提示和启发的作用。

其实关于“数据治理”和“数据管理”的讨论,目前存在很多观点。有的认为“数据管理包含数据治理”,有的认为“数据治理是数据管理的管理”,有的认为“数据治理”和“数据管理”存在短期和长期之分,还有的则认为二者属于阴阳二元论,相互调和。本文仅从历史发展的角度,来谈谈二者的发展过程及相互关系。由于二者皆为舶来品,所以首先讨论其在英文语境下的相关含义,而后再讨论中文语境下,又发生了哪些微妙的变化。

一、数据管理(Data Management)的前世今生

根据Michelle Knight在《A Brief History of Data Management》中所述,数据管理(Data Management)一词作为概念首次出现在20世纪60年代,由ADAPSO(the Association of Data Processing Service Organizations,数据处理服务组织协会)提出。在1962年CJ Roach的《Part XVIII. Data management》中,给出了数据管理的定义:
“Data management is the field devoted to determining how data is collected, recorded, stored, retrieved, analyzed, and displayed. In short, it is concerned with the choice and use of data processing techniques and equipment. ”里面有几个关键词:对数据的收集、记录、存储、回收、分析和展示。另外,定义提到,数据管理与数据处理技术和设备的选择及使用有关。可以看出,当时数据管理工作有两个特点:一是已经关注到了对数据全生命周期的管理,二是更加侧重于通过数据管理改善对硬件设备的压力。关于第二点其实非常好理解,因为当时的数据存储还停留在穿孔卡来存储数据,甚至有些公司使用整个楼层来保存穿孔卡,所以针对数据的合理收集、记录、回收等能够大大降低企业的直接成本。引申来说,这里的数据管理甚至会包含资料管理、档案管理的含义。到了70年代,磁盘存储逐渐取代磁带存储。相比于磁带,磁盘提供了直接寻址的能力,因此人们对于数据的操作就变得更加灵活。在这个背景下,名为“数据库管理系统(DBMS)”的一种新型系统软件诞生,这就是我们现在常说的“关系型数据库”。关系型数据库的诞生直接导致了数据大爆发,OLTP系统的出现使得大量的数据被生产和存储起来。而在OLTP诞生后不久,一种名为“抽取”的处理程序出现了,人们喜欢将数据由OLTP关联的数据库中,抽取到一个新的数据库中,进而对这部分数据进行某些操作。实际上,这就是数据仓库及OLAP技术诞生的原因。抽取程序使得抽离出的数据不会影响到OLTP系统的正常运转,同时也使得数据的所有权发生了改变,这意味着人们可以更加肆无忌惮的操作被转移出来的数据。

“抽取”导致的直接后果就是“蜘蛛网”式的“自然演化体系结构”。当企业以放任自流的态度处理整个硬、软件体系结构时,就会发生这种情况。企业越庞大、越成熟,自然演化体系结构问题就变得越严重。

图 1“蜘蛛网”式的自然演化体系结构

也就在这个时候,数据管理的重要性被再次放大,同时,也赋予了新的含义。如果做一个简单的统计,仅通过在谷歌学术输入“Data Management”(作为整体出现)这一关键词,来查看各个年代的搜索结果条数,我们可以得出如下的数据:

图 2 各年代文献数量统计图

可以看出,数据管理伴随着数据仓库概念的发展,从70年代开始逐渐热门,到2000年以后,达到最高峰(数据治理与数据管理类似,也随着数据仓库落地应用与展开,逐渐登上历史的舞台)。而在2010年之后,又有降温的趋势。到这里,我们可以推测,数据管理的提出,在早期主要是为了解决数据对硬件、软件资源的占用问题,通过体系化的管理,降低数据冗余,同时提高数据适配性、准确性、可用性以及规范性。人们在实践过程当中,逐渐意识到了数据的不同分类,意识到围绕数据开展数据管理是一种体系化设计的思想,能够对企业数据健康情况提供巨大改善。接下来我们看一些权威机构和组织有关于“数据管理”的标准定义,来进一步阐述英文语境下,数据管理的真实含义。这些定义都是在2000年之后诞生的,所处阶段恰好是数据管理火爆的时候。首先来看DAMA给出的定义。在DMBOK第一版(2009年)中,数据管理的定义如下:“The development, execution, and supervision of plans, policies, programs, and practices that deliver, control, protect, and enhance the value of data and information assets throughout their lifecycles.”这个定义和60年代的相比,差别就非常明显了,主要体现在以下几个方面:(1)将数据的收集、记录、存储、回收、分析和展示等浓缩为“数据生命周期”,这一点好理解;(2)新定义强调了“数据价值”和“信息资产”,通过数据管理,最终要实现对数据资产的交付、控制、保护、提高,而原定义没有提到资产、价值等方面,仅明确了其对技术选择和设备起到作用;(3)最后,新定义明确了数据管理是对上述这些动作的计划、政策、程序以及实践层面的制定、执行以及监督,这些都是原定义中没有的要素。可以说,这时关于数据管理的理解相比几十年前就显得非常宏观了。在新的定义中,管理这个动作被描述为“制定、执行以及监督”,而数据管理的具体内容,则是计划、政策、程序以及实践,他们建立在数据生命周期过程当中,目的是挖掘或提升数据的价值。如此说来,数据管理就变成一个体系化的工作,既包含“执法”,也包含“立法”和“司法”。再来看DCAM关于数据管理的定义:“To manage data in today’s organizational environment starts by recognizing that proper data management is about managing data as “meaning”. This is a relatively new concept for many organizations. It is not easy to articulate and not very well understood. Data exists everywhere within an organization and must be managed consistently within a well-defined control framework. The DCAM helps identify this framework by defining the capabilities required to make data management a critical part of a firms’ everyday operational fabric.”这个数据管理的定义读起来比较含糊,但也提供了几点关键信息:(1)数据管理是将管理数据这项工作变得有意义,如何才能有意义呢?笔者认为一项工作变得系统化、长期化,进而为公司企业带来某些价值,这样的工作才是有意义的。所以数据管理能够将一些零碎零散的管理数据工作统筹规划起来,按照方法论、框架来开展工作,保证工作成果物的定期产出,体现管理数据的意义所在。(2)数据管理是为企业构建定义明确的控制框架,这一点是保证“有意义”的前提。(3)数据管理框架应变成公司日常运营结构的关键部分,也就是说,数据管理工作需要常态化运转起来,那么配套的机构、制度、流程等一系列保障都需要提供。下面再看看DMM关于数据管理的描述。目前网络上的资源找不到其有关于数据管理的定义,但如下的描述能够说明DMM对数据管理这项工作的理解:“The Data Management Maturity(DMM) model is a process improvement and capability maturity framework for the management of an organization’s data assets and corresponding activities. It contains best practices for establishing, building, sustaining, and optimizing effective data management across the data lifecycle, from creation through delivery, maintenance, and archiving.”可以看出DMM对于数据管理的理解与DAMA给出的定义基本一致,都认为数据管理是围绕数据生命周期的动作,保证数据的交付、维护和归档。结合以上定义和理解,我们可以得出,英文语境下关于数据管理,实际上是有一个发展的过程。早期主要侧重围绕数据生命周期的管理以降低软硬件成本,目前则专注于通过各种体系化的保障以实现发挥数据价值的最终目的。二、数据治理(Data Governance)的前世今生数据治理(Data Governance)的出现和发展,和数据管理一样,与数据仓库有着密切关系。数据治理作为概念首次出现在学术界,普遍认为是在2002年,美国两位学者发表题为《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》的研究,探讨了Blue Cross and Blue Shield of North Carolina公司的数据仓库治理最佳实践。同样搜索数据治理关键词,得出其文章分布情况如下(这里对查询结果中明显不是该年代的文章或论文进行了逐一剔除,主要是在1960年代到1990年代之间):

图 3 各年代文献数量统计图

可以看出,数据治理热度的兴起,是在2000年之后,且进入2010年,并没有随着数据管理热度下降而下降,反而呈现急速上升之势,虽然目前和数据管理的热度还不是一个量级,但也足够说明一种趋势。

再说回《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》,通过阅读,笔者觉得之所以该文被认为是在业界提出数据治理概念的首文,其原因主要在于它论述了关于数据仓库管理之上的内容,尤其是成立工作小组来体系化地推进治理工作等。同时,它也提到了数据仓库治理和IT治理之间的关系:

“Data warehousing governance is a subset of IT governance. It requires that appropriate organization structures and processes are in place, with coordinated inputs from all stakeholder groups. It must cover infrastructure, use, and project management.”

由此可以说,早期的数据治理概念是脱胎于IT治理的,主要强调的是组织结构、流程、相关利益方的协调投入,核心要素包含基础设施、使用和项目管理等。那么IT治理在业界又是怎样的一个概念呢?由于这是一个在国内外相对比较成熟的概念,因此引用山东省软件测评中心总结的IT治理总体框架,如下图所示:

图 4 IT治理总体框架图

可以看出,IT治理的关键要素涵盖IT组织、IT战略、IT架构、IT基础设施、业务需求、IT投资、信息安全等,围绕着IT建设全生命周期过程,构建持续的信息化建设长效机制。同样,早期的数据治理框架与IT治理框架的核心内容,基本一致。我们来看一下最早的也是业内权威的数据治理理论框架与实践研究机构DGI(Data Governance Institute)给出的数据治理框架:

图 5 DGI给出的数据治理框架图

这里同样强调的是组织(who)、战略(why)、架构(what)、流程(when)等内容。与数据管理的出发点不同,数据治理是为了构建一种长效的数据建设机制,而不是像数据管理那样,直观地体现在数据价值的创造和提升层面。换句话说,数据治理侧重于如何保障具体数据管理工作的常态化、持续化顺利开展,而数据管理则侧重于通过具体工作(如数据标准、数据质量管理等),来实现数据的内在根本转变。以饭店作类比,数据治理更像是对饭店的人员组成、整体口味和特色、内部运转及协作机制等进行定义,而数据管理则更侧重于如何将原材料转化为食客盘中的食物。这一点在2007年KC Lai的《The Need for Data Governance: A Case Study》中也提到了:“There are various definitions of data governance. Cohen (2006) defines data governance as “the process by which a company manages the quantity, consistency, usability, security and availability of data”. Newman and Logan (2006) define data governance as “the collection of decision rights, processes, standards, policies and technologies required to manage, maintain and exploit information as an enterprise resource”. Thomas (2006) states that data governance “refers to the organisational bodies, rules, decision rights, and accountabilities of people and information systems as they perform information-related processes”. She goes on to state “data governance sets the rules of engagement that management will follow as the organisation uses data”. In light of the above definitions, data governance is important because it defines policies and procedures to ensure proactive and effective data management. ”国际标准化组织ISO在2008年对数据治理和数据管理(ISO/IE2008)提出差异化概念。ISO指出,数据治理履行数据管理的主要职能,即数据治理规定在管理的过程中哪些决策应被制定,以及决策者为谁,而数据管理确保这些决策的制定与执行。 如此看来,国外语境下,二者之间确实是一种调和的关系。如果从数据管理的角度考虑,那么数据治理则是数据管理工作开展的前提和保障;如果从数据治理的角度考虑,那么数据管理则是在治理的框架范围内,开展具体的工作。只不过目前数据治理相对火爆,相关研究发展迅猛,大有分庭抗礼之势。但由于概念提出的先后,以及数据治理概念引入时,其本身的定位倾向于为了更好的保障数据管理工作有效开展等诸多因素,国外各类数据管理/治理框架,目前几乎均把数据治理作为数据管理的一部分,如前述的DAMA、DCAM、DMM等。
三、国内语境下的数据管理和数据治理看过国外看国内,首先是数据管理。同样通过谷歌学术进行检索,能够找到最早的关于“数据管理”的研究,出现在80年代。其中,大部分研究集中在各行业的数据管理系统上,少量论文研究重点聚焦在企业或行业的数据管理上,以下两篇颇有代表性:一是1984年潘仁山的《重视和加强企业的数据管理》,文中提到了搞好企业数据管理,需要关注五点:“要充分认识数据管理在企业管理中的地位和作用”“要加强数据管理工作的科学化、制度化、程序化和标准化”“重视数据的加工利用,向数据管理要效益”“切实解决数据的误差问题”“积极采用先进适用的技术工具”。研读发现,文章中的数据管理工作因时代所限,主要采用线下的方式开展,但所包含的相关工作内容,以及所遵循的工作原则和目标等,与我们现如今在做的数据管理工作,基本类似。二是1989年王诗臻的《数据管理的发展与现状》,文中重点描述了某银行分行的数据管理部门的组成和工作流程(可见金融行业的数据管理工作起步之早)。由此引出了如何做好数据管理工作:首先是“必须使得决策者有远见,能够看到数据管理在企业中的巨大作用”,其次“各部门必须建立自己的完整的数据,在需要的时候应该实现数据共享,统一管理”,并且借助信息系统,“在企业内部建立数据字典,以保证数据的完整性和一致性,减少冗余”。文中提出了数据管理的一系列活动,放在今天仍旧具有指导意义:“数据管理,包括一系列的活动,如计划,系统开发,部门内外信息的传递等等。考察一些信息系统效率比较高的组织,这些活动大体为三个层次:战略层次,包括战略计划和控制;技术层次,包括开发计划,管理计划,劳动计划,资源计划;操作层次,包括开发和维护控制,资源控制,劳务控制,开发与维护,管理劳务,信息劳务。还必须有投资,没有投资,不可能使人们去探索、研究采用新的信息技术。”上述论文中,数据管理的核心目标已经聚焦在“数据是一种战略资源”上,与国外当时的数据管理理念基本保持一致。进入90年代,数据管理主要以“产品数据管理(PDM)、企业资源规划(ERP)、制造执行系统(MES)”的形式出现,针对数据管理的理论研究,翻遍文献,可谓寥寥。这其中,不得不提到高复先老师,他在90年代对数据管理进行了深入研究,并提出了“信息资源规划”理论,使得信息资源管理得以推广。1990年高复先老师的《数据管理——MIS建设的基础工作》,主要介绍了威廉.德雷尔《数据管理——成功的数据管理指南》(《DATA ADMINISTRATION—A Practical Guide to Successful Data Management》)一书的产生背景、理论基础、特点以及实用性。文中重点描述了数据字典对数据管理工作的重要性。这里的数据字典,指的是“元数据集合”。同时,该文系统性地给出了数据管理应该做哪些内容,主要是企业数据模型建立、数据结构设计、数据实体设计,并通过数据字典将上述工作串联管理起来。该文应代表了90年代国内对数据管理的认识,由于引用了威廉.德雷尔的相关理论,所以也可以看作国外当时对数据管理的认识和认知。这里又引申出一个Data Administration的概念。参考2011年Peter Aiken的《Data Management and Data Administration: Assessing 25 Years of Practice》所述:“Database administration expanded and became referred to as data administration. During the 1990s, practitioners introduced several important concepts: data as an enterprise-wide resource; the value of maintaining metadata; and the concept of shared data with all of its advantages. This set of practices became known as enterprise data administration(EDA).Most recently EDA practices have yet again expanded as organization have been forced to accept new responsibilities such as governanve, compliance, and security. Each of these phases has increased the scope and responsibilities of data administration and this, more broadly defined set of practices, is now referred to as data management.”由此可知,Data Administration扩展于Database Administration(DBA),并随着时代的发展而逐渐扩充工作范围。Data Administration随着组织机构的健全壮大,扩展了治理、合规性、安全性等内容,最终在现代被称为Data Management。所以,受DBA概念的影响,早期Data Administration所述的数据管理,更加倾向于数据模型开发、数据库结构设计等方面的管理内容,与高复先所描述的基本一致。到这里,国外语境下的DM、DA、DG之间的关系就很清晰了:(1)60-70年代的DM,目标是解决硬件资源成本;(2)70年代随着关系型数据库的诞生,出现了DBA,进而演化出DA,主要聚焦于数据模型、数据结构等的管理;(3)到90年代,DA逐渐与DM合并,统称为DM;(4)到00年代,DG这一概念从IT治理中分化,去强调DM中的组织、职能、流程等内容,以最终的数据管理落地应用为目标;(5)DG发展势头良好,大有青出于蓝之势,逐渐在理论层面形成相辅相成的局面。再说回国内。进入90年代,有关数据管理的研究零零散散,而与数据治理、数据管控相关的文献数量更是为0。进入2000年,体系化的数据管理研究在国内仍旧没有普及,大多数都是针对某些点的研究。例如:(1)2002年刘志敏的《医院信息系统的数据管理》中,对历史数据的归档与恢复进行了研究;(2)2004年武剑的《内部评级系统的数据管理》中,对数据清洗、数据挖掘建模开发等进行了研究;(3)2008年史辉等的《国土资源数据管理初探》中,对国土资源数据问题进行了总结,主要有“数据分散垄断”“数据标准化程度低”“数据规模庞大”“数据空间性强”“数据管理多样化”“数据质量普遍不高”的问题,同时对国土资源数据进行了分类,划分为资料数据、基础数据、业务数据、管理数据、元数据。……更多论文研究不再列举,总结起来有以下重点:一是高复先老师的《信息资源规划系列》,该系列应该是国内数据管理领域体系化研究的先行者。二是主数据管理的兴起,主要是经由IBM、SAP等公司由国外传入,借助主数据的概念推广主数据管理、主数据管理系统等。三是元数据管理的广泛共识及普及,利用元数据对数据资源进行管理(图书档案管理、信息管理、数据管理,很顺畅)彼时已经成为国内数据领域的广泛共识,并且也在很多领域得到了落地应用。四是数据质量逐渐成为衡量数据管理工作的重要指标,在2002年郭志懋等的《数据质量和数据清洗研究综述》中,详细描述了质量问题分类、数据清洗过程、数据清洗衡量指标等内容。以上可以看出,国内的数据管理发展路线与国外有着明显不同,主要如下:(1)出现时间较国外晚近20年,且最初主要是面向线下数据、计量数据的数据管理;(2)体系化研究数据管理较少,基本上聚焦在几个关键点上,如主数据、元数据、数据质量等,这也和早期数据管理“三驾车”(元数据、数据标准、数据质量)基本相符;(3)数据管理内容聚焦在数据上,对组织保障、战略规划、监督管控等内容鲜有提及。而这时候,关于数据治理的文献虽然仅有两篇,却很值得深入研究:2009年帅玉廷的《试论保险公司数据治理框架的构建》,2007年戴晓东的《太原市煤气管网数据治理》。《试论保险公司数据治理框架的构建》中,已经系统性地论述了数据治理和数据管理之间的关系:“数据管理就是在既定的数据治理模式下,管理层为达到公司的数据质量目标而采取的行动;数据治理作为公司治理的一部分,是随着信息技术应用和公司风险管理及经营合规要求的强化而新发展起来的一个新的公司治理领域,好的公司治理必然要有好的数据治理来支撑;数据治理借鉴了IT治理和公司治理的研究成果和研究方法,企图从管理学的角度、从经营决策层的高度来达到获得高质量企业数据和发掘数据最大价值的目的。”该文为硕士毕业论文,由于无法查看到全文,因此只能基于摘要进行推测,彼时关于数据治理的理论研究在国内已经逐渐兴起。在2012年张一鸣的《数据治理过程浅析》中提到:“包括能源、金融在内的诸多行业已经将数据治理列为信息科技的“十二五”规划中,已经有许多来自银行、电力、航空等行业率先展开了数据治理工作。自2005年开始,光大银行在数据治理及应用方面进行了众多探索。首先推进业务系统及改造……其次定义关键数据标准……第三定义数据治理组织,并逐步制定了数据治理相关管理规范,通过制定数据标准和数据质量的绩效考核指标来推动相关管理规范和标准的落实;第四建立数据治理长效机制,定期重检数据治理相关制度、流程、规范……”同时,该文也重点提到了IBM数据治理相关理念。可见,进入2000年以后,国内银行、电力、航空等行业已经借助IBM等国外公司关于数据治理的相关理念技术,逐步开展了数据治理工作。继续研读2012年杨兵兵的《商业银行数据治理与用用——以光大银行为例》可以发现,国内对数据治理体系的认识,已经相对成熟:“构建全面的数据治理体系,需从组织架构、管理流程和操作规范、IT应用技术、绩效考核支持四个纬度,对企业数据模型、数据架构(包括数据仓库、数据应用)、数据管理(包括数据质量、数据标准、元数据管理、数据安全等)、数据生命周期等各方面进行全面的梳理、建设并且持续改进。”在这里,数据治理体系包含了数据管理,是相比于数据管理更为宏观的名词,原因推测可能有两点:(1)彼时国内关于数据管理的认识停留在“三驾车”上,而不是国外体系化的理论思想;(2)数据治理在国外正处于概念新兴到发热的状态,直接经由IBM、Informatica等公司引入国内,会给接触到的人们一个直接的感性认识,认为数据治理是比数据管理更加进阶、更加先进的数据处理方式和理念。进入10年代,数据治理与国家治理、大数据治理联系到了一起,地位火箭般蹿升。在2015年梁芷铭的《大数据治理:国家治理能力现代化的应有之义》中,对大数据治理和国家治理的关系进行了深入论述,同时也总结了数据治理和大数据治理之间的关系。同年,我国提出了《数据治理白皮书》国际标准研究报告,从机制层面、管理对象层面、技术平台层面论述了中国的数据治理特色。同时,也提出了数据治理框架和模型。至此,中国的数据治理工作与国际正式接轨。纵观数据管理和数据治理在中国的发展轨迹,可以发现,数据治理生逢其时,在国内的语境下,是涵盖数据管理的,要比数据管理这一概念更加宏大和广义。最后,由于笔者能力、时间有限,很多资料收集得不够充分,部分观点依靠推测。另外,笔者从业时间短,行业发展历程主要依靠文献来进行梳理,与实际情况难免会出现误差。但写作目的,在于希望从时间演进的角度,对数据管理和数据治理的相关含义进行总结和归纳,至少帮助从业者,在给客户进行宣讲时,能当作一个很好的故事,作为交流的开场。主要参考文献均在文中提及,因此不再罗列。

作者简介

刘林,京东物流数据治理工程师,DAMA中国会员,北京交通大学计算机科学与技术专业硕士,毕业后一直从事数据相关工作,在主数据、数据仓库、数据治理等领域有多个项目落地经验。