数据资产目录建设之数据分类全解网站首页 学无止境

数据资产目录建设之数据分类全解

jane9872 2024-10-09 00:01:02

简介数据资产目录建设之数据分类全解

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点，做了一个分类，也挂到系统上了，但是后来就没有后来了。治理做一半，等于啥也没干。

我之前开了一个玩笑，数据治理这种事情，就跟洗澡一样，首先得勤快点洗。一天不洗澡，身上就臭了。

另外，标准也很重要，南方和北方对“洗干净”的定义不一样。南方洗澡的时候，只要泡泡冲干净，就算洗干净了。北方洗澡的时候，身上不搓下来二斤泥都不叫洗干净了。

还有，洗澡得全面，有些人洗澡不洗头还说得过去，但是洗澡只洗左胳膊，这算咋回事？

最后，洗完澡得维护，水得擦干啊，衣服得换干净的，不要到外面踩泥巴，要讲卫生啊！

但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲，一生就洗三次澡，出生一次，结婚一次，入殓一次。其他时间都靠香水度日

所以数据治理不是立一个项目就完事的，要么在家弄个浴室，要么定期去外面大众浴室，条件好可以再叫个搓澡的师傅，上个奶盐。

数据分类原则

这不，跟长时间没洗澡一样，长“数据虱子”了，各种指标爆炸、数据质量低下等问题让数据部门的彭友非常难受，所以他们又要开始做数据治理了。

首先要做的就是数据资产盘点，建立数据资产目录。盘点的时候好说，就是各种整理呗。

但是到建立数据资产目录的时候就傻眼了，他们先是按照自己的理解整了一版目录结构。

但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类，然后又来调整，但是一会儿又发现有些数据资源放这里也行，放在那里也行，这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为：

1、全量：能够容纳组织全量数据资产；

2、系统：数据分类必须系统化、体系化，层次清晰、逻辑鲜明，形成具有隶属和并列关系的分类体系，展示数据之间的联系和区别；

3、规范：目录名称要能准确的表达该类目的实际内涵和外延，在整个目录中保持规范；

4、唯一：目录体系内，各自界限分明，尽可能保证不重复、不交叉、相互独立且唯一；

5、稳定可扩展：建立的数据分类要保持一定的稳定性，保持一段时间内的可持续使用，并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法，一共有三种：线分类法、面分类法、混合分类法。

线分类法：简单来说，就是将数据按选定的若干个属性或特征，逐次分为若干层级，每个层级又分为若干类别。

同一分支的同层级类别之间构成并列关系，不同层级类别之间构成隶属关系。同层级类别互不重复，互不交叉。

线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统，有一个学科专门研究这个，叫“生物分类学”。

你仔细看看上面的图，就知道线分类法有很大的局限：一个分类只能描述单一的逻辑复杂一点就没法弄了，比如集团中有好几个不同的业态...

面分类法：就是把数据依据各种属性或特征，分成相互之间没有隶属关系即彼此独立的面，每个面中都包含了一组类别。

还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起，可以组成一个复合类别。

比如服装，有材料、颜色、款式等多个面，可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法，可以分为材料、直径、钉头、表面处理：

面分类法是并行化分类方式，同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法：顾名思义，就是线分类+面分类结合咯。一般来说，还是得以某一个方法为主，另外一个为辅。

这下就能集合两种方式的优点，规避它们各自的缺点了。比如用面分类法解决多业态的问题，再用线分类法细化；或者用线分类法搞定前面几层，再用面分类法进行细化。

数据分类的层次关系

会后，彭友还找我要PPT。讲真，不是老彭我小气，关键是我还真没有专门为这个事情做一个PPT。

因为这些内容其实早就有很全的指导了，比如《证券期货数据分类分级指南》里就很全：

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。

其中，最先要了解的，就是业务。业务可以按条线和子类进行拆分，就算是集团公司，也能拆的很清晰。

然后从业务角度，向下再进行拆解，从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域，而不是纯粹的数据角度。

数据分类应该从主题域不断细分，直到最细颗粒度。一般来说，在数据资产目录里，是要能看到详细的样例数据，并能申请API访问权限的。在这个时候，我们需要对数据进行分级，便于进行权限分配和安全管控。

最下面，其实不是数据的分类，而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

本标准采用多维度和线分类法相结合的方法，在主题、行业和服务三个维度对贵州省政府数据进行分类，对于每个维度采用线分类法将其分为大类、中类和小类三级。业务部门可以根据业务需要，对数据分类进行小类之后的细分。对小类的细分，各部门可以根据业务数据的性质、功能、技术手段等一系列问题进行扩展细分。本标准采用面分类法将政府数据按照多个维度进行关键词的标签构造。

根据基础电信企业业务运营特点和企业内部管理方法，收集企业内所有部门的数据资源，梳理所有数据资源。按照线分类法，按照业务属性（或特征），将基础电信企业数据分为若干数据大类，然后按照大类内部的数据隶属逻辑关系，将每个大类的数据分为若干层级，每个层级分为若干子类，同一分支的同层级子类之间构成并列关系，不同层级子类之间构成隶属关系。所有数据类及数据子类构成数据资源目录树，如图1所示。目录树的所有叶子节点是最小数据类。最小数据类是指属性（或特征）相同或相似的一组数据。

用户相关数据：

4.用户统计分析类数据（用户使用习惯和行为分析数据、用户上网行为相关统计分析数据）

企业自身相关数据：

管理主体就是“WHO”，管理范围就是“WHERE”，这两个对象一确定，就说清楚了是“谁”具体负责“哪里”的事情，职责范围就清晰了，业务条线自然而然就划分出来了。

业务细分一共分为四个步骤：

步骤一：确定业务一级子类——基本业务条线。参考《证券期货行业数据模型》确定的业务条线作为基础。对！数据分类和模型是紧密关联的！！！

步骤二：确定每个业务条线下所有的业务管理主体(MS)。

步骤三：确定每个业务管理主体对应的管理范围，明确对应关系(MS-MS)

步骤四：命名映射关系——业务二级子类。

此方法可以在每一层都这么用，无限套娃，理论上可以把所有的业务细分到足够细的颗粒度，直到每个人。

但是我们分类的时候一般就分个3、4级就行了，在《指引》里，建议用MS-MS划分一次就行，剩下的层级放在数据归类阶段进行。

在数据归类阶段，参考他们提出的MS-MO（管理范围、管理对象）方法，对数据进行归类。