王路燕：大数据时代政府数据资产管理_观点

　　2017年7月26日下午，“2017政务数据治理与创新高端研讨会”在北京梅地亚中心多功能厅隆重召开。本次研讨会由中国信息通信研究院、中国社科院信息化研究中心、国脉数据研究院联合主办。国脉海洋常务副总经理王路燕出席会议并发布了《国脉数据基因3.0产品》，这也是本次研讨会的一大亮点，她提出数据基因3.0能够实现资源匹配、事项标准化、考核评估扥功能，同时通过配置事实目录，更新理想目录，促进政务数据治理与创新。

国脉海洋常务副总经理王路燕

　　以下是会议现场发言实录：

　　尊敬的各位来宾下午好，在这里分享一下国脉政府数据资产管理的经验，刚才也听了多位专家关于大数据具体应用的观点，数据基因产品作为底层基础性工作，主要做信息资源梳理、规范化等工作。

　　先解释下“数据基因”名字的由来。该词来源于生物上的基因，生物学中的基因是由四个碱基构成，这些碱基可以形成复杂的DNA，而数据基因是由0和1构成，通过不同组合，可以表达很多不同的信息，这就是生物基因与数据基因的共同之处。

　　数据基因，一方面表达了数据的具体特性，另一方面描述了不同数据之间的关联以及从旧数据到新数据的进化。

　　在数据基因产品从1.0（2017年2月15日正式发布）到3.0的发展过程中，国家不断推出新的政策文件，并开展了政务信息资源目录国家试点工作。我们紧紧围绕这些变化并结合实践工作来完善数据基因产品。数据基因产品从1.0到2.0只用了短短两个月，而3.0 是隔了半年才推出的，我们充分结合了各地的实践工作，该产品不是仅仅提出概念化的东西，还有各地经验的汇总。

　　一、三个版本发展历程

　　（1）数据基因1.0：资源模板、资产登记。我们首次提出“资源模板”。

　　（2）数据基因2.0：资产普查、数据元标准化、资产地图、公共数据字段池、数据模型。

　　（3）数据基因3.0：数据元标注、事项梳理、数据治理、理想目录与事实目录。“理想目录与事实目录”是数据基因3.0的新特点。

　　二、应用案例

　　（1）淮安市信息资源梳理

　　这是第一个落地应用的数据基因案例。借助信息资源模板，在一个月内快速梳理出淮安全市82个部门的信息资源，通过数据基因系统，由各部门进行核实、确认，快速建立全市信息资源体系。

　　（2）浙江省全口径公共数据资源梳理

　　这也叫“公共数据资源梳理”，因为它还包括企事业单位，并非只包括政府单位，其范围很大。依托17年电子政务项目预审的工作，开展全省项目独立预审单位的信息系统普查、“全省最多跑一次”事项普查（责任清单、权力清单）、信息系统实有数据普查等，同时借助系统开展事项标准、数据标准等工作。

　　（3）贵州省数据资产登记

　　根据《贵州省政府数据资产管理登记暂行办法》，开展贵州数据资产登记工作，对信息系统、硬件资产、软件资产、数据资产（围绕管理、保存、存储等角度）进行梳理，同时建立系统、硬件、软件、数据之间的关系图谱。除此之外，还有海南、四川、广东、宁夏等省。

　　三、数据基因3.0新功能和新价值

　　1.资源匹配

　　这也是数据基因3.0不同于数据基因2.0的地方。其应用主要包括模板匹配、数据元标注、标签化、预设模型等四个方面。

　　（1）模板匹配

　　系统上拥有丰富的模板资源，现在有省、市级部门各70个，标准化数据元10000项，核心数据集2000个。基于这些模板资源，部门登录后，系统可进行自定匹配，推送本部门的资源模板。用户也可以采用订阅模式，订阅某类资源模板。

　　借助关联导入功能，以任何一个结点为单位，能够建立数据元、数据集、业务事项之间的管理，并能以任何一个为单位进行关联。

　　（2）数据元标注

　　从业务、系统抽取过来的数据项，可进行匹配设置，根据匹配规则在数据元模板中依据中英文名称进行快速精准匹配。完全匹配上的可直接填充模板中的数据元相关内容，明确数据元数据类型、长度、精度等描述。具体包括以下几点：

　　一是规则制定。模板资源中拥有数据元近20000条，采集了公安、卫生、交通、民政等领域的数据元标准。

　　二是精准匹配。对业务、系统产生的数据元进行匹配设置，可快速在模板库中找到匹配的数据元。

　　三是快速填充。对数据元的中文名称、数据类型、数据长度等进行描述并快速填充。

　　（3）标签化

　　目前在做政务信息资源梳理时，最困难的是数据分级分类问题，国家政务信息资源分类为国家基础信息资源、主题政务信息资源、部门政务信息资源。小的数据元可以做标签，未来做某一专题时，可以在这些标签基础上设计主题，如输入“教育”，关于此专题的内容就可以全部检索出来。

　　可以从三个方面进行标签化：

　　一是按照业务条线进行标签化，包括教育、科技、司法、农业、地税、海渔、工商、旅游、综合治理等业务条线；

　　二是按照数据领域进行标签化，包括经济建设、环境资源、城市建设、道路交通、教育科技、文化休闲、民生服务、机构团体等数据领域；

　　三是按照资源主题进行标签化，包括人口、法人、空间地理、信用、证照等资源主题。

　　（4）预设模型

　　数据基因3.0产品预设模型有人口库模型和法人库模型。

　　一是人口库模型，围绕人的生命周期，预设人口库信息资源模型，涵盖人的基本信息、学籍信息、婚姻信息、死亡信息、资产信息、残疾信息、住宿信息、宗教信息、生活信息、参保信息、文化信息、交通信息等。

　　二是法人库模型，围绕法人的生命周期，涵盖法人基本信息、财务信息、资质信息、法人及股东信息、税务信息、业务信息、荣誉信息、监管信息等。

　　2.事项标准化

　　做事项标准化的原因是为了要把事项做具体，每个数据项权威来源部门是哪里？表格数据项是什么？字段来源是哪里？要将每一事项追踪到源部门。

　　实现事项标准化，首先需要部门、事项规范性编码，其次要做到证照、批文的规范化、材料的规范化等，最后是确认数据源部门。我们提供基础字段池，如人口、法人的权威字段，能够做到所有的材料规范化并确认材料来源部门等。

　　3.数据治理

　　数据基因3.0产品提供数据治理功能，主要体现在考核评估、诊断、项目管理三个方面。

　　（1）考核评估

　　资源梳理是一个长期过程，对共享方式、置机方式（前置机方式、EXCEL方式等）、报送范围、指标设计等都有要求。数据基因系统提供数据治理模块，针对不同地方实际需求，设计数据治理评估考核体系，通过人工与系统评估相结合的模式，对各部门信息资源情况进行考核，从数据管理的不同维度出发，促进数据资源管理可持续发展。

　　（2）诊断

　　审查信息系统，对字段设置、租用机房、系统未上云、僵尸系统（依据适用范围而定）、数据未归集系统（数据点对点共享）、孤岛系统等进行诊断。根据诊断规则的设定，系统自动对所有部门信息系统进行诊断，并给出诊断意见，同时，诊断意见可以为数据管理部门在进行信息化新建项目、运维项目审批时，提供参考性意见。