活动:2016国脉研究院"互联网+政务"微分享第一期

 
  时  间:2016年4月12日 20:00
 
  地  点:互联网+政务(精英群)微信群
 
  嘉  宾:舟山王路燕
 
  主  题:政务信息资源目录体系建设概念及实施要点
 
  分享实录:
 
  各位群友大家晚上好,我是国脉互联王路燕。今天主要和大家分享下关于政务信息资源目录体系建设中的一些概念及具体实践中的一些要点。结合我之前在佛山、上海徐汇、舟山等地方参与的关于政务信息资源梳理、编目、标准建设的相关项目的经验。如果有不同的意见也欢迎大家在结束后提出来,谢谢!
 
  下面我将分三块内容跟大家交流。第一块主要关于资源目录体系建设的一个整体背景,第二块是关于资源目录体系建设中的一些概念的解析,第三块是资源目录体系建设的实施要点。那第一个话题就说我们为什么要开展资源目录体系的建设。
 

 
  我们梳理了下近十年来国家层面的一些政策,国家信息化领导小组从2002年开始就对政务信息资源目录体系的建设的工作提出了一系列的部署。在国家信息化领导小组关于我国电子政务建设指导意见,也就是中办发的2002年十七号文件中就提出说电子政务建设的主要目标和任务的重点就是研究和设计电子政务信息资源目录体系交换体系。在2004年12月《关于加强政务信息资源开发利用工作的若干意见》中办和国办联合发的三十四号文件中,再次提出说要依托统一的电子政务网络平台和信息安全设施,来建设政务信息资源目录体系和交换体系来支持这种信息的共享和业务的。
 
  2006年,在国家信息化领导小组发布的国家电子政务总体框架中,把政务信息资源目录体系交换体系定位为国家电子政务总体框架的基础设施,提出说政务信息资源开发利用是电子政务建设的核心,要实现这种横向信息资源的横向共享和纵向汇聚,要逐步实现政务信息按需共享。
 
  在2007年, 国务院信息化工作办公室提出了政务信息资源目录体系建设的标准,这个也是国家性标准,从六部分来阐述整个体系。那在2015年也连续发布了关于政务数据方面的几个文件,第一个就是国务院办公厅关于运用大数据加强对市场主体服务和监管的意见,里面提出说要建立政府信息资源的管理体系,要探索建立政府信息资源的目录,统筹推进政府信息资源的建设管理和开发利用,那么同年促进大数据的发展行动纲要再次提出说要做好政务数据资源共享开放工程,要制定数据资源的共享管理办法,要整合政府部门公共数据资源来促进互联互通。
 
  在今年发布的《关于全面推进政务公开的意见》里面也提出说,要推进政府数据开放,要实施政府数据资产清单的管理,要加快建设国家政府数据的统一开放平台,来制定开放目录和数据采集标准,包括在最新的国家十三五规划中提出说要实施国家大数据战略,推进数据资源开放共享。从上面可以看出其实这十几年来政务信息资源目录体系建设 在国家层面是一直非常重视的。但是目前很多城市可能都还没有开展这项工作或者说前期开展的不是很细致,不是很成功。
 
  那么第二块我们来看一下,政府现在面临的现实需求。拿我们每个人来说,我们每个人有很多记录,比如像工作记录、会议记录、日常记录,这些记录随着工作时间的增加,资料是无比多的。那怎么找到我需要的信息?怎么获取数据?是一件很痛苦的事情,比如五年前开过的一次会,有多少人,都是谁,我想知道怎么办?同样的一份会议纪要,每个人理解的不同,记录的可能就不同,这些都是有差异的,我们怎么样去规范,这就是数据标准的定义。怎么样来定义数据,不同的数据就有差异,没办法共通。对同样的信息,如果没有业务系统发展相适应的话。这种特定的语义环境是很难去进行沟通的。同样写报告,谁写的好?谁写的坏?实际上是有差异的,那怎么样去规范?为什么要规范?最重要的就是说政府组织机构内部的技能、业务的流程怎么样去传承,需要一个标准。比如说我们现在的政府工作,而换一个工作人员以后,对于一线技能开发和实际技术操作人员来讲,比如说领导需要一个综合类的数据,这个数据需要去各个系统内部挑,那就统一口径。比如说一个数据报表信息,如果他是季度的,我是月度的,那么我们加在一起就是错的。每项业务他都有对应的一个系统有的可能还会跨系统。比如我们要去查吃低保的五十岁以上的女性有多少人,这个可以在低保系统中查到,但是这些女性有多少个孩子,这个就查不到了,这需要人工去查,这个数据公安里面有,公安有血清、有户籍证,那我们问的问题就说这些数据来源于哪个部门哪个系统里有,如果对这块业务了解的人他最清楚最快数据来源。但是很多人不知道那怎么去查怎么去取?这是很关键的问题。
 

 
  第三点就是说我们为什么要开展这项工作做这个资源目录体建设,它的意义在哪里? 我们说政务信息资源目录体系的建设是政务管理、信息共享和信息化工作的一个基础。从几个方面来说,第一个通过全面梳理政府信息资源,掌握了解全市的资源现状以及部门业务的情况,特别是我们的政府部门业务信息的产生、提供和共享需求等基本情况,通过我们这种资源的梳理来形成一份完整、统一的政务数据地图,到哪里去获取什么样的数据,哪些信息是可以向社会公开的,哪些在部门间共享的,哪些在内部使用的,也就是我们经常说的三种。
 

 
  第一可供行政机关无条件共享的我们称为非受限共享类信息。涉及敏感内容只能按照特定方式或提供给指定对象的称为受限共享类信息。法律法规不能共享的我们称之为非共享类信息。那么第二块就通过这种资源的梳理我们其实可以了解全市信息化建设的一些情况,哪些业务由哪些应用系统支撑,哪些数据已经建库,然后在未来促进跨部门系统集成中,比如说我们要开发具有哪些功能的应用系统,这些系统可以由原来的哪些应用系统合并改造或者重建,他们的这些数据怎么来?这些功能分别怎么样部署的?能够为公众提供什么样的服务?通过资源梳理我们都能得到一定的了解。那么第三块就是说,通过这种资源的梳理我们可以提高数据质量的建设。
 

 
  像人口法人等基础信息资源库的数据是来源于各个业务部门的。像人口涉及到公安民政、卫生社保等,这些部门的数据是没有经过顶层设计或者统筹规划的,他们存在数据不标准、不完整、重复、错误等数据质量问题。比如说一个身份证号码可能存在不同地址。我们需要对这些数据进行梳理进行标准化的制定,使数据在未来整合、应用的过程中能够实现统一的标准的管理。
 
  第二块我们来讲一下在整个政务信息资源目录体系建设中的一些概念。首先我们来了解一下政务信息资源,它是政府机构在履行职能过程中产生或使用的信息,可以分为以下几大类。第一个是履行行政事务的职责过程中,去采集加工使用的信息资源,第二个是部门在业务过程中产生或者生成的信息资源,第三个政府部门投资建设的信息资源以及由政府部门直接管理的信息资源。那么我们这个目录内容主要涉及到部门核心的信息资源包括行政许可、行政执法、公共服务、城市管理以及这种三定方案中其他产生的信息资源。
 

 
  那么什么是元数据?我们说元数据是描述数据的数据,可以类比为每一本书的内容是数据,那么查找书本的线索就是元数据,这个解释可能比较抽象,包括我们在做整个目录体系建设过程中还会碰到一些概念比如说像数据源,那数据源是最小的一个单元,那么数据源、元数据他们之间的区别是什么,包括可能我们做标准的时候还会涉及比如说核心元数据、扩展元数据,这些概念到底怎样去理解。那我通过一个例子可能可以使大家更加具体地来了解一下这些相关概念。
 

 
  以学生登记表单为例吧,表单上面是学生的基本信息,比如姓名、学号、班级,表单下面就是一个列表,存放学生的选课信息,比如说课程编号、名称、学分,对于这个表单,未来在数据库设计过程中可能会设计成两个表,一个是学生基本信息表,一个是学生选课信息表,那么姓名、学号、班级、课程、学分可以看作为数据源,那么这些数据源他有自己的元数据,就是来描述这个数据的,比如长度、类型、值域,比如说姓名这个字,它的长度是什么、类型是什么、值域是什么。
 
  扩展元数据就是相对核心元数据的。比如说每个类他所特有的这种属性,比如说前面的姓名、学号、班级、课程编号、名称,这个我们把它称为扩展元数据。
 
  对于学生基础信息表而言,姓名、学号、班级其实是用来描述这个表的一个数据,那么它就可以看作为是元数据了。同样的,对于学生选课信息表而言,课程编号、名称、学分是描述学生选课信息表的一个数据,就是他的元数据。然后表中的每一条记录是一个时期,表的抽象就是一个类,无论是学生信息表还是选课信息表,他都有一个共同的属性,就是存储位置的描述。这个表中所有数据的存储位置都是一样的,就是类的基本属性也就是表的基本属性。这个基本属性我们就称为核心元数据。核心元数据是一个行业所有类都共有的且所有的实体都有相同值的一个数据源。
 
  接下来跟大家介绍一下政务信息资源目录体系到底是什么,它的定位是什么。这里有两张图,我们先看第一张,我们为什么要上京东淘宝,因为他有一个商品目录,你可以快速定位查询到你所需要的商品,同时他有个管理,你去淘宝京东付钱以后你很放心,货肯定会到你手里,从一个仓库到京东仓库,再到这个人,这个就是交换。交换的目的是共享,共享的目的就是使用,只不过一个是你把别人的东西拿来了,那么我们说数据交换这个东西不会缺,那么交换目录哪里做交换,我们这个图里直线的地方就是做交换。部门的这种资源怎么样到我的这资源管理中心来。
 

 
  这两张图其实是很类似的,第一个其实是用来做比喻的,目录体系就是告诉你哪个部门有哪些东西,京东首页信息列表就是资源目录,这些东西怎么样到你手上,物流体系就是你的交换体系。比如说你要买个手机,你要去查什么牌子多少内存什么型号,然后下单,京东网站的事情到这里就结束了。物流启动,先去查仓库有没有这个东西,然后打包登记发给谁,再集中仓储,比如说先要寄到舟山,那可能先从杭州仓库到舟山仓库比较快,然后到舟山仓库的时候是个大包,再拆成小包再给快递员,这个过程是交换。
 
  那这个大仓库就是我的交换数据库,所有东西都要送到我的交换数据库来。比如说我不止买一样东西,我买了手机壳、膜、卡,手机是有手机厂商过来的,他会分批次给你,会集中在中心仓库里,就是京东的仓库,然后合在一起打包给你。交换体系就有一个中端的数据库,我把你需要的数据整合成一个信息包交给你,然后整个过程是属于交换体系干的事情。目录就是文件列表,有商品内容、商品属性,不关心具体的实体,也就是说它只提供一张图片,你收到货不对版,那不是目录的问题,他有多少数据量你也不知道的。
 
  可能有些地方在做的时候比如说他想买东西,要做一个资源目录体系,做好之后他又说你要把里面具体数据给他,这个其实目录做不到的。目录只知道你有什么,像整个京东网站它分为京东网站、物流体系、结算体系,结算体系就是权限管理和授权体系。你要这个数据,可以,要授权的,目录体系只能告诉说你在哪里,但是不能直接给你,目录可以做的很全面,所有东西都做进去,但是这些数据,不一定都拿来做交换的,交换体系给你的东西一定是你真正想要的、需要的,而且是得到授权的对方许可的。
 
  你要去查有多少类的数据是没有问题的,比如说劳动部门想查公安的数据有哪几类,那是没有问题的,都可以告诉你,有身份证信息、交通违章信息、出入境信息,但是你想要,对不起需要付钱,或者说你有信誉担保,那么商品是用货币来做中介的,政府信息是以授权来做媒介的。就是说你一定要经过单位沟通签字确认的,你想拿到一个东西是通过物流交换体系的,但这个东西在哪里是目录体系告诉你的。
 
  没有目录体系可不可以做交换?可以。只是说有目录体系去做交换能够更加高效更加标准。如果没有目录体系的话,会非常混乱。作为领导来说,他不知道到底交换了什么,交换给了谁,就像淘宝来说,他不知道卖的什么东西,手机和手机壳之间可能卖出去的数据是不一致的,所以我们说资源目录这个项目很难做。为什么?因为有些下面的部门不配合不愿意做。你做了信息资源目录体系,你的这个部门在信息资源管理中心地位会非常高,相当于淘宝和京东控制了所有的商家,就是拿到这个综合的数据,控制就会非常大权利会非常大会挟制到下面各个部门,所以各个部门不愿意。
 
  那我的商品直接卖给最终用户,我可以控制住我的商品价格、数量。那我通过经销商来卖,我就不知道卖给谁卖了多少,就不在我的控制范围内,控制力下降,权威性下降。所以我们说什么东西在淘宝上是没有卖的?然后从来不打折的?比如说汽油卡。
 
  我们来看一下资源目录管理的内容,那首先是元数据库。元数据库只是一个目录,它是没有实际数据的,我们资源目录的建设只考虑到元数据库。那么基础数据库是基础的数据,大家都要用到的数据,有唯一的标准,有权威的来源,比如婚姻的只能用民政,姓名、身份证只能用公安,真实存在的这种数据,这个基础数据库的数据支点就是元数据,这些数据可以直接拿来用作应用,做大数据分析的,数据支点是我的元数据库。那么专业数据库比如说地址,那民政可能就是你实际居住的地址,公安是你的户籍地,元数据他是涵盖后两者,然后后两者都是用来做实际交换的。
 

 
  这种系统我们是只能针对元数据有效,也就是资源目录管理这个系统,这条数据过来需要注册,然后提供资源目录服务接口,那这个资源目录一定要有一个资源目录管理系统来做支撑的。因为这个工作量很大,不可能全部用手工,基于元数据库的管理。那做交换体系的是有一个中央数据库,然后可以根据元数据库来操作标准化。比如说环保的日期是一个大字节的,通过这个元数据后我去统一标准化再到基础数据库里再到专业数据库里去做交换。
 
  最后和大家分享下开展这项工作的实施要点吧。首先是这项工作实施前要做好几个准备,明确几个事情,第一个就是我们要确定工作范围,包含哪些部门,是所有的政府部门还是针对某个领域的。比如说我这次只做人口的,只做法人的。第二个是要确定资源的涵盖范围,涵盖部门核心信息资源还是涵盖一些主要的,包括像我们之前提到的三定方案,是不是要涉及到全部的。第三个,要确定资源颗粒度,要不要做到字段级,我们是做输入还是做输出,是做整个业务的整个流程还是只做业务最后结果,是做全还是做最小数据集。第四个就是我们要确定好规范,就是调研表的规范,梳理的标准在一开始就要非常明确。
 

 
  第二个就说实施的思路。那现在我们在其他地方做的过程中发现目前主要有两种思路,一个是技术导向去做,第二个是业务导向去做。技术导向就是与部门核心业务或者说数据相关的一切的以系统和数据库去入手。那首先在通过这个系统数据,我们再去倒推这个系统数据由哪个业务数据产生的。这样技术导向去做有一个好处就是见效快。因为这个数据,都是已经在系统里面的是可以很快拿到的。但是它的可持续性差,因为有些业务可能是还没有形成应用系统,可能现在是人工或者纸制的手段在操作的,那未来他有这种应用系统的时候。那么整个这一块可能要去重新梳理或者说重新改版。
 

 
  第二种思路就是业务导向,就是首先我们通过业务流程理解,然后通过业务流程的理解再去找相关的业务系统,那这样去做的好处就是可以梳理得非常全面,不管是有没有系统的,还是纸质的,我可以把所有的相关资源梳理出来,但是这也有一个不好的地方,就是见效慢,因为这个工作量非常大。
 
  这里我们围绕后面一种方法也就是业务导向对整个实施过程做一个分享。第一块首先是要对业务流程的梳理和理解,一般我们会以办事业务为切入点,去将所有部门涉及到办事的相关的表格也好,资源也好都收集上来,然后做梳理。第二块是对业务过程数据的一个采集,那么我们要先理解再采集,因为有些业务可能有前置业务,你要先办哪个业务才能来做这个业务,而且在调研的过程中有些可能不是很全面的了解到。第三块我们在对应的应用系统里面的数据字典是去进行采集进行比对,我们通过业务表格梳理出来的字段跟你应用系统字段是不是一致,然后要对信息做筛选和核实。那我们的数据不是全部都要进行核实,然后再是信息的清洗和比对。这个清洗和比对是指元数据,比如说同样的一个地址,你是要选哪一个,是选民政的还是公安的,还是选其他的。对这些元数据要进行比对,后清洗,那么以上是工作目录。后面三个就是成果,第一块是说数据标准的定义就是元数据的定义。第二块是管理过程定义就是责任和权利,谁提供什么,谁来管,提供的要求是什么,主管部门是什么。最后就是数据需求确认,谁需要谁什么东西,然后通过这个可以反推我们这个项目体系建设是不是完整。
 
  我最后再跟大家讲几个实施过程中需要注意的一些要点。第一个,这是个一把手工程,因为编目涉及到所有部门的核心业务,会涉及到大多数事业单位,领导要非常重视的,要去协调所有的部门的。第二个,要达成所有部门的共同意识,因为这不是一个部门可以完成的,而且部门中领导也好业务人员也好,特别是业务人员要非常配合,因为业务人员才能搞清核心业务情况和相关系统的情况包括技术人员。第三个,是之前强调的,目录体系交换体系有实际差异的,我们做的是元数据的管理非具体数据,是点数据不是面数据,不能直接用于业务实现的,比如说姓名性别。第四个,这是个成本很高、长期投入,涉及到管理的成本还要解决相关的问题,然后需要独立的部门。我们后面也列了五个点,就是一般我们在用的方法,第一个采取自上少下,由浅到深,由单个部门的目录到系统性的目录这样去开展,然后要试点先行,稳步开展,可以先试点几个部门,然后通过这几个部门总结经验,之后再按照这种方法去拓展。第三个要结合相关的重大应用系统建设共享工作,因为只有在做的过程中可能才会发现这些问题,比如说要做人口库、法人库或者说要做交换共享平台。
 

  那由于时间关系我这里不详细展开了,我们近期也会推出关于政务信息资源体系建设的白皮书,大家也可以关注我们国脉研究院的相关动态。