大数据时代的来临,使得数据成为各领域最重要的生产资料,公众的数据意识和使用能力随之迅速提升。政府是国家最大的数据生产者和拥有者,政府数据共享无疑能改善公众对数据的收集与利用能力,最大限度地将数据的潜在价值转变为实际效益。与此同时,数据的开放有利于提高政府科学决策水平,增强信息民主化建设,创造一个更有责任感、更高效、更透明的政府。美国作为数据开放的先行者,已使用一套科学的运作体系进行数据的采集、发布、管理和维护,从国家战略角度将数据作为资产进行管理,并取得了显着成效,在世界范围内引发了政府开放数据的浪潮。我国国务院在2015年9月5日发布的《促进大数据发展行动纲要》中提出,将在2018年底前建成国家政府数据统一开放平台。在这一总目标下,本文深入分析了目前我国政府数据的开放情况,并以美国为标杆,分析其典型做法,学习其先进经验,结合我国实际国情,帮助我国政府进一步做好开放数据的工作。

  1政府数据开放概述

  政府数据开放是指政府利用现代信息技术手段,主动将自身拥有的不涉及个人隐私和公共安全的数据免费开放给所有民众[1]。政府数据开放一方面能帮助政府部门提高透明度和行政治理水平,提升公民参与民主政治的积极性;另一方面有助于实现数据资源的合理开发和利用,鼓励社会创新,促进经济发展。自2009年起,在全球第一个政府数据开放平台data.gov诞生之后,英国、加拿大、新加坡、韩国等数百个国家和地区陆续建立了自己的政府数据开放平台,政府数据开放正逐渐成为世界改革创新的发展趋势,成为一个国家取得进步和发展的核心竞争力。

  2我国政府数据开放平台现状

  我国政府数据开放工作从地方层面开始探索,目前尚未推出国家平台。自2011年起,北京、上海等地区在大数据的影响下率先开启了政府数据开放的工作,建立了各自的政府数据开放平台(见表1)。本文选取北京、上海、浙江、武汉、青岛、无锡以及佛山市南海区(以下简称南海区)这7个具有典型性和代表性的数据开放平台,进行深入研究。2.1数据的质量与规范目前,各地方政府开放的数据内容主要包括公共安全、交通服务、教育科技、金融服务、健康卫生、文化娱乐等领域,其中北京涉及的领域最广,共分为17个主题,其他网站涉及的主题内容都不够全面。各政府开放平台中,开放数据最多的是无锡,共有752个数据集,最少的是南海区,仅有270个(截至2015年10月,见图1)。对比各网站的数据下载情况可以看出,下载量排名靠前的数据多属于教育、交通、医疗、经济等与公众生活相关的领域,其中上海的浏览量及数据下载量最高,有多种数据下载过千次,但多数网站的数据无人问津,成为睡眠数据,可见各平台在数据数量与实用性方面还有所欠缺。

各地方数据开放平台建设情况

各地方政府开放数据集个数比较

  在数据格式的多样性上,只有青岛和南海区为每个数据集提供多种格式,以便不同需求的使用者对数据的增值利用(见表2)。根据数据开放标准,数据应符合易操作和可机读(如xls,而非pdf),并以开放的格式确保无需通过指定的应用程序才能访问,基于此定义,只有上海实现了数据完全可机读,北京100%提供了开放格式(csv)。

各地方政府提供的数据格式

  2.2数据的描述与使用

  元数据作为描述数据的数据,使信息的描述和分类实现格式化,促进数据集的高效利用。目前各地方均提供元数据,包括文件大小、文件格式、发布日期以及更新频率等。文件大小和文件格式作为描述数据最基本的信息,可以帮助用户在下载前对数据作简要了解。各地方都提供文件格式,但只有浙江、北京和无锡提供了数据的文件大小。而就发布日期和更新频率而言,武汉的这两项信息均没有被明确标记,南海区未提供发布日期,并以更新时间代替更新频率,但将其标记在数据页面的做法,更方便用户的查找。数据开放平台上的数据使用时应具有非歧视性,可让所有人使用而无登记要求[2]。目前只有浙江和无锡满足该条件,其他地方的数据获取都需要注册登录,且上海和北京的注册过程较为严格、繁琐,需要用户的真实姓名、电话、邮箱及身份证号。另外,在数据的使用权利上,未有一个地方明确确保使用者享有免费、自由增值利用、自由分享传播的权利。

  2.3平台的组织与管理

  数据分类是评价一个政府数据开放平台的重要指标,完善的数据分类在方便平台管理和数据维护的同时,还有利于用户对数据的使用和查找。在分类方面,多数网站(浙江,北京,武汉,无锡,南海区)采用两种方式,即按主题和提供机构进行分类,方式略显单一。上海在两种基本分类的基础上增加了综合评价分类,青岛则额外提供标签选项,使每种主题和提供机构有相应的标签与之对应,一定程度上缩小了数据的查找范围。

  除分类外,数据开放平台还应提供直接、高效、多样化的检索功能。目前,各个平台的检索功能均包括分类导航和关键词检索。上海、无锡、浙江在检索时允许多个分类交叉限定选择。青岛为每个数据集提供“相关接口”和“相关数据”这两项信息推荐,帮助用户发现其潜在数据需求。上海、武汉、青岛还支持按特定属性(下载量、更新日期等)进行排序检索。

各地方互动交流功能比较分析

  从表3可以看出,除浙江、无锡外,各平台都提供交互功能,并允许用户对数据需求提出建议。其中,关于数据集使用反馈,武汉采取星级评分方式,北京、南海区采用文字评论方式,上海和青岛则结合了这两种方式。在数据共享方面,只有青岛和南海区为该项目设立微博、微信账号,传播和推送政府数据的相关内容,同时允许用户将数据分享至相应的社会媒体。

  2.4数据的应用与创新

  在数据的社会化应用方面,青岛、武汉开放了API接口,武汉还在此基础上为开发者提供指导建议,为第三方开发建立技术基础。各平台都设定了应用频道展示数据应用,提供数据应用最多的是上海,共有76个应用,最少的为青岛,仅有5个(见图2),北京还公开了各应用使用的原始数据。目前除上海外,各地方都支持APP应用的提交。部分地方政府为鼓励社会公众基于网站的数据进行创新,还组织相关应用竞赛,这其中包括北京2004年5月的“应用创意”大赛和上海的“游族杯”创新应用大赛。其他地方只是增加了应用推荐栏目,没有实质性的行动为第三方推广牵线搭桥。

各地方政府提供的应用个数

  数据分析作为数据整合创新的基础环节,用适当的统计方法对收集来的数据进行分析,有助于最大化地挖掘数据资源潜力。目前,只有青岛提供简单的数据分析工具对数据进行统计和可视化分析,其他地方均未涉及这一领域。

  3我国政府数据开放存在的问题

  本研究将我国政府数据开放平台的现状与Data.gov进行对比分析,提出我国开放政府实践存在6个方面问题。

  3.1数据量少,实用性和规范性差

  截至2015年10月18日,美国共公布189434个数据集。我国公布数据集个数最多的无锡也仅是其0.004%。且在已开放数据中,数据内容与社会公众的实际需求仍有很大差距,无法满足社会经济与创新领域的需求。因此,在数据的实用性和完整性(即除了涉及隐私、安全和特别限制的数据以外,保证所有公共数据都是可获得的)方面,我国还有很大提升空间。

  此外,Data.gov上提供丰富的数据格式,如csv、json、xml、xls、wms、kml/kmz等,其中包括可机读格式(如xls)和开放格式(如csv),并且同一个数据集有多种格式选择。而我国提供给用户的格式种类单一,用户可选范围小,并未做到所有数据均提供可机读和开放格式,给用户对数据的增值利用增加了难度。

  3.2缺乏完善、系统的数据描述

  Data.gov网站的元数据体系较为完善,页面包含资源类型、数据格式、唯一标识符、机构名称、升级频率、数据字典、关键字、公共访问级别、使用者排序、分析单元、地理有效范围、与技术文件的链接、与源网站其他内容的链接等丰富的描述信息[3]。而我国多数网站的元数据不够完善,只是对部分信息进行简单罗列,缺少关键信息,不利于用户对数据的了解和使用。

  此外,Data.gov上的数据免费向所有人开放,无需注册登录。而国内多数网站要求用户事先进行注册,且注册过程繁琐,需要用户的真实信息,一定程度上削弱了对信息外泄较敏感用户使用数据的积极性。

  3.3缺乏完善、科学的分类体系

  关于数据分类,美国按主题(Topics)、主题类别(TopicCategories)、数据类型(DatasetType)、标签(Tags)、格式(Formats)、组织类型(OrganizationType)、组织机构(Organization)和发布者(Publisher)8个方面对数据进行组织分类,大大方便了用户对数据的查找。国内各个网站的数据分类方式单一,分类方法不够科学,分类体系不够完善。用户在对数据了解不全面,或数据需求不明确的情况下,难以快速有效地定位到所需数据。

  在数据检索方面,Data.gov提供分类导航和关键词检索两种方式。完善的分类体系为分类导航功能奠定了良好的基础。关键词检索时,搜索框支持空白搜索,并提供自动匹配和提示功能。虽然国内多数网站也提供这两种数据检索方式,但分类体系和搜索功能的不完善给用户的检索带来了不便。

  3.4缺乏有效、丰富的互动交流

  Data.gov提供6类互动交流方式,分别是:①提出请求;②报告问题;③将数据分享至Google+、Twitter和Facebook等社交平台;④为开发者提供API接口,并允许APP应用的提交;⑤用户通过对数据资源的评论实现数据质量的评价交流;⑥对用户所提问题按最新(Newest)、频繁度(Frequent)、投票多少(Votes)、活动中(Active)和无回答(Unanswered)5种方式进行组织。用户对已有提问进行评论和投票,其结果形成热点问题排行,使重要问题得到强调。同时,每个问题附有标签和相关问题推荐,方便用户找到参考从而更好地解决问题。

  可以看出,Data.gov的互动交流功能比较完善,体现了网站对用户建议和需求的重视。与之比较,国内各平台在互动交流方面存在很多不足。多数网站的互动交流在使用上缺乏便捷性,需要注册登录后才能提出建议或发表评论,并且除青岛和南海区外,都没有数据分享功能,不利于数据和平台的推广。总体上来看,国内各网站对互动交流这一功能还未给予足够重视,反馈形式单一,使用不够便捷,对用户意见和建议的回复也有待进一步落实。

  3.5缺乏便捷、良好的创新环境

  Data.gov上允许用户提交自己开发的应用,并为开发者提供API接口。另外,美国民间公益组织阳光基金会曾举办公共数据开发大赛,鼓励社会参与数据的创新应用。良好的创新环境使得目前Data.gov上提供的645个应用中很大一部分来自社会公众的开发创新。

  中国各平台在应用的数量上与美国仍有很大差距(见图3)。而在鼓励社会公众参与方面,北京和上海也曾举办相关竞赛,有一定成效但并未得到广泛关注。多数网站支持APP应用的提交,但只有少数开放了API接口,没有为社会公众提供良好的创新环境。总的来说,国内在数据的应用创新方面已有一定作为,但仍需改进创新环境,提高社会各界的参与度。

美国与中国各地方政府发布的应用个数比较

  3.6缺乏实时、有效的数据更新

  对数据的更新维护是政府数据开放项目的重要工作。Data.gov上数据的更新是实时的,截至2015年10月18日,网站上的最近更新时间为2015年10月17日,多数数据都能按承诺进行更新。国内在这一方面做得较好的北京和上海的最近更新时间分别为2015年10月12日和2015年10月16日。且通过一段时间的跟踪调查发现,这两个网站出现新数据或更新数据的周期在一周以内。其余各地的大量数据虽清晰地标明了更新频率但均未真正兑现承诺。

  4我国统一数据开放平台建设策略

  显然,与美国相比,我国的政府数据开放还处于探索起步阶段,不仅尚未建立国家层面的网站,各地方政府的数据开放平台也仍有很大改进空间。因此,本文基于国内政府数据开放的现状和存在的问题,提出了6条建设对策,以期快速实现“2018年底前建成国家政府数据统一开放平台”这一目标。

  4.1转变行政观念,制定顶层战略规划

  首先,政府应意识到开放数据的价值,转变保密、封闭的行政观念,将数据开放视为政府的基本义务,结合国情制定顶层战略规划和切实可行的行动计划,并对政府数据开放的对象、形式、边界进行严格定义,保证数据开放的规范化和制度化[4]。同时,优化法律法规的制度框架,加强对数据发布者和使用者的行为规范,更有效地保护国家机密和个人隐私。建议设立专门的数据管理机构,负责开放数据的整体协调、制度建设和执行监督,使整个开放数据工作可以有序开展。

  4.2考虑用户需求,提高数据的实用性和规范性

  在数据开放的起步阶段,以用户需求为导向,开放与公众密切相关领域的高价值数据,推动用户的参与及基于数据的商业服务的展开。随着网站的发展与完善,不断扩大数据的领域和范围,最后致力于实现开放数据的完整性,保证所有公共数据都是可获得的(涉及个人隐私和国家安全的除外)。同时,增加网站的格式种类,提高开放数据的可机读率,使数据尽量以方便用户处理的格式出现,不以图片、网页、pdf格式发布。

  4.3完善元数据体系,提供更便捷的数据获取途径

  目前国内各平台的元数据体系不够健全,缺乏统一的、通用的元数据标准。为此,应在参考国外元数据标准的基础上,对各机构所提供资源的数据类型、数据格式、数据所表述的深层机理、所对应的国家主体分类标准、国民经济行业分类标准、数据导出格式种类等进行定义,并在定义的基础上进行分类,制定适合自身发展的元数据标准[5]。同时,一方面,考虑到元数据与对象数据关联的重要性,选择合适的封装策略来保障它们之间紧密的联系[6];另一方面,做到数据对所有人无条件免费开放,无需用户注册登录和提供用户的真实信息,真正做到数据使用的非歧视性,增强用户获取数据的便捷性。

  4.4健全分类体系,提供更高效的数据检索功能

  分类和检索是政府数据开放平台的重要功能,直接关系到网站的易用性和用户的友好性。关于数据分类,应选取多种分类维度,如主题、提供机构、格式、标签等,在各个维度下,依据数据集自身的特点和分类的模式,选择不同的分类方法,对所有数据集进行科学合理的划分。而在检索管理方面,建议引入词引导技术并对排序技术进行改进[7],同时优化搜索框的检索功能,如引入高级搜索、语义搜索等功能,减少信息噪声,使用户的搜索行为更准确有效。

  4.5重视用户反馈,建立与公众的良好交互

  数据平台的建设需要不断完善,而用户的反馈对此过程起关键作用。因此,一方面应丰富平台上的互动方式,除提建议和数据需求的方式外,还可以借助社会化媒体的力量,允许用户将数据和对数据的评价分享至公众平台,实现用户间数据的交流,同时扩大数据门户的知名度和影响力;另一方面应落实互动交流功能的有效性,及时对用户的提问和建议进行审核和回应,并将其公开,为有相似疑问的用户提供参考,减少管理人员重复性工作的同时也显示管理者对用户反馈的重视。

  4.6加强宣传教育,调动社会各界共同参与

  欧美等国的经验表明,政府数据开放平台的发展离不开公众的参与。因此,应在全社会加强宣传教育,弘扬数据文化,引导更多的民众关注和使用数据开放平台。同时,鼓励公众、企业或研究机构等对平台上的数据进行增值开发,使政府数据真正造福于民。

  5结束语

  对我国政府而言,在数据开放这一国际发展趋势下,开展政府数据开放工作既是机遇又是挑战。一方面,政府数据的开放会带来巨大的经济效益、社会效益和政治效益;另一方面,我国数据开放步伐比较落后,缺少相关经验,各方面仍有很大改进空间,对今后数据开放工作的展开是一个不小的挑战。笔者通过对代表性地方政府开放平台进行调研,分析了我国各地方政府数据开放平台建设的现状,将其与美国进行比较,发现差距,并提出针对性策略,以帮助更好地面对挑战。我们坚信只要我国政府坚持以民生需求为导向,从意识、政策和技术3个层面全方位推进政府数据开放工作,必能激发政府数据在提升社会治理能力和促进社会发展中的巨大潜力。

  参考文献

  [1]周军杰.需求导向的中国政府数据开放研究[J].电子政务,2014(12):61-67.

  [2]OpenGovernmentDataWorkingGroup.Eightprinciplesofopengovernmentdata[EB/OL].[2015-06-16].http://www.open

  govdata.org/.

  [3]侯人华.美国政府开放数据的管理和利用分析---以www.data.gov为例[J].图书情报工作,2011(4):119-122,142.

  [4]郑磊,高丰.中国开放政府数据平台研究:框架、现状与建议[J].电子政务,2015(7):8-16.

  [5]陈涛.数据开放平台建设策略研究---以武汉市政府数据开放平台建设为例[J].电子政务,2015(7):46-52.

  [6]吴茗,龙伟,肖红.自建数字资源的元数据管理实践及启示---以国家图书馆中文图书数字化资源库为例[J].数字图书馆论坛,2014(3):44-48.

  [7]孙卫,沈娟.用分类主题理论调整检索功能要求[J].数字图书馆论坛,2008(4):34-38.

责任编辑:hongqiong