摘要:

  文章首先对国内外研究欧洲开放政府数据的文献进行了回顾, 从政策、资金、培训、评估4个方面总结了欧洲开放政府数据的合作模式, 重点分析了数据共建共享的实现途径——欧洲数据门户的数据源整合、数据发布、数据利用和许可协议, 最后提出数据开放和隐私保护并重、专项资金、专门复合人才培养以及完善的数据管理和平台评估等有益经验。

  一、引言

  2015年5月, 欧盟正式颁布了“数字单一市场”战略, 目的之一是实现欧盟国家之间数据的自由流动。据欧洲数据门户小组的研究, 欧盟国家中有26个都已经建立了国家级开放政府数据门户, 2016年至2020年, 开放数据的市场规模将增长36.9%, 其价值将在2020年达到75.7亿欧元。欧盟于2011年6月和2013年1月建立了“开放数据门户” (Public Data.eu)和“欧盟开放数据门户” (European Union Open Data Portal, ODP)。2015年11月在卢森堡举行的欧洲数据论坛上, 欧盟委员会正式启动了“欧洲数据门户” (European Data Portal, EDP)的测试版, 计划取代Public Data.eu。EDP收集的是欧洲国家公共数据门户上的公共部门信息的元数据, 直接从欧洲各国获取数据, 同时EDP也会收集ODP的元数据。本文将重点分析欧洲开放政府数据的共建共享模式以及实现途径EDP门户的数据管理体系, 结合中国目前开放数据的现状, 总结出可供参考的有益借鉴经验。

  二、欧洲开放政府数据研究概述

  (1)国外欧洲开放政府数据的相关研究

  国外学者研究侧重于政策分析、项目评估和国家平台建设。Blasio E D和Selva D分析了法国、意大利、西班牙和英国的开放政府政策文件, 通过比较具体的措施和动机来反映各国对开放政府的不同理解。Loenen B V等人认为开放数据政策应该遵循《欧盟数据保护指令》中个人数据保护的原则, 但目前《欧盟数据保护指令》中数据的范围逐渐在扩大, 这可能阻碍欧盟开放数据政策的实施, 因此有必要重新思考个人数据的概念。项目评估方面也很重视, Attard J等人探讨了政府数据价值创造的流程, 提出了一个价值创造评估框架, 基于该框架评估了两个欧洲国家的开放政府数据项目。Viscusi G等人提出了一个基于质量的开放政府数据遵循评估框架, 该框架由质量维度和一套测量遵循的标准组成, 并将该框架用于意大利地方政府部门开放政府数据项目的评估。关于国家平台建设, Bright J等人以英国开放数据门户为研究对象, 提出了一个测试分析模型, 意在解释单个数据集被下载的次数, 同时也探讨了与开放数据经济可持续性和政治影响的有关的因素。Gomes和Soares D对比了3个北欧国家 (丹麦、挪威和英国) 和3个南欧国家 (意大利、葡萄牙和西班牙) 在开放政府数据门户建立发展方面的不同, 结果发现两个地区的差异主要体现在他们再利用开放数据的能力上。Arquero Avilés R和Marco Cuenca G从ODP的内容、建立标准、主要的数据集、数据格式以及提供的应用等方面对ODP进行了细致的介绍分析。Waal SVD等人描述了开放数据门户的主要功能, 提出了一个概念模型, 并将Public Data.eu作为一个典型例子进行了分析。

  (2)我国欧洲开放政府数据相关研究

  国内对欧洲开放数据的研究以政策战略和个别国家的数据门户为主, 对于欧洲的数据平台只有寿志勤等介绍了欧盟开放数据门户ODP, 并在其基础上提出了一个长三角地区政府数据开放门户架构。张起对于欧盟开放政府数据的顶层设计框架、法律制度以及遇到的问题和应对策略等进行了分析。曹凌从大数据创新的角度分析了欧盟开放数据的战略, 包括清除法律、意识和技术方面的开放障碍, 通过修改指令与立法、投入资金资助、建立欧洲开放的数据门户等措施保障开放与透明等。英国作为开放数据运动中的领先者, 国内学者对其开放数据的发展给予了较多关注。陈美对英国开放数据的政策执行策略进行了分析, 包括构成其政策执行的监督机制、政策的多元执行主体、开放政府许可协议等内容。朱贝和盛小平从政策实施目的意义、政策制定参与者、条款内容等方面探讨了英国的开放数据政策, 并总结了英国开放数据的特点。李燕等人从数据资源、授权模式、数据管理等方面对英国开放政府数据门户进行了分析。除了对数据开放的研究, 国内学者也注意到了个人隐私保护的必要性。

  三、欧洲开放政府数据合作模式——跨国共建共享

  欧洲开放政府数据的共建共享模式包括四个要素, 分别是统一的政策指引方向、财政资金的同步跟进、专业完备的培训机制以及对数据门户质量评估的重视 (如图1) 。

  (1)统一政策指引方向

  欧盟至今已经颁布了一系列数据开放和隐私保护的政策。2010年3月, 欧盟委员会发布了“欧盟2020:智慧、可持续和包容性增长战略”, 即“欧盟2020发展战略”, 公布了未来十年欧盟的经济发展计划, 其核心目标就是实现欧洲经济的增长, 加强创新能力, 而公共数据正是激发创新能力的资源之一。2011年12月, 欧盟委员会发布了报告《开放数据:创新、增长和透明治理的引擎》, 报告中明确提出了欧盟开放数据战略的关键举措, 包括在2011年12月提出《公共信息再利用指令》的修订版;在2012年春建立提供委员会数据和其他欧盟组织数据的开放数据门户 (即现在的ODP平台) ;在2013年建立提供一个可以提供欧洲各国数据的泛欧洲数据门户 (即现在的Public Data.eu和EDP平台) 。欧盟对个人隐私的保护也十分重视, 2015年12月通过了《一般数据保护条例》, 并于2016年5月正式发布, 将个人在互联网上产生的数据作为个人基本人权加以保护, 严格限制了商业公司对于个人数据的利用。

欧洲开放政府数据共建共享模式四要素

欧洲开放政府数据共建共享模式四要素

  (2)政府资金同步跟进

  欧盟通过“竞争与创新计划”和“连接欧洲设施”对成员国开放数据门户网站的建立提供资金支持, 旨在提高成员国数据的互操作性并实现数据的整合。“竞争与创新计划”从2007年开始运行, 已于2013年结束, 总投资约36亿欧元, 主要支持企业创新以及通信和能源领域的发展。“连接欧洲设施”始于2014年, 为期7年, 重点支持欧洲交通、能源和电信三个领域的发展, “公共开放数据项目”就是该计划在电信领域中支持的一个重要项目, EDP的建成就是其成果之一。“地平线2020”是欧盟在“第七框架计划”基础之上, 适应时代需要设计的新的研究与创新框架计划, 于2014年正式启动, 为期7年 (2014~2020) , 总经费770亿欧元, 是欧盟最主要的科研资助计划。在“地平线2020”的2014~2016年工作计划中, 欧盟委员会开展了名为“开放研究数据试点”的项目, 目的是为了促进由“地平线2020”项目产生的研究数据的再利用, 不过该计划中只选择了部分领域的数据进行开放。

  (3)完备的培训机制

  EDP平台中除了EDP发表的报告、利用开放数据的案例、关于开放数据的报告新闻等资源之外, 还有一个开放数据在线学习项目及其培训指南, 里面包括13个模块的课程, 适合任何水平阶段的开放数据学习者, 学习内容从开放数据的基本概念、释放开放数据的价值、开放数据带来的变化、开放数据许可、使数据可用到评估开放数据项目、开放数据的可持续性、开放数据门户、开放数据格式、什么时候以及如何使用关联开放数据五星机制中的前三星, 再到清洗数据、挖掘隐藏在互联网中的数据、关联开放数据。每个模块都包含开放数据的一个方面, 并清楚地标明本模块的适用人群、学习时间以及学习大纲等信息。除了列举出一些常用的资源, 如数据清洗工具, EDP设计的这一系列课程还通过案例分析和练习等形式加深用户对开放数据的理解。在部分学习资源中, EDP还提供了英语、德语、法语等多语言版本的学习材料。

  (4)数据门户质量评估

  2013年11月欧盟启动了为期两年的“开放数据监测器”项目 (Open Data Monitor)  旨在提供开放数据资源, 帮助用户进行数据分析和数据可视化。该项目主要从开放许可、机器可读性、可获得性和元数据完整性4个方面对欧洲32个国家173个数据门户的1472GB的数据量进行监测, 并通过可视化的方式呈现监测结果。2015年欧盟委员会发布了《2015年欧洲开放数据成熟度》报告 (Open Data Maturity in Europe 2015), 2016年又发布了《2016年欧洲开放数据门户成熟度》报告, 两份报告同属于评估EU28+国家开放数据成熟度水平的系列年度报告。评估主要从开放数据准备度 (Open Data Readiness) 和平台成熟度 (Portal Maturity) 两个方面展开, 既涵盖了各国推动开放数据活动的情况, 也包括对国家级平台发展水平的评估。开放数据准备度中主要评估开放数据政策现状、许可规则、国家级层面的协调程度、数据利用和开放数据影响力, 平台成熟度主要评估平台的可用性、数据的再利用性和数据涉及的领域范围。

  四、欧洲开放政府数据实现途径——EDP平台

  EDP作为欧洲统一的开放数据门户, 收集整合了欧洲各国的政府数据, 并以统一的格式进行数据发布, 使用户可以通过一个平台就检索到多个国家和地区的政府数据资源, 提高了数据可获取性。2016年2月EDP上线, 2017年3月2版更新, 数据集从24万到62万大幅增加, 支持语言从3种增加到24种, 并发布了200多篇文章报道以及大量的开放数据活动。用户可以通过筛选国家、数据来源网址、数据主题分类、数据标签、数据格式和许可协议来浏览数据集。从数据收集和数据发布, 到数据整合和数据利用, 再到数据使用许可协议, EDP建立了成熟完善的数据管理体系。

  (1)丰富的数据源整合

  EDP最初的数据来源是欧洲各国国家级的开放数据门户, 现在也逐渐开始收集地区性的开放数据门户以及特殊主题领域的平台的数据, 目前EDP上发布的数据来源于欧洲34个国家的69个网站, 数据来源网站还在不断增加。《2016年欧洲开放数据门户成熟度》报告指出71%的EU28+国家 (欧盟28个国家以及挪威、瑞士和列支敦斯登) 除了国家级的开放政府数据门户以外, 都有地区性的数据门户, 如德国是一个联邦制国家, 有很多地区性的数据门户, 但是国家平台却无法及时跟踪所有的子平台, 因此没有链接到所有地区性数据门户。奥地利则是让所有地区共同管理国家级的平台, 因此责任就被不同的地区分摊了, 所有地区性平台的数据也被整合到了国家级平台当中。同平台数据的整合可以提高数据的可获取性和可见性, EDP在其《数据提供者指南》 (Data Supplier Guidelines) 中详细说明了政府机构网站想要在EDP上共享其数据的步骤和方法, 明确规定了其收集数据的要求, 方便想被EDP收集数据的地区性或特殊领域的平台更快捷地通过EDP来发布数据。

  (2)政府数据发布标准化

  《数据提供者指南》中指出想被EDP收集数据的平台必须要提供元数据, 而并不只是数据本身, 且元数据标准最好是CKAN或INSPIRE或DCAT-AP, 如果是其他标准则需详细描述。此外元数据的格式应为XML或JSON, 同时用CKAN或OAI-PMH或dump file的API来检索数据。除了相关的技术要求之外, EDP也提出了一些操作要求, 比如数据的收集应该在一个固定的时间, 还要保证被收集的数据集的质量, 避免数据集的重复等。EDP还发布了元数据质量仪表盘, 从数据的可访问性、机器可读性和对DCAT-AP规格的遵从性三个方面对数据来源网站元数据质量进行监控, 每周定期更新检查结果。网站的SPARQL管理工具还允许用户通过SPARQL查询语言检索EDP中的元数据。

  (3)开放数据利用案例分享

  EDP平台鼓励用户分享他们利用开放数据的故事, 以MELODIES项目为例, 该项目联合了来自欧洲8个不同国家的16个学界和业界机构, 基于欧洲的开放数据提供了8项创新的可持续的数据服务。其中一项名为“欧洲历史洪水灾害数据库”的服务就整合了卫星图像数据、洪水灾害发生的地址和日期数据, 以及在洪水发生时市民通过社交媒体产生的数据, 用户可以从中找到过去20年内关于某一次特定的洪水灾害的图像、地图、造成的损失、洪水的级别等相关信息。截止到2017年3月, EDP共发布了160个数据利用案例, 比如荷兰的Go OV应用整合了实时旅游信息等多种数据源, 为用户在荷兰的旅行提供便利;英国的My Society应用提供了一个开源的信息平台, 允许用户向任何一个政府机构发送请求, 并且将请求和回复都开放在网上;意大利的Smart Parking Systems应用整合了地理和停车数据, 引导用户到附件最近的可用的停车场, 并提供了可直接付款的渠道。

  (4)明确的数据许可协议

  EDP网站的许可帮助 (Licence Assistant) 部分, 提供了32种许可类型的具体描述。从EDP已发布的数据集数量来看, 较常用的许可协议是OGL2.0、CC-BY和DL-DE-BY 2.0。OGL2.0是英国的开放政府许可协议2.0版 (Open Government Licence version 2.0) , 允许用户自由地复制、发布、分发和传播信息、改编信息、商业或非商业地使用信息, 比如将信息和其他信息结合使用或者将信息用在自己的产品中。CC-BY是知识共享 (Creative Commons) 许可协议中的署名许可协议, 允许分发、再混合、改编和创建自己的作品, 可用于商业领域和非商业领域, 是适用范围最广的一个许可协议。DL-DE-BY 2.0是德国数据署名许可2.0版 (Data licence Germany–attribution–version 2.0) , 允许用户复制、发布、加工和传播信息, 或将自己的数据和其他数据结合形成新的独立数据集, 或者将数据用于公共和非公共电子网络中的产品和应用中, 同样也适用于商业或非商业的目的。

  五、欧洲开放政府数据实践发展经验

  从2012年“上海市政府数据服务网”试运营开始, 北京、武汉、青岛、重庆、贵阳、广州等城市也陆续建立起开放政府数据门户, 浙江省和广东省也分别于2015年9月和2016年10月建立了省级的开放政府数据门户。2015年9月《国务院关于印发促进大数据发展行动纲要的通知》正式发布, 明确2018年构建跨部门的政府数据统一共享交换平台, 这将进一步加快全国各级政府开放政府数据门户的搭建。通过对欧洲开放政府数据共建共享的模式和欧洲数据门户的数据管理体系的研究, 总结出对我国政府数据开放实践领域的有益借鉴。

  (1)数据开放和隐私保护并重

  2016年9月, 依据《国务院关于印发促进大数据发展行动纲要的通知》, 国务院又发布了《国务院关于印发政务信息资源共享管理暂行办法的通知》, 对政府信息资源的提供、利用和共享又提出了一些具体的要求。贵州省政府也于2016年11月印发了《贵州省政务数据资源管理暂行办法》], 上海也于2016年5月发布了《上海市政务数据资源共享和开放2016年度工作计划》。但是国内只有极少地区制定了本地的数据开放计划, 并且我国还没有制定专门的个人隐私保护方面的法律。早在1995年, 欧盟就制定了《欧盟数据保护指令》, 在2016年正式发布的《一般数据保护条例》中也明确提出数据主体应享有“被遗忘权”, 即数据主体有权要求数据控制者删除与其相关的个人数据的权利。可见隐私保护的重要性和必要性。我国在不断推进数据开放的同时, 也应重视个人隐私信息的保护, 加快相关的立法进程。

  (2)专项资金促进数据开发利用

  在“地平线2020”2017年的工作计划中, “开放研究数据试点”项目将涵盖“地平线2020”的所有领域, 进一步推动科研数据的开放。虽然目前我国一些地方政府也举办了有奖数据竞赛活动, 比如广东省的公共交通大数据竞赛、上海市的开放数据创新应用大赛以及深圳市的城市数据创新大赛, 鼓励参赛者利用开放数据提出解决社会问题的方案, 并给予表现优秀者一定的奖励和资源支持。但政府仅通过举办数据竞赛的方式鼓励开放数据的发展, 在持续性上则会有所欠缺, 而设立专项资金则会有更好的效果。我国应设立数据开放的专项资金, 资助各地区开放政府数据门户的建立, 或者某一主题领域数据, 如科研数据的开放共享, 这将有利于促进数据的再利用和增值推广。

  (3)重视专门复合人才培养

  EDP除了提供13个开放数据的相关课程外, 还发布了Open Data Goldbook, 从如何制定开放数据战略、技术准备和实施、开放数据生命周期管理、开放数据监测4个方面为数据发布者提供了具体的指导。英国在人才培养方面也做得很好, 2012年成立的开放数据研究所 (Open Data Institute, ODI) 开设了很多开放数据的培训课程, 每周五还提供免费的线下开放数据讲座。中国已有的开放数据门户中较多的是发布数据, 而对于用户教育这方面关注较少。如何帮助用户更便捷更高效地发布数据、利用数据也是数据开放中需要解决的重要课题。目前我国虽然也有很多关于大数据培训的课程, 但是多偏向于数据分析能力等的培养, 并没有针对开放数据专业人才的培养。荷兰代尔夫特理工大学在edx平台上开设了《开放政府》的课程, 2017年该课程也将继续开设。

  (4)完善数据管理和平台评估

  在对EDP平台的调查中, 发现其本身对开放数据生命周期有明确的概念, 主要包括数据收集、数据准备、数据发布和数据维护4个子流程。同时也有完善的平台评估体系, 《2016年欧洲开放数据门户成熟度》报告就将EU28+国家按照其开放数据发展的成熟度水平分为了四大类, 分别是起步者、跟随者、快速追赶者和领先者, 并从政治、法律、技术、财政等方面分析了在推进开放数据进程中可能面临的障碍, 同时也提出了一些消除障碍的建议。我国大部分政府还处于数据生命周期中的数据准备阶段, 在实践领域也缺少对平台的评估。但是学术界已经有一些研究者开始关注对数据门户的评估问题, 比如郑磊和高丰建立了由3大层面13个维度构成的评估框架, 并对国内多个地方的开放政府数据实践进行了比较。我国应该重视对开放数据生命周期的全程管理并逐步开展对数据门户的评估, 这样才能提高数据的质量和利用率, 并更准确地了解国内数据开放的发展水平以及存在的问题。

责任编辑:qinpeng