摘要:我国政务数据与包括企业数据在内的社会数据的融合研究,起步较晚且滞后于实践。针对目前没有两类数据融合利用演进历程研究,缺乏数据融合时具体形态分析,基于演化视角,通过将数据融合演进与经济发展紧密融合,回溯工业经济、后工业经济、数字经济时代数据融合过程,以案例研究、对比研究、演绎推理等方式,总结提炼并剖析政企数据融合利用1.0、2.0、3.0、4.0模式的内涵、特点及过程,提出每种模式对应的数据存在形态。研究发现,未来四种模式将长期并存,新兴的3.0、4.0模式将从权属关系、存在形态、主体协同等方面,对未来政府数字治理产生深刻影响。

一、引言

习近平总书记在十九大后第二次中央政治局集体学习会上指出,“要加强政企合作、多方参与,加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,形成社会治理强大合力”。这是中央层面首次提出推进政府数据与社会数据要素的平台对接,形成政企一体化数据资源体系的政策要求。从全球范围看,政务数据与社会数据融合利用最早起源于美国,20世纪70年代,美国联邦政府便开始搜集政府部门业务数据、公民民意数据及自然环境数据,通过处理分析,为应对科技问题及挑战提供数据参考。此后,美日韩等国家逐步认识到政务数据与社会数据融合利用的重要性,纷纷开展相关研究及实践探索。近年来,政务数据及社会数据的巨大价值得到政产学研各界广泛认同,数字政府打造、智慧社会建设、数字经济发展、企业数字化转型,都离不开两类数据的开发利用及价值激活。随着大数据战略的加快推进,大数据产业蓬勃发展,融合应用不断深化,我国大数据发展在快车道上不断前行。目前,超过90%的省级政府制定了政务数据资源共享管理办法,82个省级、副省级和地级政府上线了数据开放平台,政务数据共享开放及分析利用取得了长足进步。然而,政务数据和社会数据对接机制缺失、对接范围不广、对接数据不足、对接应用不深等问题普遍存在,特别是企业尤其是互联网巨头拥有的海量企业数据,难以被政府及社会利用,政企数据融合利用难成为政府数据与社会数据对接难的焦点。我国政务数据与社会数据的共享利用还处于起步阶段,数据潜在巨大价值尚未激活,如何实现党中央提出的“统筹规划政务数据资源和社会数据资源”“加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接”,是我国数字治理必须要着力解决的重大问题。

二、研究述评

我国学者关于政务数据与企业数据融合利用的研究相对较少,理论研究滞后于实践探索。已有研究主要集中在重要性阐述、理论探讨、案例研究等方面。一是重要性方面研究。王晓明、夏义堃、赵树宽等基于不同研究视角,提出政府数据与企业等社会数据融合,可以增强政府数据调控能力、辅助支撑政府决策、有助于释放更多数据红利。二是理论方面的研究。钱国富、连玉明、安小米等分别从本体论、“块数据”理论、协同创新理论等视角,开展了两类数据的关联性及管理机制。三是案例方面的研究。马广惠等围绕治理主体、治理客体、治理工具三个维度,对大数据汇聚、融合、应用进行了案例分析。崔佳佳等聚焦中小企业融资,研究了破解融资难的机制及经验。目前,在政企数据融合利用领域的研究,存在两方面不足。一是缺乏整个发展脉络研究。相关文献主要集中于近五年,对我国政务数据与企业数据融合利用的演进历程、发展特点、未来发展趋势未做梳理总结。二是缺乏数据融合具体形态研究。已有的数据融合利用研究,直接阐述对数据进行了加工分析,应用到政府决策或民生服务,而很少涉及数据是如何进行加工处理、融合时是以原始数据还是脱敏数据抑或是数据标签。鉴于此,本文将基于演化视角,聚焦社会数据中最为重要的企业数据,对我国政务数据与企业数据融合利用进行全面梳理,提炼形成代表性的融合模式;同时,研究政企数据在每种模式下的存在状态,以期为今后开展多类数据融合利用研究提供参考依据。

三、政企数据融合利用演进历程

我国政务数据与企业数据的融合利用,与经济发展阶段密切相关,反映了数据与经济之间的有机关联,体现了数据作为经济发展关键要素而越发重要的特点。随着我国经济形态由工业经济、后工业经济向数字经济迈进,政务数据与社会数据对接融合的种类数量、对接程度、应用领域、价值实现不断增强,表现出4个典型的演进阶段。(一)1.0融合模式1.0融合是指政府以行政方式获取企业数据的模式。包括例行上报和应急上报两种类型。在工业经济时代,数据主要作为统计分析使用,通过获取企业数据并与政务数据融合,可以帮助政府了解行业发展情况及总体经济运行状况,企业数据是政府研判经济形势的重要参考。这一时期,企业对数据的敏感度关注并不高,数据价值的开发处于较低水平,企业愿意将数据提供给政府使用。政府通常以法律法规形式,让企业按要求上报月度数据、季度数据、年度数据等,上报的方式既可以是纸质材料、电子材料或电话沟通,也可以通过企业与政府间的专有渠道。政府与企业间的数据流动,主要是单向的,即从企业流向政府,而政务数据则较少共享给企业。在此模式下,企业的各种统计业务分别由不同的部门负责,分别向主管领导呈送并对外报出,流程复杂、效率低下,无法应对突发事件的发生,需要其他类型进行补充。第二种类型是指应急性上报,作为第一种模式的补充。工业经济时代后期,经济活跃度逐步增强,经济领域突发事件频发,仅靠行政手段让企业按时提供常规数据的方式,已无法满足政府引导、干预经济的需求。为此,在常规例行上报数据之外,需要额外增加上报数据,以帮助政府掌握突发经济事件的影响,为干预处理提供数据决策参考。例如,面对社会热点事件,市场监管总局积极协调不同企业,要求企业迅速上报相关数据供分析人员进行分析并形成专题报告,为事后监管、责任追查形成良好铺垫。相对第一种类型,应急上报模式时间上更加急迫、政府干预力度更大,企业上报数据也不限于经营数据,也会包括突发事件中的就业失业数据、减产数据、损失数据、安全数据等。然而,这两种类型的模式都是传统的数据收集模式,政府的数据是按照特定研究目的、抽样方案、记录方式获得的格式化的数据,不仅数据量有限,数据质量也难以保证,通常无法满足多层次、多角度的需要,因此,需要更高类型的数据融合模式进行弥补。(二)2.0融合模式进入后工业时代,企业逐步向信息化、数字化转型,业务及生产经营数据变化速度加快。政府治理能力面临挑战,需要对企业所有生产活动和业务活动数据进行准确及时的分析,利用大数据提升科学决策能力、社会监管能力、公共服务能力和应急管理能力。2.0模式是指政社数据以接口方式进行融合应用。这种模式也分为两类,一类是数据的比对核验,另一类是API授权方式。比对核验方式是目前政府向社会开放数据的延伸,是将政府内部的查询核验数据的功能拓展到了社会领域。为确保数据安全,政务数据在和社会数据对接时,通过政府或企业平台进行联通,将数据需求申请发送政府或企业数据共享平台,由平台对数据进行核验后给出验证结果。API方式通常用于政府或事业单位获取企业数据,通过API调用企业数据,将其与政务数据进行融合,然后进行开发利用,这种方式确保了数据安全,企业是无法接触到政府数据的。以数据比对核验为例进行说明。为解决小微企业融资难问题,山东省政府打通部门内部数据孤岛,促进政务数据与银行数据进行对接共享,极大提升了企业贷款成功率和办理效率(参见图1)。山东省级政府首先将市场监管局、税务局、发改委、环保厅、农业厅所掌握的企业信息、纳税信息、信用信息、环保处罚信息、土地确权办证信息,通过省级共享交换平台进行共享,并通过国家共享交换平台进行信用数据、个人数据核验,验证通过之后,将数据推送给各商业银行,由银行依托各自数据平台对所有政务数据与自身掌握的企业数据进行对接,核验校对成功后即可批准个人贷款办理申请。在这种模式下,政府数据和企业数据通过银行的数据平台进行了对比验真。

政务数据与社会数据平台化对接的演进历程及政策启示

图1 个人贷款申请业务场景下政企数据平台化对接机制

(三)3.0融合模式3.0模式是指政企数据通过模型算法进行融合利用。进入数字经济时代,政府及企业产生的数据呈指数级增长,数据从简单的处理对象开始转变为一种基础性资源,数据治理方式面临巨大变革。企业深度参与、数据双向融合利用是3.0模式区别于前两种模式的主要特点。随着数据多源异构动态增长,政府已难以独立分析处理这些数据,需要借助外部力量协助。具有丰富数据分析经验的企业将成为数据融合分析的主力军,数据处理利用主导权将从政府主导逐渐向企业主导转变,企业会在政府指导下开展数据加工分析,形成数据分析结果支撑政府决策。同时,由于模型算法只是一种技术手段,不存在数据隐私泄漏的问题,政务数据与社会数据可以在政企之间双向流动。3.0模式共享的数据既不是原始数据,也不是脱敏数据,而是对数据进行处理的模型算法,“即数据不见面、模型算法见面”。目前,3.0模式成为企业开展政务数据与社会数据对接的主要模式,国内的商汤科技、旷视科技、数联铭品等大数据领军企业,都已在数据模型算法应用领域取得积极成效。企业可通过设计模型算法,置于政府数据平台上进行模型训练,在不共享政府数据的前提下,获取数据运算结果以支撑业务开展。例如,商汤科技在与公安部门合作开展人脸识别时,在经公安部门授权许可之后,将研发的模型算法放入公安部门内网,利用所需场景数据进行模型训练和优化,通过基于大数据训练的深度学习模型,对眨眼、张嘴、点头等人脸表情数据进行抓取和学习,并与公安部人脸数据进行比对,确保人脸身份认证结果的准确。(四)4.0融合模式4.0模式是指数据以抽象化的特征形式进行融合利用的模式。长期以来,政府掌握的数据远远超过社会数据,但随着5G、物联网等新一代信息技术的广泛应用,大量社会数据将随之产生,社会数据量将逐步超过政府数据。社会数据的增长速度、价值量也有望超过政府数据。在此情形下,数据的加工处理复杂性、专业性更高,更加需要专业化的团队承担,以在保障满足技术需求的同时兼顾政府目标的实现。考虑到海量数据的安全问题,数据必须进行脱敏处理后才可以应用,同时,考虑到应用场景急剧增加,同样的数据将应用到不同的领域并和不同数据进行融合对接,能够同时满足这些条件的数据存在方式,最佳选择为数据的标签化,通过数据标签进行政务数据与社会数据的对接利用。为提升海量异类标签对接的效率,将会依据原始数据产生大量专题特征库,作为标签储存的载体。4.0模式将成为未来政社数据融合利用的新模式。比如,在建设全国一体化国家大数据中心时,通过清理、整合、统筹政府部门相关数据以及社会数据,结合业务应用需求,聚焦个人、企业等主体,挖掘数据的共性、普遍性的本体特征,形成面向行为规律、业务逻辑的数据标签体系和主题库等“数据半成品”,进而形成支撑各级政府决策履职和服务社会相关机构的大数据主题资源库,使数据以“数据特征对数据特征”“主题库对主题库”方式对接,为开展重大风险防控、区域协调发展、宏观经济运行、社会应急管理、公共服务优化等提供数据决策支撑。在国家大数据中心体系中,国家、部委、省级、市级、区县五个层面的政务数据,将依托数据平台,对个人身份、企业法人等基础数据,以及教育学历、婚姻状况、健康医疗等主题数据进行加工处理,形成政务数据标签、数据特征、数据特征库。同时,从互联网数据、企业数据、感知数据三个维度,依托大数据平台,将社会数据形成社会数据标签、数据特征、数据特征库,数据的融合利用以数据特征的方式进行(参见图2),为开展大数据联合分析应用、提高信息资源利用水平提供基础,充分发挥大数据提升国家治理能力的作用。政务数据与企业数据融合利用模式对比分析参见表1。

政务数据与社会数据平台化对接的演进历程及政策启示

图2 4.0融合模式中政务数据与社会数据对接机制

政务数据与社会数据平台化对接的演进历程及政策启示

表1 政务数据与企业数据融合利用模式对比分析

四、政企数据融合利用的双维度分析

数据不整合,就发挥不出大价值。政务数据与企业数据融合利用模式的演进,取决于数据数量及价值的变化,在技术的可实现性及社会各方需求的带动下,随着数量及价值增加,数据融合利用模式从1.0向4.0演进。在此过程中,随着数据数量及价值的变化,将会出现4个临界点和2个奇点。(一)数据融合的数量维度分析回顾半个多世纪人类信息社会发展历史,处理各种不断增长的数据都是社会的挑战和难题。从数据数量维度看,随着社会的发展,数据量将迅猛增长,国际数据公司(IDC)预测,2018年,中国约产生7.6ZB的数据,还将保持每年30%的增长,到2025年的数据量将达到48.6ZB。数据的猛增,将带来两个量变到质变的转变:一是数据量超过政府处理能力范围,海量的政府及社会数据将由政府处理转变为由社会机构处理,政府指导、市场化运作成为必然选择,这个临界点即市场化临界点;二是政务数据和社会数据比例方面,随着物联网技术的广泛部署和使用,社会数据将逐步超过政府数据,政务数据、社会数据比例将发生倒转,这个临界点即比例临界点。(二)数据融合的价值维度分析随着数量的增加,数据价值也会随之增长,成为政府及企业的一类重要资产,数据资产化的属性将会愈发明显,推动数据资产价值链由低端向高端演进。由于数据具有公共价值属性,可以同时在多个领域应用,而且其价值也将越来越大。随着技术进步,数据存储、数据清洗挖掘将实现规模化运营,成本得以降低,而数据的价值则随着数量的增加不断上升,当数据本身的价值大于数据处理成本时,企业便有了收益为保障,数据真正成为企业核心资产,大量专业化的数据型公司将爆发式增长,综合提供数据,推动数据应用、整合数据加工的新型公司将具备明显竞争优势,此临界点即收益临界点。进一步发展,将会遇到一个临界点,即数据在各领域的总体应用价值大于其在某一领域的价值,为了更好地服务其他领域的应用,其存在形式就要根据使用领域而定,考虑到各应用领域的数据存在形式往往有差异,但总会有一个最小公约数,为了提高数据应用效率,数据将按照最小公约数的要求进行标签化,形成共性的、满足各种应用的存在形式,此即存在临界点。在此临界点,通过数据标签化,解决了原始数据共享的隐私及安全隐患。(三)数据融合的双维度奇点分析在4个临界点的交点处,会形成2个奇点。一是万物数化的奇点,即市场临界点和收益临界点对应的位置。在这个奇点,数字成为社会万物存在的主要形态,物质本质越发表现为数字化,政府将把数据的运营交给专业的数字化公司,企业通过数据不见面、模型算法见面的方式,将政务数据与企业数据进行对接融合,开发新产品和服务,满足政府和社会的需求。二是万物智联的奇点,即比例临界点和存在临界点对应的位置。这个阶段数据融合的模式,将克服只有模型算法见面的制约,不同应用场景并不需要单独开发不同的模型算法,各数据使用方均可通过具有共性的数据特征进行政务数据和社会数据的融合利用,数据完成了标签化存在,同时,万物数化也随之晋级为万物智联(参见图3)。

政务数据与社会数据平台化对接的演进历程及政策启示

图3 数据对接的代际演进模型

五、启示及展望

我国政务数据与社会数据融合利用表现出的4种模式,特点鲜明,均有适用的场景,短期内,单一模式难以完全满足政府和社会的实际需求,4种模式将并存共用。面向未来,随着数据规模井喷式扩张、数据应用场景爆发式增长且安全问题越发突出,各类数据的权属关系、存在形态、主体协同以及新兴技术应用,都将发生显著变化。(一)不求所有但为所用成为新趋势当前,大数据的发展仍然面临着许多问题,安全与隐私问题是人们公认的关键问题。因此,如何保护个人隐私、商业机密及国家数据安全,将成为政务数据与企业数据融合利用的重要议题。由于直接使用原始数据会存在巨大的安全风险,对脱敏后的数据进行分析利用将成为主流,即数据的使用权可以转移,而原始数据的所有权还属于数据拥有的主体,企业可以利用政府数据,但不能拿到政府掌握的原始数据,即政务数据可为企业所用但不可为企业所有。(二)政社数据融合涌现新形态随着社会数据量的增加,政府数据的数量甚至价值占比将降低,政企数据融合,将从企业数据向政务数据归拢转向政务数据向企业数据汇聚,企业将成为数据加工处理的主力军,数据融合利用模式将以3.0和4.0模式为主。数据融合时的形态,也将会从简单的脱敏状态变为更具利用价值的知识图谱,即标签化、特征化、场景化知识图谱形式存在,政务数据及社会数据将经过标签化处理之后对接融合,然后再进行统一的增值开发利用。(三)政企合作多元共治新变革随着数据融合模式的转变,1.0、2.0模式时政府主导的地位将会改变,法律法规及行政手段的主要适用范围将进一步固化到特定领域。随着3.0及4.0融合模式的到来,政府应当更多地注重共性标准制定及政企合作机制的建立,确保政府数据治理的安全性。企业在大数据时代将因为拥有更多更好的数据,特别是拥有明确的目标及出色领导机制,更容易获得成功。政府将对企业处理数据进行引导和规范,随着业务关联性的增强和规范力度的加强,企业将会体现一定的政府意志,一种同时兼顾政府治理功能和企业市场化属性的新型组织将会产生,政务数据与社会数据的融合利用工作由新型组织承担。至此,大数据驱动下的政府治理结构,将由政府一元主导模式转变为政府与多种社会力量合作的多元共治模式,形成多中心、开放型的网络治理结构。(四)新技术驱动人机交互发展新方向海量数据的采集、存储、清洗、加工、共享、交易、利用等全链条,都需要新一代信息技术的支撑,政务数据与社会数据融合利用对技术的依赖性将增强。信息技术体系将完成蜕变升华式的重构,将使蕴含在大数据中的巨大价值得以充分释放,物联网、5G、移动互联网技术将在数据采集、存储中广泛应用,大数据、人工智能将为海量数据的快速分析处理提供强有力的工具,区块链技术也可以在数据安全方面发挥重要作用,新一代信息技术将为政务数据与社会数据融合利用提供必不可少的支撑,人机交互、以人为本、服务于民将是未来下一代新技术发展的新方向。

作者:国家信息中心大数据发展部郭明军、王建冬;中国人民大学安小米;国家信息中心大数据发展部李慧颖;北京大学张何灿 ( 本文刊载于《电子政务》2020年第3期)

责任编辑:qinpeng