工业和信息化部原副部长杨学山
 
  信息资源和信息资源开发利用的本质、规律决定了数据开放是它的必由之路、内在要求。首先第一个方面,认识层面:两个最重要的变化第一个是信息技术和通信技术结合起来形成核心增长力,第二个是材料、能源加信息变成推动社会经济发展的基本资源,这是走向信息社会最本质的特征,其中信息资源是关键。
 
  一讲到信息资源,提出材料、能源和信息是发展社会的基本概念和框架。40多年过去了,我们还基本上没有建立起对信息资源应有的认识,对信息资源的认识之薄弱令人吃惊。建议大家看一下著名经济学家阿尔费雷德·D·钱德勒主编的《信息改变了美国》这本书中的一些数据,今天我们中国大部分企业对信息资源还没达到100年前美国企业对信息资源的认知程度等。信息资源这个词,大家都知道,但是认识信息资源需要很长的时间。所以说在讲这件事情时,要认识信息资源我只想讲两个,一个是信息资源究竟怎么看?第二个是信息资源究竟有哪些?和材料、能源有什么不一样的特征。
 
  先是第一个问题,我们在讲材料、能源和信息资源成为经济社会发展基本资源,在座的各位肯定会有疑问,行吗?能和材料、能源相提并论吗?我相信有这个疑问的人占了大多数。所以谈这个问题认识时是把信息和材料、能源放在并列的位置。放在并列的位置的原因第一个是它的量是否和材料、能源一样等量齐观;另外是它的质或它的作用是否和材料能源等量齐观。这两个问题如果在5年以前提出来,无人接受,没有人会相信,这两年由于大数据的概念以及大数据的作用,我们开始有信心相信,但是问题可能很多人还没解决。其实我们在想为什么今天开始已经有人认识到,原因是我们看到信息资源的量和质这两方面都产生了重大变化,量的变化大家感觉比较明显,在20年前我们都为千亿级的存储和亿次级的计算能力来奋斗,但到了今天,我们很多人家里面就有了千亿级的存储,桌面终端和用户终端不单是亿次级,再有几年时间,从技术的角度看,千亿级的个人终端是在技术上一点困难也没有,应该是在3年左右。这种进步使得我们很快从G级到T级、P级、Z级,每一个概念代表3个数量级的提出,其实信息的量是完全和物质的量可以等量齐观,一个原子很小,但是描述一个原子的信息要多,一个是事件我们看很清晰,但是描述这个事件需要多少信息,所以信息的量和物质世界的量是完全等量奇观的。
 
  今天我们打开手机看到地图,从哪到哪,交通情况怎样,甚至地图可以看到各种道路的选择,从这个道路走比走大门省几百米,这些原来不能想象,而现在我们可以通过搜索关键词来看经济的景气状况,可以看景点是否堵车,可以看到百度之所以有那么的威武,是因为拥有了信息资源、网页的资源;阿里之所以发展那么快是因为拥有庞大的信息数据平台和拥有那么多的交易数据,所以支付宝和互联网金融可以如此快的发展;可以看到波音它可以成为世界上规模最大的飞机制造公司,是因为它拥有了科技制造的嵌入信息和一个平台。所以我们说真正认识信息资源就一定要把信息资源和材料、能源是等价齐驱的,同等作用的,而这点认识我们差距甚远。
 
  第二个问题是信息资源和材料、能源有什么不同,有两点是最基本的,不管我们是作为用户还是作为开发数据的人来说,有两点是很重要的,第一点是信息是多元的,这么多年认识下来,物理空间是三维世界,时间原来可以改变我们对空间的认识,所以变成四维空间。经过半个世纪的研究发现,尤其是对量子研究,原来物理空间、物理世界不是一个而是多个的,所以今天我们在解释物理世界的时候,阿尔弗雷德强调一个和基本上大家都能接受的观点。但是大家不要忘记,当我们讲阿尔弗雷德在做研究的时候,实际上一个积极的宇宙他还是四维空间,只是这个四维空间和我们今天观察到的四维空间它有不同的时空,如此而已,但是信息不是。信息的多维远远超于四维空间,或者如阿尔弗雷德讲的概念,认为信息的多维是一个大数,我不敢说无限,但它是一个大数,是一个大数的维度。对此有一种看法,有一种说0、1这两个值为什么可以表述如此复杂的信息,不管信息多大,0、1都能表述出来。所以不同的0、1组成了不同的概念。我们在谈有效基因信息的时候,基因的本体只有四个碱基,就不同的,它实际上就和0、1一样,它只有四个碱基对组成了我们复杂的基因。我们在看神经系统、认知信息,其实神经元,这个特殊的神经细胞,也只有几种特殊的神经细胞、神经元,再加上电信号和化学信号的传递,构成了我们人体,却让每个人感觉到我们的世界是如此的复杂。
 
  再回到更简单的,信息这个词,信息这个词是绝对丰富多元的,它可以连接到一个大数的链接上,就是很丰富很大的一个链接上去。就像刚才我在讲遗传,在讲认知的时候已经看到,在量子纠缠的时候信息的传递是很快的,今天物理学界没法解释,它解释说量子信息的传递是在另一个空间,量子的真正空间,量子信息的另一个秘密步骤,在两个地方走,这是我们物理学界今天的理解,但是这个解释已经太广泛了,我们每个人听到信息这个词会联系到什么去,每一个人会联系到不同的领域去,所以信息的多维则是绝对和物质世界的四维空间是完全不一样的,这是它的第一个特征。第二个特征是,信息的使用不会消耗信息。物质的东西,使用过程中一定是有消耗的,或者说我们在使用物理的东西的时候,我们在占有并且消耗它。但是我们在使用信息的时候,我们没有占用信息,也没有消耗信息,我们大家想一想是不是这样。如果不是这样的话,秦始皇的焚书坑儒,中国就不能前进,但是发现秦始皇的焚书坑儒无论是技术、人文还是社会,是因为信息不是一个具体的载体媒物,不是用一个具体的使用把它耗掉,这是和物质不同的地方,也正因为这个原因,才说数据要开放,任何人拥有数据后你只能使用它的可用性的若干个部分,你永远不可能把信息的可用性所有都用完。第二信息是不会消耗的,为什么不开放,所以数据开放是信息资源开发利用里面的应由之路、内在要求。
 
  第二部分是讲信息资源开发利用的关键问题。
 
  就像我刚才说的,信息资源和材料、能源并列的时候,信息资源开发的一般性问题,对比物质、材料开发的一般性过程。以矿产为例,是最典型的物质材料,矿产首先需要挖掘,地址勘探队具有十分重要的作用,今天我们找到了一个大的油气厂,中国举国上下都高兴。那么对于信息来说,首先要知道信息在哪,有的说信息在哪,我们眼睛始终盯着已经存在的政府部门有多少,相应的信息企业机构有多少。这个对吗,对。这个不对吗,不对。这个问题你回答对,有道理,因为确实我刚才说的那些地方有信息,有和你相关信息资源。但是我说不对,因为原则上对我们求解一个复杂的问题,尤其是大数据或用信息资源解决问题的时候。我们讲一个简单封闭的系统,实际上你要的信息资源不是都已经存在的、已经记录下来的、已经收集整理。而是说,实际上你需要的信息资源,大部分还没有存在,更没有整理加工。其实我在将信息资源的认识上已经讲过,它实际上和物理世界是等量齐观的。所以我们要解决一个问题,不管我们说舟山是要发展海洋信息化还是船舶工业,发展要解决这些问题无论是在具体问题上还是在一般问题上,我们都会发现原来很多应该有的信息都还没有。我们需要像勘探一样去知道信息在哪里,变成可用的东西。变成可用的东西就是第二我们要采矿。至于采矿,对于信息化来说,一方面,有的地方,能够收集到的地方要把它收集过来。没有的,我们自己透过应有的方式去把它采集起来。但是,用勘探的方式,还是用调查的方式,还是用什么其他方式,把相应的东西收集过来这是采矿。采完了矿,原始的矿大家都知道,只有很少的东西,绝大部分是不能用的,必须经过冶炼。铁矿石经过冶炼变成了不同种类的钢筋,石油经过冶炼变成了纯净油和不同的化工产品,实际上信息也是这样。如何把它加工变成我们能用的东西。在这里面一定要记住特定的问题,因为信息它的多维性,是大数的多维性,是不可能把信息的可用性,按照可用性整理完,只能围绕你的特定目的去进行加工整理,变成你的产品,变成甲醇、乙醇这样的东西。这样的东西,从工业角度、工业经济来看,它还不是消费品,但最终要让它变成消费品。消费品以信息来说就是要可以继续用下去,所以我们在座都是有特定目的,围绕特定目的把这样的东西和刚才说过的已经加工过的、对应颗粒度结构化的和应用的系统连接起来,就变成在你的工作系统里面,来解决你的判断分析是否准确。
 
  其实我们不管从制造业的自动化生产(EMS)到商业的电子商务到商业智能化到政务数据处理和决策判断分析,基本上都是这样的路径和方式走过来。
 
  最后讲第三方面,信息资源开发利用的基本问题。刚才是一般性过程,没有讲具体问题,信息资源开发可以分成3大类。第一类是资源,把信息资源收集起来,然后用资源提供产品和服务,获取它的收益和利润。第二类是为资源公司和使用用户提供不同工具,我们把它叫做工具公司。第三类是为各个机构、个人作为用户如何来使用资源。
 
  第一类:今天有相当多的创新创业的公司,大体上属于第一类。目前我们可以基本免费获取大量信息资源的主渠道是互联网。这一类公司不管原来为了某种功能还是原来就是信息资源,都在逐步走向资源类的公司,一定把资源类的公司把它作为发展目标,所以看到很多BAT,很多互联网+的公司,不是+互联网的公司。互联网+和+互联网是不一样的。
 
  资源类的公司主要做两类事情。第一件事是足够的内容,为用户提供服务。第二个是要有足够的处理能力,足够的处理能力包括两个方面,第一个是存储数据,也就是说要把数据沉淀下来;第二个要进行加工,根据用户对象给予结构化,拓尔思原来讲非结构化数据,这个提法其实是我不赞成的,非结构化数据在用的时候其实你提供的是结构化的数据,结构化到什么程度由用户来抉择。这个能力我们今天看到已经发生一系列的改变,除了量的提升之外,我们的处理能力和结构化水平都在提高。
 
  第二类:量和类型是大数据的主要形式特征,这两个东西叠加在一起就决定了原来的处理工具、方法需要改变。这个变化其实我们已经看到了,如Hadoop、hbase一系列的工具和应用在出来,都在应对这样的量、类型和应用需求做出改变。但是,今天如果我们对信息资源和材料资源作对比的话,差距是类似于蒸汽机刚刚发明的时候。我们对信息资源加工层面的工具水平类似于工业革命蒸汽机的水平,化学革命、电机还没开始,更不用说到今天的纳米技术。为什么这么说?因为对物质和材料的利用实质上是对物质结构的规律和原理是否把握,有没有一种工具对其有效利用,所以当我们化学工业开始变化的时候,我们已经把元素周期表摸清,利用元素周期表来看,什么样的化学结构会产生什么样的变化,什么样的化学结构能给我们提供什么样的材料,而这点,不管我们是oracle还是刚才提到的一系列工具,根本没有做到这一点,连蒸汽机都是有点怀疑,只能说刚刚到蒸汽机水平。当我们再往后讲纳米技术的时候,即使已经超越分子结构,在做原子排列,原子排列是物质自然状态下的重构,我们对信息本身来进行对原子级的重构,实际上信息的结构和物质的结构是一样的,也是由不同的颗粒度展开,我们今天对信息的颗粒度还没有做到分子级、原子级,更没有到原子级以下,我们的粒子加速器可以做的,所以说我们的工具今天已经取得一定的进展,但由于理论跟不上,实际上还处于相对工业革命的蒸汽机时代,所以在这一方面我们大有可为,真正的革命性技术创新在这个领域,不再是集成电路、不再是传感器,虽然它们十分重要,但是真正走向信息社会的革命性技术创新将在信息资源,我们看看现在的核能和纳米技术带来的变化,就知道信息还有多少的空间。
 
  第三类:我们用户,要用信息改善各方面的绩效,不管是降低成本、提升效能、提高劳动生产力还是提高决策管理水平,也就是说我们要使我们现在做的各种工作,包括信息资源,这样一种新的资源能够绩效更好,成效更好。这样的时候怎么做,不要做第一类、也不要第二类公司的事情,而是要为特定的使用的目的来建符合使用的信息资源的河和小水库,河是能和信息资源连接的轨道,是信息资源可以过来的管道。小水库是专门为我的目的服务,所以第三类公司,核心问题你要什么先弄清楚,然后围绕你要什么来做小水库和河,水流、水库,然后工具是战略,为了你这个目的用的战略。
 
  (本文根据工信部原副部长杨学山先生在6月4日由信息社会50人论坛与国脉信息化发展研究中心在舟山举办的"2015中国互联网+信息社会高端论坛"上的主旨演讲整理,内容未经本人审核)

责任编辑:管理员