邬贺铨：大数据技术发展趋势_观点

　　4月27日至28日，由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。会上中国工程院院士邬贺铨跟与会人员分享了大数据技术发展的趋势。

中国工程院院士邬贺铨

　　以下是钨贺铨演讲实录：

　　钨贺铨：很高兴来到大数据产业峰会，我想就大数据技术与产业及影响谈一下我的看法。我们先看一下数据挖掘的过程，从数据资源、数据采集、数据存储、数据传送到数据分享、数据挖掘、数据呈现、数据应用，产业、安全、法规人才。这并不是所有的数据都要拿来挖掘的，首先要进行取样分析，首先在选择数据的时候要进行提取，标签化。对一些非结构化的数据还要进行变换处理，然后分类收集，最后抽取出原数据，然后把原数据再融合，这个过程还是要反馈的。我们首先看数据融合，传感器的数据是物理空间的数据，网络空间的细分空间，还有政府企业收集的相关数据。

　　2013年，全世界来自消费企业的数据占三分之一，当然数据里头很多国家安全、个人隐私的这些数据不能开放的。大数据里头有一部分的数据是开放的，当然数据本身有结构化的、非结构化的、半结构化的。我们再来看大数据分析的流程，实际上所谓大数据很多时候既很难说它什么时候开始，也很难说它什么时候会结束。在整个数据获取的过程中是不断的流进来的，我们要通过分析模型来引导和收集。过去我们的收据是代数据进行，现在数据是活的，我们只能带程序进数据。我以阿里云的大数据平台为例，它底层有计算引擎，上面有数据的开发和加速，有数据管理、数据资料保障，数据监控。当然用到机器学习，在上层是应用开发，这里面可能根据你需要的选择规则，准备分析，还有评价或者是推荐优选，可视化、具体人群，识别文字、识别语音。最后是面向解决方案的，究竟是面向智能支付，还是企业的精准营销，还有交通路况预测，以及我们监控的安全预警等。

　　我们再看，大数据需要实时抽取，这里面左边的照片在罗马，这是拍到的古罗马的移植。如果我希望凝了解当时古罗马的样子，可以把分散的照片以及留下来的一些照片聚合起来，可以形成一个古罗马的最后的全貌。这是用到信息融合技术。它把分散的数据集合成一个全集的数据。以下的两张图是一样的，右边的屏蔽掉我所不关注的部分，然后抽取我所关注的部分。在繁杂的大数据中，我需要信息抽取来抽取我所感兴趣的数据。

　　大数据还要做到可视化，这是交通数据的可视化，也是以色列的克拉维夫，它有很多摄像头，传统的摄像头是分散的，孤立的，现在通过大数据的可视化的技术把它组合成一张图，不同的十年，路上的状况不一样，用不同的颜色标注交通管制，等等。

　　我们再看北京PM2.5，去年PM2.5超标，有些人怀疑自己肺有毛病，到医院做了几个CT，医生看分散的CP照片是很难的，希望通过虚拟化把它还原成一个肺，再看看有没有纤维化。甚至可以用AR和ER的技术深入的研究，身上有没有病灶和毛病，等等。还有交通的路矿预测，以及我们监控的安全预警等等，当然了，面向媒体、能源、交通，所以大数据里头主要的有计算引擎、数据开发和运用开发加速。

　　我们再看看数据挖掘的算法，首先要通过合并压缩转换，然后是统计分析、支持发现可视化，最后是规则、分论、绪论、序列、路径，涉及到一大堆的算法，我们可以看到这里面有数据获取，然后转化与存储，然后数据虚拟化和摘要，最后是决策分析。需要用到一些软件。大数据首先是计算问题，是不是所有数据都可以计算呢？不一定，有些数据是可以判定的，它是容易解释的，可以有多项算法来解释，但是有些数据是比较难解的，这里头有一类是不可近似的，有一类是可近似的，我们可以看到我们首先要探索数据复杂性的规律和关系的生成机理，建立数据复杂性的理论和模型，这里面包括数据的结构和学习，最后还要把数据简化。所以，美国加州大学图像可视化中心已经组成了语音非结构化数据。现在我们高校在大数据研究上还可以，但是做一些数据分析的单位没有数据，而拥有数据的单位有些不会分析。

　　大数据分布存储和冗余备份用得比较多的还是这个，它把数据通过冗余配置来提高可靠性，这样的话，简易服务器仍然可以在一个低的价钱下，低的成本下得到比较可靠的服务。我们通过调度再分组组合，这是我们需要的结果。这是一个图比较形象的说明左边是数据的来源，当然每个来源可能都有各种各样的数据，需要进行认识，进行分类提取，我们可以看到把它分到不同的地方，这样一来，我们的数据挖掘才可能简化我们挖掘的工作。

　　我再举个例子，这是在无锡，对太湖的污染状况传感器数据分析，它使用了很多种传感器，有硝酸盐、有氨氮的、溶解氧的、水温的，但是并不是所有的传感器获得的数据都是等同对待的。我们可以看到各类数据都一样。但是太湖的蓝藻爆发强度有关的，首先是溶解氧，然后是水温，基于氨氮、硝酸盐的关联没那么大，所有的数据是需要加权处理的，根据它的影响角度不同，我们给它的值也不一样，只有这样才可以反映出我们最终的分析结果。

　　另外，还是以太湖为例，我们不但有地基系统的水质探测的传感器，有卫星探测传感器，还有人工采集传感器，多种数据要放到数据采集以后，要进行利用已知的湖泊模型，还要把历史数据拿出来对比，然后才能判断这些数据是不是可能产生蓝藻。这个判断后台需要用到3S技术，云计算技术，数据中心与数据挖掘，所以我们讲究的是要一元数据协同处理。大数据最难的是非结构化数据，图象、照片、视频是非结构化的，目前计算识别图象视频还是有一定难度的，谷歌前几年的做法是计算机识别猫，有15%—20%的识别率，一般的非结构化数据需要把它转化成结构化数据，然后再来进行处理。我觉得非结构化数据本身要进行收集、规律、组织，然后再解释，编辑，再通过上下文的关联增进理解。

　　不过目前对非结构化数据处理已经有了一定的进展，这是一个照片，照片本身来计算机是看不出来是什么的，谷歌的工程师已经在照片旁边附加了一段文字，他通过一定的算法来分析。他说一群人在室外的市场上购物，在水果摊上有很多蔬菜，将来计算机扫描的时候只要扫描这个摘要就行了，不需要关注照片是什么样子。也就是说把非结构化的照片变成结构化的文字，那么我们再看如果你出差到俄罗斯，或者到俄罗斯旅游，现在会俄文的人不多了，不要紧，你拿手机拍下来，直接上到云端搜索，它会用英文或者中文显示，谷歌声称现在有26种语言可以显示，也就是说照片里面的文字通过用扫描文件还是扫描不出来的。实际上所有的非结构化数据都可以转成结构化数据来处理，比如说通常视频都会有音频和字幕，用语音识别的办法把音频抽出来可以转成文字，在这方面科大迅飞已经做得相当不错了。另外，很多视频里头还会嵌入文字的字幕。对一些照片、标语里的文字也可以扫描，非结构化数据也是可以转化为结构化数据处理的。

　　我们再来看这是大数据进行的，右边的屏幕上打出声音翻译成了中文。这里面没有同声传译，它是基于微软掌握的大数据技术、神经网络技术、机器学习技术以及上百万素材，一边讲话一边翻译成中文，这是大数据应用，同时反过来大数据需要应用的人工智能技术非结构化数据的处理。

　　这是医疗大数据虚拟化的应用。大数据究竟会用到什么样的技术，IDC公司在去年说，2015年富媒体、音视频和图象的分析在未来5年会增长100%，在北美有板数公司报告在大数据分析项目里已经使用了富媒体数据。也就是说虽然是非结构化的，但是在大数据里头分析还是很有用处的。

　　另外，数据即服务，过去有IaaS、PaaS，现在有DaaS，就是将大数据作为服务，现在DaaS已经成为云平台和大数据分析提供商的战略供应链。

　　还有物联网是下一个数据分析应用的热点，在今后五年，物联网的数据分析市场会年增30%，另外2015年是认知和机器学习应用迅速增长的一年。

　　大数据分析在企业的应用，目前来看，大部分企业是把大数据分析用于客户分析，然后是运营分析，然后是诚信分析，还有10%是新产品和业务创新，另外10%是企业数据仓库优化。大数据支出最大的产业，一是离散制造，二是银行，三是流程制造。

　　大数据在供应链里头也有很好的使用，包括供应链的规划、分析和挖掘，电子数据交换，贸易管理、仓库与分销中心管理。大数据在供应链的应用场景在供应链的可视化数据56%，位置和映射数据47%，产品和可追溯数据42%，温度与产品流数据24%，RFID数据18%。

　　数据挖掘服务，我这里举的是中国联通的例子，中国联通把他的BSS和OSS数据都收集起来，OSS数据包括上网流量、IP地址，BSS包括用户详单、资费等等，通过数据源处理、采集、加载、格式转换、模型转换、数据脱敏然后再进行，这边是数据的产生提取，这边是根据需求，客户有些什么数据挖掘的需求，然后他审核这个需求，然后从数据集里头准备，再通过一定的模型，发掘出来申请发布，再通过集团的审核，服务包装再来输出。

　　中国联通已经为大众汽车提供数据，它的原始数据中国联通是不提供的，大众汽车请中国联通提供究竟购买汽车的用户对汽车有什么需求，中国联通准备了100页的PPT交给大众汽车，大众汽车付了100万，也就是说每页PPT值一万块钱。

　　上下游支撑大数据的技术和产业有什么呢？宽带网、存储器、云计算、数据库、人工智能、分析软件，大数据支撑的产业就多了，包括建筑业、能源矿业、交通运输业等等。不能把存储、云计算全都算到大数据行业，只能说为大数据分析的产业，云计算和网络算到大数据产业。而广义的大数据产业一百于大数据信息产业，大数据本身服务业的属性大于大数据软硬件的制造业，而大数据对其他产业的影响是大于对信息产业的影响，大数据的社会效应大于直接经济效益。所以，大数据影响之大和受到广泛重视也是认为它的溢出效益明显。

　　我们可以看到麦肯锡说大数据的价值，大家都知道，一年能给美国保健带来3000亿美元的潜在价值，能给欧洲公共管理带来2500亿欧元，能给服务业带来6000亿美元的盈余，能给制造业降低50%的成本，政府的数据开放会给全世界经济带来32200亿到54000亿美元的红利，教育将近一万亿，运输7000—900亿等等。

　　这是WikiBon统计的，主要分为硬件软件的服务，软件占22%，硬件38%，服务占40%，这是当时的统计，2013—2017年。今年又发布了2011年到2026年。2014年，全世界大数据市场是273.6亿美元，到2020年是840亿美元，都是在增长，连增17%。

　　IDC的统计，以上这个表是从2010年—2016年，他统计大概是什么呢？大概是238亿美元，这里面的数字是百万美元，翻成亿，就是238亿美元，这是2016年。2017年324亿美元，2019年是486亿美元，我们这里面看上去统计跟WikiBon的有点区别。

　　Statista的统计又不一样，2016年是273亿美元，2020年是573亿美元，2026年922亿美元，也就是说差不多十年以后，接近一千亿美元的规模，当然这个数字还不算很大，估计到2026年华为也可能到这个水平了，所以，我们大数据这个值不是很大，大家如果把所有的服务器都算进去就比较大了。

　　另外一个咨询公司Frost Sullivan给出的数据增量到2025年是到100，全数据大市场产生的收入，2025年是122亿美元，各个公司的估计是有所不一样的。这是大数据产业链，在这里面密密麻麻的看不清楚，分析做分析的有这么多企业，做应用的也有这么多，做交叉关联的和分析的有这么多。

　　有个公司说这里面有一个中国公司，仅仅一个，我后来找半天找不出来，为什么呢？因为除了比较知名的以外，其他的不太熟悉，所以找不到。按照我们有公司说的，这里面有一个是中国公司，但是应该说绝大多数都不是中国公司，这是知名的大数据技术企业，IBM、英特尔、甲骨文、SAP、惠普、红帽、SAS、微软、谷歌、EMC，亚马逊，我加了两个，阿里云、百度云，也就是说我们中国的企业在这里面还是少数。

　　中国各个地方纷纷布局大数据产业，目前已经有23个省出台了74项跟大数据相关的政策。目前，全国已建和在建的大数据产业超过10个，有个证券公司分析，他说2016年中国通信大数据市场要达到342亿。刚才会前放的视频说2015年我们是150几亿，如果这个数字对的话，这两个数字一比就增加100%。他这里说较上年增长163%。其中大数据基础设施占60.5%，市场规模207亿。

　　国家在去年出台了促进大数据发展的行动纲要，要培育高端智能新兴产业的发展新生态，要推动大数据、互联网跟移动互联网的融合，培育新的增长点，形成满足大数据应用需求的产品系统和解决方案，要求到“十三五”结束，大数据产品和服务要达到国际先进水平，看来我们现在还有一定的差距。要培育一批企业，要形成产业生态。

　　这是今年3月份全国人大通过的“十三五”计划，专门有一章是促进大数据产业健康发展，提到了深化大数据在各行业的创新应用，探索和传统行业协同发展的新业态、新模式，加快完善大数据的产业链。还有加快海量数据的采集、存储、清晰、可视化、安全、隐私保护等领域的关键技术攻关，促进大数据软硬件产业的发展，加强标准体系和质量技术基础建设，刚才张总都提到了。

　　最后，我用习总书记的几段话来结束我的发言。习总书记在2013年考察中科院时提到，研究表明，工业化时期数据量大约每十年翻一番，现在数据量每两年翻一番，浩瀚的数据海洋就如同工业社会的石油资源，蕴含着巨大的生产力和商机，谁掌握了大数据技术，谁就掌握了发展的资源和主动权。2015年6月，在贵州调研时，习总书记提到，我国大数据采集应用刚刚起步，要加强研究，加大投入，力争走在世界前列。上周，习总书记在网信座谈会上讲话提到综合运用各方面掌握的数据资源，加强大数据的挖掘分析。谢谢大家！

责任编辑：admin