首页
疾病病因
诊断方法
疾病症状
治疗措施
预防办法
用药指南
保健方案

独家院士大数据论坛倪光南迎接

▌新朋友:点击标题下面蓝色字?“软件定义世界(SDX)”▌老朋友:点击屏幕右上角●●●,分享该文章至朋友圈。

专题共为大家准备了4篇文章,第一篇是李国杰院士的《谈大数据时代的国家治理》,主要从政府数据开放共享角度讨论大数据;第二篇是邬贺铨院士的《大数据时代的发展趋势》,主要通过一些鲜活的案例、详实的数据分析大数据的发展趋势;第三篇是倪光南院士的《迎接大数据时代的来临》,主要从大数据特征、发展历程、经典案例、研究范式、生态系统、行业应用实践等深入浅出的分析大数据的历史、现状和趋势及存在的主要问题。第四篇是李德毅院士有关大数据论述的文章,敬请期待!

编者注:本文原载于年《信息化蓝皮书》,题名《迎接大数据时代的来临》,共分四节,其中,第一节叙述大数据的发展、特征和处理流程,第二节论述大数据和云计算的关系,第三节论述大数据和标准的关系,第四节叙述大数据的应用及相关问题。第一节和第四节由倪光南院士编写,第二节由姚宏宇撰写,第三节由何克清撰写。本文节选第一节和第四节,分两期刊登。本期刊登的是下篇--《第二节大数据的应用》,上篇请看昨天刊登的《第一节从商业智能到大数据》。

『独家』倪光南:迎接大数据时代的来临〖NO3下篇〗

文:倪光南

倪光南,年出生,现为中国科学院计算所研究员,中国中文信息学会理事长,中国工程院院士。曾任北京市人民政府参事。系第八届全国人大代表,第八届、第九届全国政协委员,第五届全国青联特邀委员。联想集团首任总工程师。作为我国最早从事汉字信息处理和模式识别研究的学者之一,提出并实现在汉字输入中应用联想功能。

第二节大数据的应用

一、典型的大数据应用

(一)数据可视化

数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,并且早在大数据出现之前就已经被广泛地应用了;但在大数据领域,可视化技术具有了更大的作用。

在传统应用中,可视化主要是能更清晰有效地表示大量多维度的数据,能更好地反映变化趋势等等,在大数据应用中,除了有这些作用外,由于大数据中隐藏的模式和趋势可能很隐蔽,不容易被人所洞察,而通过合适的可视化技术展示出来后,可能会有助于揭示其中隐藏的模式和趋势。

图4-1美国全国枪击死亡情况

来源:《可视化数据告诉你美国枪击案到底多严重》[28]

图4-1为年美国全国枪击死亡数据的可视化表示。图中的横轴为年龄,每一条弧线代表一个被枪击致死的人。弧线的起点为0岁,终点为他可能活到的年纪。每条线段有橘色和灰色两部分。中间的分界点正是他被枪击身亡的年纪。年全美一共有人死于枪击,这近万条弧线层层叠叠,橘色与灰色交割的图景,使人对这一情况获得了比简单数字或简单报表远为深刻和全面的了解,显示出可视化的威力。

图4-2全球运营商提供的国际干线带宽

来源:《Bandwidthexplosion:AsInternetusesoars,canbottlenecksbeaverted?》[29]

同样,对于像“全球运营商提供的国际干线带宽”这种非常复杂的数据,可视化技术能使人获得比枯燥的数字表达更好的了解。

(二)关联性分析

通常情况下,如果观察到X和Y在给定条件下是始终关联的,这在已知X的情况下预测Y是有用的,反之亦然。换言之,即使没有阐明因果关系,X和Y也可以彼此作为预测指示器。Google的总经济师HaiVarian认为,“即使你全部拥有的只是短时的关联性,你在报道的价值上已领先6周了。我们的希望是,如果你能实时地感知经济脉搏,你将能更快地对异常情况做出响应”。

很多时候,从新的数字数据源提供的数据中发现的关联性会正确地反映传统的官方统计,从而能提供更便宜、更快的、近似的预测。例如,MIT研究者通过收集和分析在网上销售或作广告的商品的价格,能以很高的准确性估计通货膨胀率。这一方法的主要价值在于,在线价格可以每天获得,而消费价格指数在大多数国家只是按月发布的。这样,这一方法就可以比传统方法更早地检测通货膨胀的出现。

一个著名实例是谷歌在年发表的基于类似流感症状查询的“谷歌流感趋势研究”。研究报告发现,“特定查询的频率在很大程度上与病人向医生陈述类似流感症状的就诊情况关联”,据此可以“精确地估计美国每个地区当前的传染水平,报告的滞后期只有一天”。结论是,在一个具有大量搜索用户的地区,有可能利用搜索查询状况来检测传染病的流行情况。当应用于公共保健时,在线数据被用作症状监测的部分手段,也称为信息传染病学。美国疾病控制和预防中心(CDC)认为,挖掘与健康有关的海量数据有助于在医疗或实验室确诊之前,预测疾病的爆发。“谷歌登革热趋势”以同一方式工作,显示出类似的效果。图4-3上蓝色线为该系统的估计数据,橙色线为巴西官方的数据,两者高度吻合。由于该系统的估计数据几乎可实时发布,而官方的数据往往要滞后许多天,这使该系统对预测疾病或掌握传染情况很有价值。

图4-3“Google登革热趋势”网站屏幕截图

来源:







































白癜风研究院
北京治疗白癜风哪里医院最好


转载请注明:http://www.tpmwc.com/zdff/10962.html