本篇文章3461字,读完约9分钟

大数据的价值就像沙子里的淘金热

Nba在20世纪80年代开始将球员在球场上的表现数字化。经过30多年的积累,它已经能够识别出每个球员在场上的弱点,便于教练做出有针对性的战术安排。目前,30支nba球队和俱乐部中有一半雇佣了数据分析师,他们的平均成功率达到了59.3%,而没有数据分析的球队的平均成功率只有40.7%。这就是大数据的价值。

大数据的价值来自哪里?吴认为,大数据未必与大价值成正比。例如,每分钟记录一个人的身体数据有助于了解这个人的身体状况,但是如果每毫秒记录一次他的身体数据,数据量将是前者的60,000倍,并且其值不能与每分钟记录的数据相比而增加。大数据的价值在于样本量的普遍性。将一个人每分钟身体状况的统计数据与每小时60个人身体状况的统计数据进行比较,后者在统计上可能更有意义。大数据的价值密度通常很低。大数据中的大部分数据可能是重复的,忽略其中一些不会影响挖掘效果。因此,可以说大数据的价值就像大海捞针一样。

邬贺铨:我们需要国家大数据战略

微软的研究发现,Facebook Hadoop任务数据集的90%都在100gb以下,雅虎的平均数据是12.5gb。北京公交乘客每天刷卡4000万次,地铁1000万次。每天累积的数据为mb级,一年后小于tb级。充其量,它只是中等数据。然而,对这一数据量的挖掘显然可以得到北京人使用公共交通的出行规律,这对于优化北京公交线路的设置具有足够的价值。因此,吴指出,其实小数据也是值得重视的,而且对于挖掘达不到tb规模的数据也是有价值的。

邬贺铨:我们需要国家大数据战略

并非网络上的所有数据都是可信的

谷歌的流感指数是在2008年h7n1流感爆发前两周发布的,其与数据的相似度为0.9。2013年1月,纽约州流感疫情非常严重。政府发布了“突发公共卫生事件”通知,大众媒体的广泛报道影响了谷歌用户的搜索,导致谷歌流感指数估值出现假阳性,远远高于疾控中心的统计数据。在谷歌流感指数开始时,

纽约罗彻斯特大学尝试使用推特数据,可以提前8天预测流感对人体的入侵,准确率高达90%。然而,twitter用户大多是年轻人,而季节性流感袭击的对象大多是抵抗力较弱的老人和儿童,因此基于twitter微博判断流感是片面的。

吴指出,网络上的数据并不都是可靠的。网络数据的真实性好坏参半。尤其是虚假新闻在微博上传播迅速,而微信圈的新闻难以监控,这对信息内容的管理提出了挑战。过去,人们常常认为“有一幅画是真实的”。事实上,照片可以被其他人替换,在时间空丢失,或者照片是正确的,但文字解释是捏造的,这已经成为一个普遍现象。鉴于“谣言转发500次”的事实,一些网站规定,所有帖子转发不超过499次将被自动设置上限,无论它们是真是假。从民意收集效果来看,人为截断会导致真实性的丧失。

邬贺铨:我们需要国家大数据战略

他还指出,并非传感器收集的所有数据都是可靠的,特别是当该传感器的数据与历史上其他同类传感器报告的数据有很大差异时,应丢弃这些数据。由于数据将被复制,并且不是所有的数据都有用,因此有必要过滤数据,这对简化存储和提高可信度是有意义的。异构多源数据也可以用来提高可信度,收集多源异构数据有利于对数据的理解。例如,城市交通监控系统可以实时掌握交通流量,如果加上政府数据和网络数据,就可以知道交通拥堵的原因。

邬贺铨:我们需要国家大数据战略

重视数据的挖掘和利用

大数据挖掘深化了信息技术的应用,促进了新应用和新格式的出现,提高了管理和决策的智能化水平。吴提出要重视数据挖掘和利用,这不仅是大数据,而且对中小数据挖掘也有意义。

大数据量越大,处理起来就越困难,但它只需要更多的服务器或更高速的服务器。吴认为,大数据的主要挑战是实时数据的快速变化。对于静态数据,您可以将数据带入程序进行处理,但是对于动态数据,您需要将数据带入程序。大数据面临的更大挑战是多样性,尤其是非结构化的。结构化数据可以通过关系数据库技术来处理,非结构化数据可以通过nosql来处理。结构化数据虚拟存储平台采用动态分层技术,根据数据被调用的频率自动将常用数据移动到最高级别。针对非结构化数据使用内容归档平台,将结构化和非结构化数据集成到单一的动态归档架构中,设计一套软件和元数据规则,通过标注数据建立不同的维度,从而具有模糊查询功能。

邬贺铨:我们需要国家大数据战略

吴指出,“大”只是大数据的特征之一,它包括abc的三个要素:分析性、带宽和内容。实时是大数据挖掘的挑战,而非结构化是大数据挖掘的主要挑战。目前,国际大数据处理技术主要是结构化数据,据说80%以上的大数据是非结构化数据。2012年,斯坦福大学与谷歌合作建立了一个深度学习网络,并通过从youtube上数千万个视频帧中自学,在10天内学会了识别猫的脸。然后,从20,000张看不见的照片中发现了这只猫,准确率只有15.8%。由此可见,非结构化数据的挖掘技术还远远不实用。目前,国内外大数据应用的成功例子很多,但基本上都是结构化数据。挖掘结构数据是大数据应用的突破点。

邬贺铨:我们需要国家大数据战略

大数据的挑战最终是一个战略问题

吴指出,目前大数据面临的问题主要表现在技术与应用、人才、安全与隐私、发展战略等方面。

首先是技术和应用问题。中国人口居世界首位,但2010年中国新存储的数据为250亿,日本仅为60%,北美为7%。中国的一些部门和机构拥有大量的数据,但他们以邻为壑,不愿与相关部门共享,导致信息不完整或重复投资。2012年,中国的数据存储容量达到364eb,其中55%(200eb)的数据需要一定程度的保护,但目前只有不到一半(44%,即96eb)的数据得到保护。与发达国家相比,中国在独立可控的大数据分析技术和产品方面存在很大差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据,远远落后于国外先进企业。

邬贺铨:我们需要国家大数据战略

第二,人才问题。500年前,达芬奇可以同时成为画家、音乐家、工程师和科学家;100年前,医生能够理解医学领域的所有分支;今天,初级医生必须同时了解大约10,000种疾病和综合症、3,000种药物和1,100种测试方法。据估计,一个专业的医生也需要一天21小时的学习来跟上学科的发展。高德纳咨询公司预测,大数据将在全球范围内带来440万个新的it岗位和数千万个非it岗位。麦肯锡公司预测,到2018年,美国将短缺14万至19万名深度数据分析人才,需要150万名数据需求、技术和应用经理。能够理解和应用中国大数据的创新人才是稀缺资源。

邬贺铨:我们需要国家大数据战略

还有安全和隐私问题。大数据的使用首先要求政府数据原则上应该公开。大数据挖掘和利用需要遵循法律。我国需要尽快制定《信息保护法》和《信息披露法》,既要鼓励面向群体的数据挖掘,服务社会,又要防止侵犯个人隐私,倡导数据共享,防止数据滥用。在安全和隐私保护方面还有很多隐患。重要数据的存储和应用不应过于依赖大数据分析技术和平台,而应注意信息泄露的风险。

邬贺铨:我们需要国家大数据战略

最后,发展战略问题。信息化应注重硬件、软件和数据的利用。不仅挖掘大数据,而且挖掘中小数据都是有意义的。有必要制定国家大数据发展战略。大数据是高度应用驱动的服务,其标准和产业结构尚未形成。这是中国实现跨越式发展的机遇。然而,有必要避免仓促建造大数据中心,并在没有明确目的的情况下到处从事“数据房地产”。相反,有必要从战略上重视大数据的开发和利用,将其作为转变经济增长方式的有效起点。

邬贺铨:我们需要国家大数据战略

三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....

当前流行度:0

[娇娇]http://itougu.jrj/view/189514.j.....

当前流行度:0

1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和辽寮??要坚强,要坚强。.....

当前流行度:0

你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........

当前流行度:0

缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......

当前流行度:0

那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....

当前流行度:1

你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....

当前流行度:0

咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....

当前流行度:0

来源:彭博新闻网

标题:邬贺铨:我们需要国家大数据战略

地址:http://www.pks4.com/ptyxw/8222.html