挑战二:数据挖掘分析模型建立
步入大数据时代,人们纷纷在谈论大数据,似乎这已经演化为新的潮流趋势。数据比以往任何时候都更加根植于我们生活中的每个角落。我们试图用数据去解决问题、改善福利,并且促成新的经济繁荣。人们纷纷流露出去大数据的高期待以及对大数据分析技术的格外看好。然而,关于大数据分析,人们鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因主要有以下两点:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。大数据时代下数据的海量增长以及缺乏这种大数据分析逻辑以及大数据技术的待发展,正是大数据时代下我们面临的挑战。
大数据的大,一般人认为指的是它数据规模的海量。随着人类在数据记录、获取及传输方面的技术革命,造成了数据获得的便捷与低成本,这便使原有的以高成本方式获得的描述人类态度或行为的、数据有限的小数据已然变成了一个巨大的、海量规模的数据包。这其实是一种片面认识。其实,前大数据时代也有海量的数据集,但由于其维度的单一,以及和人或社会有机活动状态的剥离,而使其分析和认识真相的价值极为有限。大数据的真正价值不在于它的大,而在于它的全面:空间维度上的多角度、多层次信息的交叉复现;时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。
另外,要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。
因此,现在已经有很多企业开始意识到,要想真正在Hadoop平台上做数据分析、数据挖掘的应用,有两种选择,要么就是汇聚一个懂数据、懂分析、懂编程又要有技巧的技术团队来操作,要么就是选择某家商业公司推出的成熟的大数据平台。
总而言之,目前尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中还难以通用。
挑战三:数据开放与隐私的权衡
数据应用的前提是数据开放,这已经是共识。有专业人士指出,中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。目前我国一些部门和机构拥有大量数据但宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到64EB,其中55%的数据需要一定程度的保护,然而目前只有不到一半的数据得到保护。
下面,我们来看一下美国在数据开放方面的做法。美国政府提供政策和经费保障,使数据信息中心群成为国家信息生产和服务基地,保障数据信息供给不断,利用网络把数据和信息最便捷、及时地送到包括科学家、政府职员、公司职员、学校师生在内所有公民的桌上和家庭中,把全社会带进了信息化时代。
纵观国内,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多信息孤岛,而且受行政垄断和商业利益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法,毕竟我国还没有国家层面的专门适合数据共享的国家法律,只有相关的条例、法规、章程、意见等。无法既保证共享又防止滥用,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的一道砍。
开放与隐私如何平衡,亦是一大难题。任何技术都是双刃剑,大数据也不例外。如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私,逐步加强隐私立法,将是大数据时代的一个重大挑战。
全社会开放与共享数据还很难,这让数据质量大打折扣。数据增值的关键在于整合,但自由整合的前提是数据的开放。在大数据的时代,开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料、生活数据自由地流动起来,准确全面应用起来,以推动知识经济和网络经济的发展,促进中国的经济增长由粗放型向精细型转型升级。然而战略观念上的缺失、政府机构协调困难、企业对数据共享的认识不足及投入不够、科学家对大数据的渴望无法满足等都是大数据在当前我国发展应用中不得不面对的困难。
挑战四:大数据管理与决策
大数据的技术挑战显而易见,但其带来的决策挑战更为艰巨。大数据至关重要的方面,就是它会直接影响组织怎样作决策、谁来作决策。在信息有限、获取成本高昂且没有被数字化的时代,组织内作重大决策的人,都是典型的位高权重的人,要不然就是高价请来的拥有专业技能和显赫履历的外部智囊。但是,在今时今日的商业世界中,高管的决策仍然更多地依赖个人经验和直觉,而不是基于数据。
大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是一场管理革命。大数据时代的决策不能仅凭经验,而真正要拿数据说话。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。
大数据应用领域仍窄小,应用费用过高,制约大数据应用。国内能利用大数据背后产业价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早。随着企业内部的资料量愈来愈大,日后大数据将成为IT支出中的主要因素,特别是数据储存所耗费的成本,很可能造成企业负担,甚至望而却步。因此有远见的CIO必须预先做好准备。
挑战五:大数据人才缺口
如果说,以Hadoop为代表的大数据是一头小象,那么企业必须有能够驯服它的驯兽师。在很多企业热烈拥抱这类大数据技术时,精通大数据技术的相关人才也成为一个大缺口。
大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
可以说,真正启动大数据在企业和社会的全面应用,面临的不仅仅是技术和工具问题,更重要的是要转变经营思维和组织架构,才能真正地挖掘这座大数据金矿。那么在大数据时代,我们要做哪些应对之策,以握战略制胜之点?
整合与开放是基石
大数据服务创业公司Connotate对800多名商业和IT主管进行了调查。结果显示,60%受调查者称:“目前就说这些大数据投资项目肯定能够带来良好回报尚为时过早。”之所以如此,是由于当前大数据缺乏必需的开放性:数据掌握在不同的部门和企业手中,而这些部门和企业并不愿意分享数据。大数据是通过研究数据的相关性来发现客观规律,这依赖于数据的真实性和广泛性,数据如何做到共享和开放,这是当前大数据发展的软肋和需要解决的大问题。
2012年美国大选,奥巴马因数据整合而受益。在奥巴马的竞选团队中有一个神秘的数据挖掘团队,他们通过对海量数据进行挖掘帮助奥巴马筹集到10亿美元资金;他们通过数据挖掘使竞选广告投放效率提升了14%;他们通过制作“摇摆州”选民的详细模型,每晚实施6.6万次模拟选举,推算奥巴马在“摇摆州”的胜率,并以此来指导资源分配。奥巴马竞选团队相比罗姆尼竞选团队最有优势的地方:对大数据的整合。奥巴马的数据挖掘团队也意识到这个全世界共同的问题:数据分散在过多的数据库中。因此,在前18个月,奥巴马竞选团队就创建了一个单一的庞大数据系统,可以将来自民意调查者、捐资者、现场工作人员、消费者数据库、社交媒体,以及“摇摆州”主要的民主党投票人的信息整合在一起,不仅能告诉竞选团队如何发现选民并获得他们的注意,还帮助数据处理团队预测哪些类型的人有可能被某种特定的事情所说服。正如竞选总指挥吉姆·梅西纳所说,在整个竞选活中,没有数据做支撑的假设很少存在。
2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,将大数据研究上升为国家意志。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分。国内智慧城市建设目标之一就是实现数据的集中共享。
因此,从社会、国家领域而言,我国亟须在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持;另一方面,建立良性的大数据生态环境是有效应对大数据挑战、用好大数据的主要出路,需要科技界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、大数据质量标准、建立专业组织等途径,建立和谐的大数据生态系统。
力推合作共赢的商业模式
随着云计算、大数据技术和相关商业环境的不断成熟,越来越多的软件开发者正在利用跨行业的大数据平台,打造创新价值的大数据应用,而且这一门槛正在不断降低。因为首先,数据拥有者能够以微乎其微的成本获取额外的收入,提高利润水平;其次,大数据设备厂商需要应用来吸引消费者购买设备,发展合作共赢的伙伴关系势必比单纯销售设备要有利可图,一些具有远见的厂商已经开始通过提供资金、技术支持、入股等方式来扶持这些软件开发者;第三,行业细分市场的数据分析应用需求在不断加大,对于整个大数据产业链来说,创新型的行业数据应用开发者必将是未来整个大数据产业链中最为活跃的部分。
未来,有三种企业将在大数据产业链中处于重要地位:掌握海量有效数据的企业,有着强大数据分析能力的企业,以及创新的软件开发者。社交网络、移动互联网、信息化企业、电信运营商都是海量数据的制造者,Facebook公司手中掌握着8.5亿用户,淘宝注册用户超过3.7亿,腾讯的微信用户突破3亿,这些庞大用户群所提供的数据,正在等待时机释放出巨大商业能量。可以预测,在不久的将来,Facebook、腾讯、电信运营商等海量数据持有者或者自我延伸成为数据分析提供商,或者与IBM、ZTE等企业密切对接成为上下游合作企业,大数据产业链将在某个爆发时点到来之际,以令人惊讶的速度成长壮大。
大数据的杀伤力 需防患于未然
大数据时代,传统的随机抽样被所有数据的汇拢所取代,人们的思维决断模式,已可直接根据是什么来下结论,由于这样的结论剔除了个人情绪、心理动机、抽样精确性等因素的干扰,因此将更精确、更有预见性。不过,由于大数据过于依靠数据的汇集,一旦数据本身有问题,就很可能出现灾难性大数据,即因为数据本身的问题,而导致错误的预测和决策。
大数据的理论是在稻草堆里找一根针,而如果所有稻草看上去都挺像那根针呢?过多但无法辨析真伪和价值的信息和过少的信息一样,对于需要作出瞬间判断、一旦判断出错就很可能造成严重后果的情况而言,同样是一种危害。
大数据理论是建立在海量数据都是事实的基础上,而如果数据提供者造假呢?这在大数据时代变得更有害,因为人们无法控制数据提供者和搜集者本人的偏见。拥有最完善数据库、最先接受大数据理念的华尔街投行和欧美大评级机构,却每每在重大问题上判断出错,这本身就揭示了大数据的局限性。
不仅如此,大数据时代造就了一个数据库无所不在的世界,数据监管部门面临前所未有的压力和责任:如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害?如何避免信息不对等,对困难群体的利益构成伤害?在有效控制风险之前,也许还是让大数据继续待在笼子里更好一些。
大数据的经济价值已经被人们认可,大数据的技术正逐渐成熟,一旦完成数据的整合和监管,大数据爆发的时代即将到来。我们现在要做的,就是选好自己的方向,为迎接大数据的到来,提前做好准备。
以未来的视角看,无论是政府、互联网公司、IT企业还是行业用户,只要我们以开放的心态、创新的勇气拥抱大数据,大数据时代就一定有属于中国的机会。
大数据人才培养 迫在眉睫
大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来,大数据将会出现约100万的人才缺口,在各个行业和领域,大数据中高端人才都会成为最炙手可热的人才,涵盖了大数据的工程师、规划师、分析师、架构师、应用师等多个细分领域和专业。因此需要社会、高校和企业共同努力去培养和挖掘。企业可以与学校联合培养人才,或建立专门的数据科学家团队,或与专业的数据处理公司合作,以解人才之急。
当大数据被讨论得热火朝天时,我们更需要冷静地思考,如何让技术扎实而有效地落地。虽然距离大数据时代我们还有很长的路要走,但正象孙正义昨天在乌镇演讲时最后说的:“我想说的是,我们要有信心,中国几年后将成为世界最大的经济体,人类的未来将充满了机遇,会充满了很多的快乐,有很多的光明憧憬等待着我们”。