大数据 是否大得难以处理
【摘要】大数据 是否大得难以处理尽管现如今的企业对于大数据项目充满了热情,但究竟有多少关于大数据的探讨最终变成了实际执行的大数据项目呢?到
大数据 是否大得难以处理
尽管现如今的企业对于大数据项目充满了热情,但究竟有多少关于大数据的探讨最终变成了实际执行的大数据项目呢?到底是哪些因素阻碍了企业对于大数据项目的实施呢?为了找出企业迄今没有对于这一时下炙手可热的技术做出实质性进展的原因,计算机世界网站从今年5月开始在香港地区展开了一项调查。
该项调查的重点是基于用户对于大数据的“三大特性”(数据量、种类、输入和处理速度)的态度进行的采访,这三大特性定义了大数据。截至到七月,有140多名香港地区的IT专业人士参与了这项仍在进行中的调查。
大数据项目从讨论到正式部署
首先统计的是受访者所在企业目前的状态和对大数据采用的计划。调查结果显示,采用率很低,仅有五分之一(20.1%)的受访专业人士表示,他们的企业目前正在使用大数据技术进行生产,另外,有9.7%的机构计划在未来12个月内实施大数据项目。
但也有40.3%的IT专业人士表示,他们所在的企业没有任何实施大数据项目的计划。而表示不确定的受访者也占到了29.5%的比例。
对于该项新兴技术采用的趋势和态度不同的企业各有不同:大多数企业往往对这项新技术持怀疑、等待和观望的态度。但是,这项调研也显示了香港地区的大多数IT专业人士都对他们所在的企业实施大数据计划的态度是十分鲜明的:它们要么非常积极的赞成该技术,要么直接持拒绝态度,并没有留下一点持怀疑态度的空间。
大数据项目的驱动因素和其所面临的挑战
为了更好的了解市场对于该技术的热情和接受程度,我们让受访者基于他们对于大数据三大特性的印象对大数据的益处进行了评价。
大数据的收集和分析大量数据的能力获得最高评价,有47%受访者将这一特性评为最重要的益处。评价第二的是:处理各种数据格式的能力(占29.1%)。大数据技术传递速度和性能分析是排名最低,只有23.9%的IT专业人士认为该特性是其最重要的益处。
调查显示,关于实施大数据项目所面临的挑战:数据集成工具较差(占48.8%),数据质量差(占39.8%),缺乏数据架构(占39%)和混乱的数据所有权(占39%)位列受访者们调查结果的前四名。
在这四大因素中,前三名的挑战与技术不成熟和数据管理有关。尽管这些问题都是相当麻烦的,但他们主要是与技术相关的问题,通常是容易解决的。
好消息是,更为复杂的挑战问题,诸如开发商业案例(占24.4%)或企业内部文化冲突(占14.6%)的排名很低。这一发现表明,企业用户均普遍意识到大数据的益处,今后在员工教育和说服用户方面的不用花费大量的资金投资了。
数据量与种类
除了研究企业部署大数据项目的动机和面临的挑战,本次调查还进一步的研究的大数据的“三大特性”,以了解进行大数据管理的需求和期望。
在香港,被企业视为大数据的数据量标准与全球标准是持平的。大约三分之二的本地IT专业人士认为,大数据的数据量将至少要在10TB以上,接近20%的受访者不是,超过100TB的数据量才能被认为是大数据。
根据维基百科介绍,决定大数据大小的指标永远在变,截至2012年,大数据中的数据集可以由几十兆字节至数拍字节的数据组成。这指标不固定是因为传统数据库管理系统以至NoSQL等新型数据库,它们的科技和处理大容量数据的能力不断在改进。
随着技术的进步,企业的数据量还将继续增加。除了针对数据量的调查,本次调研还试图量化数据的性质对于促进大数据增长的作用。调查采访了受访者们两个单独的问题:不同类型的数据所产生的数据量,以及可能导致大数据分析的数据类型。
调查显示,目前正在大规模产生的海量数据预计也将用于大数据分析。IT专业受访者们表示,目前产生最大数据量的来源为结构化的事务处理数据和电子邮件数据,分类占到数据量的62.7%和53%。这两大数据来源所产生的数据也是可用于大数据分析的最流行的两种数据类型。
后起之秀:社会化媒体内容
鉴于大多数IT用户将能够处理大量数据的能力作为大数据最为重要的益处。大容量的数据类型就更可能被用于先进的分析了。
然而,也有例外的情况发生。社会化媒体内容即是如此。相对而言,仅有较少的企业(26.9%)表示,社交媒体正在产生大量的数据信息,但是社会媒体的数据信息则占到了大数据分析很高的权重(40.5%)。
虽然从社会媒体所产生的数据量是巨大的,大多数企业尚未开始捕获并分析这些数据集。随着社会媒体流动性和影响力的继续增加,更多的企业将转向这方面平台的洞察,届时大数据技术有望在这个过程中发挥关键性的作用。相同的动机驱动因素在利用大数据来分析数字丰富的数字媒体,如视频、音频、图像方面占到的比例更高(37.3%)。
分析当前和未来的状况
该调查还研究了不同类型的业务在当前所支持和采用的先进的分析方法,并预计其将在未来的发展趋势。
顶级商务功能方面,目前正在采用和执行的高级分析包括:业务报告(71.9%),规划和预测(56.8%)和预算(53.5%),这几项在未来先进的分析性能预测中排名很低。
调查表明,目前的分析主要用于执行操作的角色。更具战略性的业务功能,如战略管理(64.8%),利润模型(58.7%),企业绩效管理(58.6%)和研发(58.3%),预计在未来的先进分析应用中将占主导地位。
这一发现表明,香港地区的企业非常了解大数据分析的战略价值。先进的分析方法是将从当前的业务支持更多转向发挥战略方面的作用。随着企业对于更大量数据和更多类型数据的收集的增加,以及分析模型演进,预计企业将在未来利用大数据分析进行战略决策。
输入和处理速度仍然很重要
尽管受访者对于数据分析速度的排名较低,但其性能似乎对本地企业来说仍然是一个问题。
该调研调查了受访者们关于查询分析结果的最佳时间。虽然大多数的IT受访者(42.1%)表示可以为结果等待一分钟的时间,超过三分之一(37.3%)的受访者则希望能够在不到10秒的时间内就得到分析结果,以满足其业务需要。
这一发现表明,输入和处理速度、以及数据量的问题将对企业的IT部门及其处理进程提出相应的要求。如果数据结构和IT基础设施还没有准备好能够在10秒内处理并分析100TB的数据,一些IT用户则表示这是无法接受的。
调查结果表明,大多数IT用户(58.5%)关心的是现有的信息基础设施所采集的大数据的状态。对于数据结构和IT基础设施缺乏信心是香港企业最为关注的问题。而如果不建立这样的信心,大数据项目的采用将很难实现。
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?