尽管现在渲染大数据带来的风险的讨论几乎无处不在,但仍有一些不以为然的观点。SAP Sybase公司全球CTO Irfan Khan在近期其发布的一篇博文中称,“‘大数据’这个词现在非常火,但是某种程度上不过是过去30-40年来对数据管理和数据处理挑战的理解、认识的新一轮说法。” Khan倒不是从根本上否认“大数据”,他承认数据量的增长,然而他认为,采用列式分析基础架构就完全可以应对包含非结构化数据在内的“大数据”分析,并从中获益。
对此观点,李君鹏不是很赞同。他表示,“大数据”是个发展中的概念。EMC所说的“大数据”,是指数据集的大小远远超过现在使用的通用软件工具在能够容忍的时间内捕获、管理和处理这些数据的能力。大数据的大小并非固定的,而是一个不断移动的目标,单一数据集可以从几个TB到许多个PB。在数据处理规模进入到几百个TB、几个PB的时代,应用的复杂度越来越高,对响应速度的要求也越来越高,传统的行式数据库或者列式数据库很难在性能上、成本上满足数据和用户对处理速度增长的需求。
李君鹏进一步表示,传统的解决方案只能提供部分数据或非实时的分析。大数据本身就是一个问题集,云技术就是目前解决大数据问题最重要最有效的手段,目前公认处理大数据集最有效的手段——分布式处理就是云计算思想的一种具体体现。
对大数据的认识和处理,李君鹏总结说,应当包括大数据的存储、大数据的分析,大数据的写作和具备可预测性的应用。
大数据对企业带来的挑战,李君鹏认为, 首先是在把大数据潜在的价值转换成真正价值之前,如何大幅降低大数据的拥有成本和使用成本,避免大数据本身给企业造成负担。其次就是怎样尽快把大数据的潜在价值转换成真正地商业价值。
要实现真正的商业价值,李君鹏认为,必然离不开企业的行业专家、管理专家、IT专家与数据科学家的紧密合作,这也是企业利用大数据过程中普遍面临的一个重要的挑战。
当前公认的大数据三个特点,数据量、处理速度和复杂度,但一些小型企业的信息化程度不是很高,数据量也不是很多,可能处理也不会很麻烦,那么,他们是否可以置身于大数据挑战之外呢?
李君鹏的答案是否定的。他认为,当前商业竞争日益激烈,市场状况瞬息万变,所有企业无论大小都需要迅速根据变化调整自己,适应变化,这都离不开快速准确的大数据分析。也就是说,只要需求发展的企业都需要采用大数据技术去应对变化。所不同的,只是规模,和不同行业企业的技术路线。
EMC公司
中国区资深产品经理
李君鹏先生拥有超过二十多年的IT业界经验,有多年丰富的数据存储经验。自1999年加入EMC公司,李先生先后任职系统工程师,高级系统工程师,SAN高级解决方案架构师,技术商务顾问和中国区资深产品经理。