다음을 통해 공유


为什么是大数据?

你是不是可能和我一样觉得有点奇怪,为什么大数据突然冒出来成为最新的技术热点,就像前几年的云计算一样?大数据技术似乎几年前就存在,历史上数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题,为什么他们无法满足要求了而使以hadoop为核心的大数据技术脱颖而出成为热点呢?和几个朋友闲聊了一下,列出了3个主要观点,供大家指正。

1. 非结构化的数据增长过快,急需相应的技术来处理和发现价值。

13年前也就是1999年,我在微软做SQL Server的技术支持的时候,有个客户把他单位的被置疑的数据库寄过来给我修复,然后给我打电话说:我们的数据库挺大的,有50MB呢!50MB啊,看看现在,全世界的信息量每两年以超过翻番的速度增长,2011年就产生和复制1.8ZB的海量数据,其增长速度甚至超过摩尔定律。1.8ZB是什么概念呢,需要中国每个人每分钟发送3条微博且连续6217年不间断。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互……要处理的数据量实在是太大、增长太快了。更糟的是,企业里85%的数据都是非结构化的数据(电子邮件,文档,图片…),这让我们的关系型数据库情何以堪!我们都知道这些数据里极有可能含有金矿,但是如何处理这些数据,如何从这些大数据中发现价值,这些都在召唤大数据技术。

2. 我们怎么处理过时的数据,删除么?过去我们处理过时的数据库数据,第一就是备份,然后从当前系统中移除。第二就是建表分区,然后把老数据分区移到速度慢的硬盘上。但是这些举措在处理结构化数据的时候已经力不从心,更不用说数据量更大的非结构话数据。当你需要的一些数据位于已经备份掉的磁盘中,如果是我,我都恨不得直接吃掉它们。理想的状况是,无论过时的数据还是新数据都能在需要的时候随时查询到,而且性能还不受影响。你不用纠结于怎么处理日益增长的数据和逐步下降的系统性能,这些就需要大数据技术了。

3. 硬件成本的快速下降,特别是存储设备的进步,使大数据技术走向商业完全成为可能。企业可以用便宜的PC服务器搭建大数据平台,并且可以随时扩展。应用微软的windows平台就可以简单地做到这一点。而且Widnows Azure提供了无限扩展的存储和计算能力,企业可以利用混合云技术,随心所欲地应用大数据技术为企业的发展提供更大的助力。

应该还有其他的因素在推动大数据的成为热点,希望能听到大家更好的见解 Smile