大数据、云计算和商业智能这三者的关系到底如何,以后的发展前景有什么看法?

关注者
934
被浏览
74947

27 个回答

先来说说大数据和云计算的关系 大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。

云计算的本质就是将计算能力作为一种较小颗粒度的服务提供给用户,按需使用和付费,体现了:

  • 经济性,不需要购买整个服务器
  • 快捷性,即刻使用,不需要长时间的购买和安装部署
  • 弹性,随着业务增长可以购买更多的计算资源,可以需要时购买几十台服务器的1个小时时间,运算完成就释放
  • 自动化,不需要通过人来完成资源的分配和部署,通过API可以自动创建云主机等服务。

云计算的技术关注点在于如何在一套软硬件环境中,为不同的用户提供服务,使得不同的用户彼此不可见,并进行资源隔离,保障每个用户的服务质量。

在大数据和云计算的关系上,两者都关注对资源的调度。

  • 大数据处理可以基于云计算平台(如IaaS,容器)。
  • 大数据处理也可以作为一种云计算的服务,如AWS的EMR(Amazon Elastic MapReduce )阿里云的ODPS(Open Data ProcessingService)。

大数据和商业智能BI的关系

  • 从概念的角度区分

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

商业智能BI在数据架构中处于前端分析的位置,其核心作用是对获取数据的多维度分析、数据的切片、数据的上钻和下钻、cube等。通过ETL数据抽取、转化形成一个完整的数据仓库、然后对数据仓库的数据进行抽取,而后是商业智能的前端分析和展示。

大数据(big data)是一种信息资产,它是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。简单而言,大数据更偏重于发现、预测并印证的过程。

  • 从数据来源的角度区分

大数据、的数据来源包括内部数据和外部数据,有很大一部分数据是包括音频、视频、图像在内的非结构化数据,或是半结构化数据。这类数据通过大数据管理的方式进行整合,然后用BI的方法进行分析挖掘处理。

而BI的数据很多是来自数据库的结构化数据分析。在企业内部实施BI应用就是为了可以更好的对数据进行分享和使用。

  • 从技术的角度区分

从技术方面来看,传统BI的ETL、数据仓库、OLAP、可视化报表技术,都处于淘汰的边缘,因为解决不了海量数据(包括结构化与非结构化)的处理问题,BI的很多功能都可以被对应的大数据组件所替代。大多数企业即使没有大数据业务的驱动,大数据技术的优势依然不容小觑。

  • 从应用的角度区分

BI涉及的应用科学包括:终端用户查询和报告工具、数据挖掘软件、数据仓库产品。主流的传统商业智能工具包括BO、COGNOS。一些新型的BI工具如Tableau、Qlikview、帆软FineBI在目前市场也被广泛应用。

而大数据的应用几乎涉及到社会生活的方方面面,如医疗行业、金融行业、体育行业、安全执法、城市改善等等。当然,大数据所涵盖的领域不止这些,未来还会有许多新的行业和领域利用大数据的应用进行规划和发展。

  • 从决策者的角度区分

BI更倾向于决策,对事实描述更多是基于群体共性,帮助决策者掌握宏观统计趋势,适合经营运营指标支撑类问题;大数据则内涵更广,倾向于刻画个体,更多的在于个性化的决策。

  • 从人员技能角度区分

大数据的数据处理,涉及很多新的技术,不同的应用场景需要不同的大数据处理方法,需要有人专门进行研究和探索,可见大数据对于BI人员的技能要求有所提高。

  • 从发展趋势的角度区分

随着企业CRM、ERP、SCM等应用系统的引入,企业不仅仅关注事务处理过程,而更加注重有效利用企业的数据为准确和快速的决策提供支持。由此带动的对商业智能的需求将是巨大的。BI的发展趋势可以归纳为以下几点:从单独的商业智能向嵌入式商业智能发展,从传统功能向增强型功能转变,从传统型BI向敏捷型BI转变。

大数据的发展趋势包括:数据的资源化,与云计算的深度结合,数据管理成为核心竞争力,数据生态系统复合化程度加强,数据质量是BI(商业智能)成功的关键,数据泄露泛滥。

最后,关于大数据以及企业数据建设案例,欢迎关注专栏:帆软数据应用研究院 - 知乎专栏

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。
虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),开源的云平台最有活力的就是Openstack了;
大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用(因为MapReduce开发复杂),所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目,说到这补充一下,在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献),为我们带来了类SQL的操作,到这里操作方式像SQL了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?<论文传送门:vldb.org/pvldb/vol5/p14>
(因为本人比较关注大数据方向,所以说的偏了一些,请包涵~)