BI与数据仓库(DW)之间的关系是怎么样的?

关注者
325
被浏览
42749

17 个回答

我现在是做BI的,我说说我的理解吧。
首先说DW,很好理解,是DataWarehouse的缩写,中文就是数据仓库。最主要的特点如下,参考自维基百科:
  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 集成性(Integrated)
资料来自企业各OLTP系统,在数据仓库中是集成过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)
这些放狗可以搜到很多定义。

而BI,我的理解分广义和狭义的。广义上讲,BI包括ETL, DW和相应的Reporting System. 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。下面是我前几天给别人讲ppt的时候说的一句话:
Business Intelligence refers to application and technology, which is used to gather, provide access to, and analyze data and information about the company operations.
而狭义的BI就仅仅指Reporting System, 就是基于DW设计的报表系统,是领导们想要看的报表的展现。通过DW中的维度表和事实表,来从不同的维度看领导想要的数据。比如大中华区销售了多少,每个省的KPI怎么样等等。常用的工具有OBIEE,BO,Cognos等等。

希望对你有帮助。
从概念上来说,BI(商业智能)是一套完整的解决方案,简单点说,是从本质上改变企业做决策拍脑袋的情况。DW(数据仓库),从名字上也可以看出一二,只是在解决“数据仓储”的问题。
其实,数据仓库的定义是什么我觉得并不重要,因为它本身就是一个抽象的概念,是因为社会经济以及人类整体科技的进步,企业在发展中在不断地遇到科学化决策的挑战,而出现的一个数据支持系统。就像oa一样,用java实现还是.Net实现无所谓,能提升企业办公效率的oa就是好oa。早些年混迹在数据解决方案外包行业的时候,就遇到过很多人——认为基于oracle的数据仓库最有前途,用MSSql Server的都是数据量太小的小企业;其实他们都忽略了一家叫Teradata的公司,当然,无论是MS,Oracle,还是TD,他们最终做的事情是的问题是bi解决方案。
数据仓库最关注的是解决数据一致性,可信性,集合性.......这些问题,把越来越复杂的业务数据转化成对于业务运营,业务分析来说简单易用的数据形式;数据仓库的终极目标是让数据应用人员发(无论是ceo还是普通分析师)发愁的是怎么使用数据仓库里这些数据,而创造更多的信息与价值;而不是发愁数据在哪里,数据对不对。
相比数据仓库,bi中还包含了主数据,数据挖掘,数据可视化,多维分析,标签分类等方面。拿多维分析举个例子,数据仓库中只是提供了维度化的数据,但是基于某些工具,比如ebay的kylen或者IBM的cognos等,可以支持用户在一定范围内任意组合维度与指标,那这就上升到了决策支持的层面而不是“高级数据仓储”层面了,也就是使用了数据仓库的数据,但不是数据仓库的功能。
再来说说近两年的行业真实情况吧。我自己平时也参加了很多数据工程,数据分析等相关的沙龙活动。发现一个很明显的变化就是,现在在风口上的大大小小的互联网公司,说自己用大数据的越来越多了,但有数据仓库体系的公司越来越少了。搞growth hacking的越来越多了,能把自己的企业报表支持做的快速精准的越来越少了。个人感觉的是,当年那一帮搞维度建模,仓库体系的老家伙明显没有教出太多的好徒弟,另外就是半路改行的etl占据了大半江山。所以现在在很多公司里看到的bi体系中的数据仓库一般都是一大层+”贴源“,能看到数据仓库理论体系的项目越来越少了。