BI与数据仓库(DW)之间的关系是怎么样的?

关注者
258
被浏览
31191

17 个回答

我现在是做BI的,我说说我的理解吧。
首先说DW,很好理解,是DataWarehouse的缩写,中文就是数据仓库。最主要的特点如下,参考自维基百科:
  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 集成性(Integrated)
资料来自企业各OLTP系统,在数据仓库中是集成过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)
这些放狗可以搜到很多定义。

而BI,我的理解分广义和狭义的。广义上讲,BI包括ETL, DW和相应的Reporting System. 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。下面是我前几天给别人讲ppt的时候说的一句话:
Business Intelligence refers to application and technology, which is used to gather, provide access to, and analyze data and information about the company operations.
而狭义的BI就仅仅指Reporting System, 就是基于DW设计的报表系统,是领导们想要看的报表的展现。通过DW中的维度表和事实表,来从不同的维度看领导想要的数据。比如大中华区销售了多少,每个省的KPI怎么样等等。常用的工具有OBIEE,BO,Cognos等等。

希望对你有帮助。
从定义的角度上来说,数据仓库技术,应是BI技术的一个子集。
BI是一个很广泛意义上的概念,它包括了广泛的一系列的技术,数据仓库是其重要的基石之一,另外一个基石级的技术是ETL。
BI定义的技术集中,除了数据仓库,还包括了OLAP和数据挖掘,前端展现等等。在具体的项目中,它们中的若干个结合起来,实现一个完整的BI系统。
数据仓库,官方定义很拗口,我就不赘述了,个人认为他是一个数据的集合,用于管理目的,以业务概念和语境等来组织数据,它是数据存储的一种方式,也即企业数据资产的一种形式(相较于OLTP系统而言),它需要数据集成,需要有一致化,集成历史数据不断增量更新,不做数据的录入而从各源系统采集,它将成为一个数据的输出,为BI的其他技术领域所用,如OLAP、前端展现或是数据挖掘。
BI和数据仓库,它们的共同点是都从业务的角度来看数据,对数据进行重新组织。
区别是数据仓库是BI的子集,BI借助各种工具和技术有完整的输出,而通常我没说的数据仓库是不没有界面输出的。
虽然现如Qlikview之类的在越来越多的工具建议不建立数据仓库直接上BI,但有点保守的我还是觉得:无数据仓库,不BI。