BI与数据仓库(DW)之间的关系是怎么样的?

关注者
240
被浏览
25595

17 个回答

我现在是做BI的,我说说我的理解吧。
首先说DW,很好理解,是DataWarehouse的缩写,中文就是数据仓库。最主要的特点如下,参考自维基百科:
  • 主题导向(Subject-Oriented)
有别于一般OLTP系统,数据仓库资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),因此称为主题导向。举例如Party、Arrangement、Event、Product等。
  • 集成性(Integrated)
资料来自企业各OLTP系统,在数据仓库中是集成过且一致的。
  • 时间差异性(Time-Variant)
资料的变动,在数据仓库中是能够被纪录以及追踪变化的,有助于能反映出能随着时间变化的资料轨迹。
  • 不变动性(Nonvolatile)
资料一旦确认写入后是不会被取代或删除的,即使资料是错误的亦同。(i.e.错误的后续修正,便可因上述时间差异性的特性而被追踪)
这些放狗可以搜到很多定义。

而BI,我的理解分广义和狭义的。广义上讲,BI包括ETL, DW和相应的Reporting System. 因为现在一般的公司动不动说上个BI系统,都是要从DW建模开始做,然后做ETL,最后做对应的Reporting System. 虽然最终领导们只看到了他们想要的报表,但是这一套系统是需要DW和ETL的支持的。下面是我前几天给别人讲ppt的时候说的一句话:
Business Intelligence refers to application and technology, which is used to gather, provide access to, and analyze data and information about the company operations.
而狭义的BI就仅仅指Reporting System, 就是基于DW设计的报表系统,是领导们想要看的报表的展现。通过DW中的维度表和事实表,来从不同的维度看领导想要的数据。比如大中华区销售了多少,每个省的KPI怎么样等等。常用的工具有OBIEE,BO,Cognos等等。

希望对你有帮助。
其实很多人更愿意混用data warehousing和BI这两个词, 因为在大多数情况下, 整个BI system的backend就是data warehousing实现的(当然也有例外),包括ETL和data store等。这个时候人们说BI/data warehousing,就包括整个流程:从source system读取数据,ETL后存到data store,然后基于这个data store,在front end有很多BI的applications可以用,比如reporting什么的。

在用BI这个词的时候,也有广义/狭义之分。大多数的情况下,用的是广义,代表整个BI system (也就是上面说得真个流程)。狭义的BI只是指那些在front end的BI applications。 analytics, dashboard, score card等