阅读本文不需要技术背景。
总体介绍
首先模拟一个数据分析场景,某企业积累了如下表格所示的销售数据:
产品销售数据表表格中每一行表示某个时间段内某种商品在某个地区的销售情况。很明显,这些数据涉及到了时间、地区、产品三个业务角度。
在对这样的数据进行分析时,不同的角色都会基于自己所感兴趣的业务角度提出问题
销售经理关心各个地区的销售情况,希望找出销售增长率在平均水平之下的地区产品总监则希望了解近期内各种产品的销量对比,以作为后期产品研发方向的参考CEO想要知道近六个月内整体销售环比信息,用以评估是否达到公司运营目标
对于表格中的数据,可以将其转换为另一种数据格式-三维空间立方体,如下图所示:
图1-数据立方体相对于表格,以三维立方体形式呈现的数据结构更加直观。
在这个数据立方体中,每一个坐标轴都代表一个业务角度(时间、地区、产品),坐标轴上的坐标值则表示了某个业务角度的一个确定的值(如:北京市、3月份、手机),不同坐标轴坐标值的交叉点则表示一个具体的销售额。
实际上,此数据立方体中表示业务角度的坐标轴就是维度,类似于三维立方体的数据结构则被称为多维数据结构(也称数据立方体)。
再次回顾前文中销售经理、产品总监、CEO各自提出的问题,不难发现他们各自所