焦点信息:Kyligence李栋:从数据湖到指标中台,提升数据分析ROI

来源:CSDN博客 | 2022-07-21 10:00:38 |

嘉宾 | 李栋   整理 | 巫柔颖

出品 | CSDN云原生

2022年7月12日,在CSDN云原生系列在线峰会第13期"现代数据栈峰会"上,Apache Kylin PMC Member、Kyligence技术合伙人兼副总裁李栋从指标中台的趋势和背景出发,围绕指标中台的真实案例展开,对Kyligence实现指标中台的过程及提升数据分析ROI的经验进行了详细分享。


(资料图)

什么是“指标中台”

指标是衡量事物的标准,数据分析的关键就是找到正确指标并获得洞察,并开展经营决策。指标中台(Metrics Store)是当下流行的技术之一。

在传统的数据分析场景中,往往会把数据统一接入到一个数据平台,例如数据湖、数据仓库等技术。通过一系列ETL开发后,将数据对接到下游的BI或自研的数据应用,数据分析师或业务用户通过查看报表和数据应用来查看指标数据,并对指标进行洞察分析和开展业务决策。

这种情况下,所有业务指标分散存储在各个BI报表或应用系统当中,当指标数、用户数越来越多时,数据管理和指标管理会产生很大的混乱。例如指标在不同报表中出现同义不同名、同名不同义、数据口径不一致、时间对不齐等难题,极大降低了业务用户对数据的信心。

指标中台的出现,旨在通过一个平台统一管理所有业务指标,以及指标背后的数据。指标中台不仅可以解决前面提到的技术挑战,赋能业务人员更自助、更有信心地使用数据,还能帮助IT团队创造更高业务价值。

影响数据分析ROI的障碍

示例1:

国内某一线互联网企业,早年开始数字化建设,并搭建了数据湖来汇总存储各个来源的数据。按照传统的方式,所有的源表(ODS表)落到数据湖上后,业务用户无法直接使用这些源表,需要经过ETL开发宽表和聚合表才能被下游业务使用。

这就带来了两方面的问题:

宽表爆炸:最初仅有5.7k张ODS表,却膨胀至近百万张宽表和聚合表,给数据存储和数据管理带来极大负担;此外,每个宽表都需要ETL开发和管理工作,对计算资源和管理复杂度也是很大挑战;

难以使用:这么多的宽表和数据表,用户在使用时很难快速定位需要分析的指标存在哪张表上,数据使用的效率很低。

由此可见,影响数据分析ROI的障碍主要是:

指标口径不一致:数据量很大,但缺少信任;

“浑浊”的数据湖——宽表爆炸,数据存储和ETL任务冗余;

IT成本&时效性——IT成本和开发效率随数据量和用户量增长而难以控制。

通过指标中台解决上述挑战

示例2:

如下图所示,传统的在数据湖中加工和分析指标的方式,是经过ETL为每个指标开发宽表和聚合表。虽然很多指标背后的数据是可以复用的,但因为需求来自不同业务部门,缺少数据共享,最终只能重复开发,生成大量冗余的宽表和聚合表。

如下图所示,使用指标中台后,所有的数据指标被统一管理,并形成指标体系,如基础指标、衍生指标等。如果不同的指标背后对应的数据模型是同一个,那么指标的加工和计算过程是可以复用的。如果是同一份数据按不同口径服务不同业务,则通过衍生指标灵活响应业务需求,既能满足业务多变的需求,又能避免数据冗余导致的宽表爆炸。

由此可见,在指标中台里“指标”成为数据和业务交互的主体,通过对“指标“的标准化,形成数据开发和管理的标准化。

示例3:

下图展示的是某银行企业使用指标中台前的状况。银行业务人员需要对用户的消费行为进行分析,从交付指标到获得相关数据,通常需要12个工作日甚至更长时间。数据开发效率低、需求交付周期极长。

下图展示了它使用指标中台后的情况。允许非技术人员自助管理衍生指标,并通过拖拽现成指标的方式创建仪表板,端到端交付时间减少50%,从需求到开发,流程轻松省时、企业人效大幅提升。

指标中台的能力

从技术角度来讲,指标中台的能力主要展现在四个方面。

指标目录:统一管理所有业务指标口径

从数据湖的表开始定义指标,包括基础指标和衍生指标,并将所有指标管理在一个平台中,实现业务指标的统一管理。

指标自动化:以指标管理数据,消除宽表操作

根据指标定义的逻辑对底层数据进行加工、预计算,并根据指标所在的数据模型进行合并,消除宽表爆炸。若是指标很少被访问或是不再被访问,可以自动清理指标数据的预计算结果。此外,系统也会智能地向用户推荐常用的或关联度高的指标,提升找指标的效率。

目标管理:用目标管理指标,形成指标体系

管理指标的目的是帮助企业实现业务目标管理的目的,因此通过管理目标的方式管理指标,形成指标体系,可帮助企业更好地达成目标。

API集成:构建数据应用,一致消费指标数据

当指标和目标完成定义,系统需要一个出口。通过标准的指标API,让用户轻松构建数据应用,为应用提供一致的数据来源,消除指标割裂和数据孤岛。

Kyligence指标中台产品实践

Kyligence基于指标中台实践经验和OLAP基础能力,提供了指标中台产品——Kyligence Zen。在本次演讲中,李栋以零售订单分析场景为例,演示了指标中台的主要功能。

导入数据

只需把订单数据上传到S3,并输入S3链接地址,就可以快速把数据接入到指标中台。

导入指标

通过YAML文件定义好销量和利润等零售业务指标,即可一键导入。通过这种方式,可以轻松地把业务指标从BI平台批量接入指标中台。

管理指标

所有指标以卡片的方式被统一管理。对于零售企业,无论是集团管理人员还是门店店长,看到的都是同一套指标,以及同一套数据。

管理目标

为了更好地使用指标支持业务决策,可以创建目标来管理指标,从业务角度管理指标体系。

指标可视化

所有指标还可以灵活地制作可视化仪表盘,方便业务人员自助查看指标和进行归因分析。除此之外,指标也可以通过API对接其他数据应用。

总结

指标中台可有效解决数据湖上数据分析效率低下的问题,从而将IT团队从重复的报表开发工作中释放出来,投入到业务指标体系的管理和持续运营之中,并创造更多业务价值,大大提升企业的人效。

关键词: 数据分析