1. 概述

很多情况下,基础数据表并不能直接用于分析,它还需要进一步的处理。

2. 名词解释

维度:观察数据时,使用的粒度

度量:汇总的统计值

聚合方式:汇总的方式,比如求和、求平均、最大值、最小值等

怎么理解呢?假设我们有一份明细的订单交易数据,部分数据如下:

将这份数据导入后,我们可以用不同的粒度观察数据,系统会自动替我们进行汇总。

比如,观察“各地区的销售额”,“地区”是维度,“销售额”是度量。每个地区都对应成百上千行数据,系统会对这些数据进行了求和汇总。如下图所示:

我们也可以观察“各省的销售额”,“省/自治区”是维度,“销售额”是度量。如下图所示:

数据导入后,系统默认会把字符型的字段归类为维度数值型的字段归类为度量,您可以手动更改字段的类型。

3. 字段配置

在数据模型中,您可以对字段进行可见性操作,重命名、复制,转换数据类型、数据格式设置、数据字典设置、创建层级、创建组、度量/维度转换、设置指标、新建计算度量。

3.1 批量编辑字段

点击[批量操作>批量编辑字段],您可对字段属性等进行批量操作。
批量编辑字段1.jpg

3.2 批量设置数据格式

点击[批量操作>批量设置数据格式],您可对数据格式进行批量操作。
批量设置数据格式 (1).jpg

3.3 数据字典

数据字典用于修改离散字段成员的名称,只针对维度类型的字段,具体介绍可以查看数据字典。
数据字典1.jpg

3.4 层级创建

用户可以为不同的字段之间创建层级关系,具体可以查看创建层级。

3.5 创建组

用户可以为一个维度字段中所有的成员自定义组别的划分,新的划分会作为一个新的维度字段而存在。具体可以查看创建组。

3.6 维值加速


当某些字段被频繁用于查询和计算时,您可以为高频字段配置维值加速。例如,您的数据表有100万条数据,有一个字段是“客户名称”字段。当用筛选器筛选“客户名称”时,系统会从100万条数据中查询100多个客户名。如果配置了维值加速,那么“客户名称”信息就会默认从配置表中查询,该表中可能只有100多条数据,查询效率会显著提高。

案例场景

假如您需要查看基于客户名称和产品名称查询成交情况,则需要在订单明细表中为客户名称和产品名称配置维值加速。假设这俩字段存在于订单表customer和product中,对应的字段名称为customer_name和product_name。

配置加速后,进行数据查询时,仅需分别在customer中查询customer_name的值,以及在product中查询product_name的值,无需通过订单表做聚合查询,从而提升查询速度。

在数据模型编辑页中,按照下图指引,选择目标维度并配置维值加速。

  • 方法一,点击维值加速按钮,进入维值加速汇总界面,再点击添加,进入配置界面。
    维值加速.jpg

  • 方法二,选中维度,右键选择维值加速也可以进入配置界面。
    维值加速1.jpg

在报告中的效果

3.7 物化视图


物化视图(Materialized View)本质是一种预计算,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存下来,以便在查询时直接复用,从而避免这些耗时的操作,最终达到加速查询的目的。本产品数据模型编辑界面支持物化视图配置,一个数据模型可以建立多个物化视图,项目中心支持物化视图的任务管理。

物化视图适用于如下场景:

  • 模式固定、且执行频次高的查询;
  • 查询包含非常耗时的操作,比如聚合、连接操作等;
  • 查询仅涉及表中的很小部分数据。

当您的数据连接方式为[直连]和使用打开「数仓信息同步」的数据模型,可在「更多」选项里开启物化视图,提升查询性能。操作步骤:

(1)在数据模型编辑界面,点击右上角icon,进入物化视图设置列表;

(2)点击“新建视图”,按照页面提示设置需要的物化字段和数据范围;

  • 所有字段均可作为维度度量。度量聚合方式:计数、去重计数、最小值、最大值
  • 支持对部分字段设置聚合,如:仅物化地区+日期+求和(销售额)
  • 筛选条件支持设置“AND” 或者 “OR”条件,默认选择AND条件。

(3)“新建物化视图”完成后,回到设置列表,点击确定即完成配置。

(4)您也可以使用快速生成物化视图的方式,在新建物化视图界面,选择对应报告一键生成物化视图

(5)物化字段支持“生成动态物化视图”。原先因为物化视图字段都是静态选项,当报告内容变化时物化视图会失效,由此产品新增“生成动态物化视图”功能以解决此类问题。

关于物化视图更多详细介绍您可以查阅专题文章《物化视图设计和实践》