数据处理
1. 概述
本文为您介绍数据关联、合并、清洗、聚合、扩展、行转列、列转行等数据处理操作。
2. 前提
您已完成数据输入的配置,请参见数据输入。
3. 关联
将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。
(1)建立两表间的关联关系有两种方式:
将要关联的表直接拖入已有的表中,选择关联的图标,建立两张表的关联关系。
点击已有的表,弹出“+”按钮,点击按钮,选择“关联”,将要关联的表拖入关联节点,建立两张表的关联关系。
(2)建立关联关系后,选择两表要关联的字段。
- 关联关系包括 等于、不等于、小于、小于等于、大于、大于等于,可添加多个关联字段。
关联类型包括 内部(内关联)、左侧(左关联)、右侧(右关联)、完全外部(外关联)。
- 内关联:生成的表将包含与两个表均匹配的值。 - 左关联:生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。 - 右关联:生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null值 - 外关联:生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。
两个关联的表中如果有相同的字段,将自动对字段进行重命名。
(3)您在设置关联关系与关联类型之后,可在右侧查看字段试图和数据视图。
4. 合并
将两张表合并为一张表,合并的数据在行上扩展。
(1)建立两表间的合并关系有两种方式:
将要合并的表直接拖入已有的表中,选择合并的图标,建立两张表的合并关系。
点击已有的表,弹出“+”按钮,点击按钮,选择“合并”,将要合并的表拖入合并节点,建立两张表的合并关系。
(2)建立合并关系后,可以选择合并主表,主表的结构将作为合并的依据,与主表一致的字段将自动合并。
- 字段视图中,展示主表的字段。同样点击字段的下拉按钮,可以对字段进行设置,包括:重命名、转换数据类型、数据筛选、复制字段、隐藏以及新建计算字段。
- 数据视图中,可以展示两张表合并后的列和数据。主表中的字段和数据将全部展示,次表中相同的字段对应的数据将在行上进行扩展,不同的字段与数据不会展示。
5. 清洗
去掉数据表中不需要的列和行,并新增需要的列和行。点击已有的表,弹出“+”按钮,点击按钮,选择“清洗”。
- 重命名:点击字段的下拉按钮,选择“重命名”,可以对字段进行重新命名。
隐藏:点击字段的下拉按钮,选择“隐藏”,字段与数据将不会显示在数据视图中。
转换数据类型:点击字段的下拉按钮,选择“转换数据类型”,可以将字段类型转换为整数、小数、字符串、日期、日期时间。
- 数据筛选:点击字段的下拉按钮,选择“数据筛选”,手动输入要添加的项,可以选择包含所选项以及排除所选项,点击“确定”后,满足条件的结果将会展示在数据视图中。
- 复制字段:点击字段的下拉按钮,选择“复制字段”,新复制的字段与数据将会展示在数据视图中。
6. 聚合
根据选定的维度,在指定的度量上做数据汇总或平均。点击已有的表,弹出“+”按钮,点击按钮,选择“聚合”。
分组:拖入字段,数据视图中将根据字段进行分组展示。
聚合:拖入字段,可以选择聚合方式。
- 拖入维度字段时,可供选择的聚合方式包括计数和去重计数;
- 拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位;
- 您也可以选择自定义聚合。
7. 扩展
通过分隔符将类似于标签的数据解析成多行,以便后续进行数据分析。
(1)点击已有的表,弹出“+”按钮,点击按钮,选择“扩展”。
扩展字段:拖入需要进行扩展的字段
选择分隔符,可选择快捷分隔符或输入自定义分隔符
(2)示例,若有原始数据如下:
选择扩展字段为标签,扩展符为“,”,扩展后效果如下:
8. 行转列
将表中具有相同值的多行数据转换成一个值的多列数据。点击已有的表,弹出“+”按钮,点击按钮,选择“行转列”。
转置字段:拖入需要转置的字段。
聚合:拖入字段,可以选择聚合方式。
- 拖入维度字段时,可供选择的聚合方式包括计数和去重计数;
- 拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位;
- 您也可以选择自定义聚合。
行转列效果图示意:
9. 列转行
将表中同一个值对应的多个列,转换为多行数据。点击已有的表,弹出“+”按钮,点击按钮,选择“列转行”。
转置值1:拖入需要转置的字段。
列转行效果图示意:
10. 后续步骤
数据处理完成后,您可以将处理后的数据导出。请参见输出数据。