专题－数据仓库技术

如何处理缺失值

日常工作遇到数据缺失的问题，为保证数据质量或者后续使用方便，我们需要对缺失数据进行处理，今天先聊一下字段值的缺失及填充方式。字段缺失指在数据表中数据行存在（主键存在），但是某个字段在某一行或者某些行为null的情况。涉及函数 coalesce() round() avg() lag()/lead() last_value()/first_value() sum() row_number() 1

缺失值处理
admin
2025-12-13
409 热度
0评论

详解开窗函数

1.什么是窗口函数窗口函数（Window functions）又称分析函数或开窗函数，它允许你在不改变原始行的情况下，对一组相关的行（称为“窗口”）进行计算和分析。与普通的聚合函数（如SUM、AVG等）不同，窗口函数不会将多行合并为一行，而是为每一行返回一个计算结果，同时保留原始行的详细信息。通常写法为func()over()，详细语法如下： window_function

开窗函数
admin
2025-12-12
351 热度
0评论

开窗函数-计算每个学生总成绩相差5分以内同学的各科平均成绩

开窗函数
admin
2025-12-12
287 热度
0评论

开窗函数-优雅的计算每个雇员所在部门薪资最高的员工姓名

开窗函数
admin
2025-12-12
258 热度
0评论

开窗函数
admin
2025-12-12
284 热度
0评论

13. [实际案例]-行列转化-拆分有key但是没有分隔符且无序字符串

一、题目当前有以下数据 t_detai， +-----+------------------+ | id | detail | +-----+------------------+ | 1 | A:1,2,3,B:2,3,4 | | 2 | A:3,4 | | 3 | B:1,3 | | 4 | B:1,2,A:2,3,4 | | 5 | | +-----+------------------+

专题
admin
2025-12-09
282 热度
0评论

12.行列互转-横表竖表互相转换的高级写法

一、多行转多列（竖表转横表）原始数据中是一个竖表，每个学生的每个学科一行数据，对其转换成一张横表，即表中学生id为主键，包含语文、数学、英语三列，列值为对应学科分数。 1、基础数据有学生成绩表，包含学生id、学科、成绩 +-------------+----------+--------+ | student_id | subject | score | +-------------+----

专题
admin
2025-12-09
273 热度
0评论

11.sparksql-unpivot子句

unpivot 子句今天给大家带来spark的一个新的知识点，UNPIVOT，这个不是函数，是一个子句。描述 UNPIVOT 子句将多个列转换为多行，用于 SELECT 子句中。UNPIVOT 子句可以在表名或子查询之后指定。语法 UNPIVOT ( { single_value_column_unpivot | multi_v

专题
admin
2025-12-09
263 热度
0评论

10.sparksql-pivot子句

pivot 子句今天给大家带来spark的一个新的知识点，pivot，这个不是函数，是一个子句。描述 PIVOT 子句用于数据透视。我们可以根据特定列的值获取聚合值，这些值将转变成在 SELECT 子句中使用的多个列。PIVOT 子句可以在表名或子查询之后指定。语法 PIVOT ( { aggregate_expression

专题
admin
2025-12-09
284 热度
0评论

09.列转行-lateral view outer posexplode及posexplode_outer多列对应转行

一、基础数据现有骑手id,订单id列表，订单配送距离列表，配送费列表，其中订单id、配送距离、配送费一一对应。 +-----------+---------------------------+----------------------------+-----------------------------+ | rider_id | order_list | distance_list |

专题
admin
2025-12-09
270 热度
0评论