如何处理缺失值

日常工作遇到数据缺失的问题,为保证数据质量或者后续使用方便,我们需要对缺失数据进行处理,今天先聊一下字段值的缺失及填充方式。 字段缺失指在数据表中数据行存在(主键存在),但是某个字段在某一行或者某些行为null的情况。 涉及函数 coalesce() round() avg() lag()/lead() last_value()/first_value() sum() row_number() 1

详解开窗函数

1.什么是窗口函数 窗口函数(Window functions)又称分析函数或开窗函数,它允许你在不改变原始行的情况下,对一组相关的行(称为“窗口”)进行计算和分析。与普通的聚合函数(如SUM、AVG等)不同,窗口函数不会将多行合并为一行,而是为每一行返回一个计算结果,同时保留原始行的详细信息。通常写法为func()over(),详细语法如下: window_function

开窗函数 spark sql实现累加、累积计数、累乘

前面对开窗函数做了基础知识介绍,今天我们对其应用做详细介绍。通过开窗函数实现累积求和(累加),累积计数,累乘(累积相乘)。有一定难度,建议先思考然后再阅读 1.样例数据 +-----+-----------+---------+-------------+ | id | group_id | amount | c_date | +-----+-----------+---------+------

12.行列互转-横表竖表互相转换的高级写法

一、多行转多列(竖表转横表) 原始数据中是一个竖表,每个学生的每个学科一行数据,对其转换成一张横表,即表中学生id为主键,包含语文、数学、英语三列,列值为对应学科分数。 1、基础数据 有学生成绩表,包含学生id、学科、成绩 +-------------+----------+--------+ | student_id | subject | score | +-------------+----

11.sparksql-unpivot子句

unpivot 子句 今天给大家带来spark的一个新的知识点,UNPIVOT,这个不是函数,是一个子句。 描述 UNPIVOT 子句将多个列转换为多行,用于 SELECT 子句中。UNPIVOT 子句可以在表名或子查询之后指定。 语法 UNPIVOT ( { single_value_column_unpivot | multi_v

10.sparksql-pivot子句

pivot 子句 今天给大家带来spark的一个新的知识点,pivot,这个不是函数,是一个子句。 描述 PIVOT 子句用于数据透视。我们可以根据特定列的值获取聚合值,这些值将转变成在 SELECT 子句中使用的多个列。PIVOT 子句可以在表名或子查询之后指定。 语法 PIVOT ( { aggregate_expression