spark_南奥网

SQL 如何实现用户分群分析？

技术⋅ 01-26 ⋅ 1140 阅读

基础分群用GROUPBY+聚合函数，需确保SELECT中非聚合字段全在GROUPBY中；动态分位用NTILE或PERCENT_RANK；复杂逻辑宜用CTE分步处理；避免COUNT(DISTINCT)性能瓶颈。

SQL 分析查询为何比业务查询更复杂？

技术⋅ 01-26 ⋅ 195 阅读

分析查询性能差的核心原因是其需全量扫描、索引失效、宽表多维分析、大结果集、复杂算子、统计信息不准、数据倾斜等多重因素叠加，远超业务查询的简单点查场景。

SQL JOIN 中 NULL 值如何参与匹配？

技术⋅ 01-26 ⋅ 161 阅读

NULL在ON条件中永不匹配，因其比较结果为UNKNOWN而JOIN只认TRUE；需用COALESCE、CASE或NULL安全操作符（如、ISNOTDISTINCTFROM）显式处理。

如何在 PySpark 中安全拼接两个可能为 NULL 的数组列

技术⋅ 01-25 ⋅ 758 阅读

本文介绍如何使用PySpark正确拼接两个类型为array的列，当其中一列为NULL时避免整列结果变为NULL，核心方案是用array()函数提供空数组默认值，而非空字符串。

如何在 PySpark 中安全拼接包含 NULL 值的数组列（如 array）

技术⋅ 01-25 ⋅ 456 阅读

本文详解如何使用array()函数替代空字符串字面量，正确实现两个array类型列的拼接，避免因NULL值导致整列结果为NULL的问题。

SQL 如何准确统计去重用户数？

技术⋅ 01-25 ⋅ 468 阅读

COUNT(DISTINCTuser_id)不准主因是NULL、空字符串、脏ID及跨系统ID格式不一致；需先过滤异常值并归一化，JOIN去重应前置子查询，时间窗口统计须用分区字段或左闭右开避免漏人。

SQL 窗口函数在金融风控中的应用

技术⋅ 01-25 ⋅ 347 阅读

用ROW_NUMBER()按user_id分组排序标记最近三笔逾期订单，结合LAG()计算设备申请间隔识别黑产，滚动统计宜用ROWS而非RANGE避免稀疏数据偏差，Hive/Spark有版本和语法限制需适配。

PySpark 中实现累积滞后递归计算（如复利式列更新）

技术⋅ 01-21 ⋅ 1721 阅读

本文介绍如何在PySpark中高效实现基于前一行结果的累积递归计算（如Aₙ=Aₙ₋₁(1+Bₙ₋₁/100)），规避lag的非递归限制，通过预提取系数列表+UDF+行号索引完成近似“状态传递”，适用于大数据量下的复利、衰减、滚动调整等场景。

SQL 宽表与窄表的取舍

技术⋅ 01-21 ⋅ 67 阅读

宽表适合查询性能要求高、分析维度固定的场景，如即席分析和BI报表，因避免多表JOIN、提升响应速度且适配列存数据库；但字段过多会增加写入耗时、浪费存储并限制扩展性。

NVIDIA初代超级PC芯片已整合5070级核显 27年推N2/N2X升级

新闻⋅ 01-21 ⋅ 369 阅读

1月20日快讯，NVIDIA长期布局个人计算领域，于2025年正式发布重磅PC处理器N1X，被业内称为“核弹级”新品。其集成显卡规模对标桌面级RTX5070，纸面参数极为亮眼。该芯片与DGXSpark平台所用GB10芯片高度同源，CPU采用20核ARM架构设计，由10颗Cortex-X925高性能核...

与“spark”相关的TAG标签