登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填 ...
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填充
[ 复制链接 ]
返噗掖
2025-6-2 23:27:51
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 5 篇,也是【SQL 周周练】系列的第 4 篇。该系列是挑选或自创具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用
Streamlit
实现 Hive 元数据展示、SQL 编辑器、 结合Docker 沙箱实现数据分析 Agent
2.时间序列异常识别、异动归因算法
3.留存率拟合、预测、建模
4.学习 AB 实验、复杂实验设计等
5.自动化机器学习、自动化特征工程
6.因果推断学习
7. ……
欢迎关注
,一起学习。
第 4 期题目
题目来源:自创题目,曾经在工作中遇到过该问题
一、题目介绍
公司市场部找到一些达人在抖音、快手等平台进行短视频营销,需要监测视频的点赞量。公司内有一位专职的爬虫工程师,他的项目也很多。因此很难对该项目爬虫数据提供高质量的维护,会出现一些字段缺失的情况。
我们将问题简化,有一张表记录了爬虫抓取的短视频点赞量数据,其中部分日期的点赞量是缺失的。请你利用 SQL 将这些数据补齐,即“插值”。
列名数据类型注释video_idstring短视频iddtstring日期likes_numint点赞量(用来对比结果,不要直接用)show_likes_numint展示点赞量(用来补全数据)用 SQL 实现几种比较简单的插值方法,复杂的方法可以利用 Hive 中的 transform 函数调用 Python 脚本来实现(后面哪期会根据这个点水一篇文章)
本文实现的简单补全方法有:
1.前向填充,使用前面最近的一个非空值来填充
2.后向填充,使用后面最近的一个非空值来填充
3.相邻的平均数填充,使用前后最近的非空值,取两个数的平均数填充
4.相邻的分位数填充,使用前后最近的非空值,缺失值根据分位数来填充
额外说明:这四种方法都依赖于缺失值邻近的前后非空值,需要存在这样的非空值。
如果该非空值不存在,比如短视频第一天发布就没有爬取到点赞量 —— 这样没有办法,找到它之前的非空点赞量。我本文的处理方法是将它“视为”前一天发布,或者说增加一个前一条点赞量为零的数据(还有其他的处理方法,我这里只提出一种)。
这条增加的数据不需要显式存在,只不过是在数据处理时兜底的逻辑等效于它。而如果短视频缺少的是最后几天的数据,比如某一天开始后面一直缺失数据,这样就将最后一个有数据的点赞量“顺延”下去。这 4 种填充方法,都用这样的逻辑兜底。
二、题目思路
想要答题的同学,可以先思考答案
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
SQL
周周练
爬取
视频
发现
相关帖子
Oracle AI:使用SQL来实现融合检索和整个RAG流程
2025年11月份博文汇总与视频
工作中实战sql命令集合
小说/漫画/听书/视频四合一源码
SQL中的CTE用法初步(Common Table Expression公共表表达式)
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
sql server 事务日志备份异常恢复案例---惜分飞
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
软件逆向加密视频专用播放器是如何检测到用户在录像
Oracle性能诊断与SQL优化:从9i到19c的技术演进与实践
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
Oracle AI:使用SQL来实现融合检索和整个RAG流程
2
949
缢闸
2025-12-01
科技
2025年11月份博文汇总与视频
1
416
盒礁泅
2025-12-01
安全
工作中实战sql命令集合
1
586
呵桢
2025-12-03
程序
小说/漫画/听书/视频四合一源码
1
52
新程序
2025-12-04
业界
SQL中的CTE用法初步(Common Table Expression公共表表达式)
1
638
尸酒岐
2025-12-05
业界
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
1
65
井晶灵
2025-12-10
安全
sql server 事务日志备份异常恢复案例---惜分飞
0
484
莅耸
2025-12-12
业界
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
2
947
焦听云
2025-12-12
业界
软件逆向加密视频专用播放器是如何检测到用户在录像
1
932
删一
2025-12-14
安全
Oracle性能诊断与SQL优化:从9i到19c的技术演进与实践
0
495
官厌
2025-12-18
回复
(7)
史华乐
2025-10-14 01:49:21
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
材部
2025-10-14 17:16:25
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
羊舌正清
2025-11-2 17:02:15
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
史穹逊
2025-11-15 07:12:48
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
鼓励转贴优秀软件安全工具和文档!
喳谍
2025-11-20 00:57:46
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
泡市
2025-11-23 16:24:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,辛苦了
左丘纨
2025-12-10 23:12:52
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
返噗掖
2025-12-10 23:12:52
关注
0
粉丝关注
13
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9981
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9950
查看更多
今日好文热榜
490
【有手就行】SWIFT:花20分钟把大模型的名
559
论文速读记录 | 2025.12(2)
371
浮点数的本质:为什么计算机无法精确表示0.
726
Flink源码阅读:如何生成JobGraph
926
Python 潮流周刊#132:30 年 Python 自由职
480
大模型榜单周报(2025/12/20)
154
【节点】[LinearToGammaSpaceExact节点]原
789
Aspire 与 Azure Functions 深度集成:架构
1002
阿里Z-Image图像生成模型容器部署
309
痞子衡嵌入式:16MB以上NOR Flash地址模式
668
最新AI换脸软件,全面升级可直播,Mirage下
450
热点 Key 与大 Key 治理——识别、拆分、预
646
Media Extended
329
vlookup的终结者splookup,9个案例讲透查询
872
ROS2之Launch介绍
894
精选 8 个 .NET 开发实用的类库,效率提升
109
精选 8 个 .NET 开发实用的类库,效率提升
598
精选 8 个 .NET 开发实用的类库,效率提升
172
精选 8 个 .NET 开发实用的类库,效率提升
119
精选 8 个 .NET 开发实用的类库,效率提升