登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填 ...
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填充
[ 复制链接 ]
返噗掖
2025-6-2 23:27:51
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 5 篇,也是【SQL 周周练】系列的第 4 篇。该系列是挑选或自创具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用
Streamlit
实现 Hive 元数据展示、SQL 编辑器、 结合Docker 沙箱实现数据分析 Agent
2.时间序列异常识别、异动归因算法
3.留存率拟合、预测、建模
4.学习 AB 实验、复杂实验设计等
5.自动化机器学习、自动化特征工程
6.因果推断学习
7. ……
欢迎关注
,一起学习。
第 4 期题目
题目来源:自创题目,曾经在工作中遇到过该问题
一、题目介绍
公司市场部找到一些达人在抖音、快手等平台进行短视频营销,需要监测视频的点赞量。公司内有一位专职的爬虫工程师,他的项目也很多。因此很难对该项目爬虫数据提供高质量的维护,会出现一些字段缺失的情况。
我们将问题简化,有一张表记录了爬虫抓取的短视频点赞量数据,其中部分日期的点赞量是缺失的。请你利用 SQL 将这些数据补齐,即“插值”。
列名数据类型注释video_idstring短视频iddtstring日期likes_numint点赞量(用来对比结果,不要直接用)show_likes_numint展示点赞量(用来补全数据)用 SQL 实现几种比较简单的插值方法,复杂的方法可以利用 Hive 中的 transform 函数调用 Python 脚本来实现(后面哪期会根据这个点水一篇文章)
本文实现的简单补全方法有:
1.前向填充,使用前面最近的一个非空值来填充
2.后向填充,使用后面最近的一个非空值来填充
3.相邻的平均数填充,使用前后最近的非空值,取两个数的平均数填充
4.相邻的分位数填充,使用前后最近的非空值,缺失值根据分位数来填充
额外说明:这四种方法都依赖于缺失值邻近的前后非空值,需要存在这样的非空值。
如果该非空值不存在,比如短视频第一天发布就没有爬取到点赞量 —— 这样没有办法,找到它之前的非空点赞量。我本文的处理方法是将它“视为”前一天发布,或者说增加一个前一条点赞量为零的数据(还有其他的处理方法,我这里只提出一种)。
这条增加的数据不需要显式存在,只不过是在数据处理时兜底的逻辑等效于它。而如果短视频缺少的是最后几天的数据,比如某一天开始后面一直缺失数据,这样就将最后一个有数据的点赞量“顺延”下去。这 4 种填充方法,都用这样的逻辑兜底。
二、题目思路
想要答题的同学,可以先思考答案
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
SQL
周周练
爬取
视频
发现
相关帖子
Oracle AI:使用SQL来实现融合检索和整个RAG流程
2025年11月份博文汇总与视频
工作中实战sql命令集合
小说/漫画/听书/视频四合一源码
SQL中的CTE用法初步(Common Table Expression公共表表达式)
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
sql server 事务日志备份异常恢复案例---惜分飞
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
软件逆向加密视频专用播放器是如何检测到用户在录像
Oracle性能诊断与SQL优化:从9i到19c的技术演进与实践
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
Oracle AI:使用SQL来实现融合检索和整个RAG流程
2
949
缢闸
2025-12-01
科技
2025年11月份博文汇总与视频
1
414
盒礁泅
2025-12-01
安全
工作中实战sql命令集合
1
585
呵桢
2025-12-03
程序
小说/漫画/听书/视频四合一源码
1
49
新程序
2025-12-04
业界
SQL中的CTE用法初步(Common Table Expression公共表表达式)
1
638
尸酒岐
2025-12-05
业界
开源神器!我用YOLOv8+FastAPI打造了一个视频关键帧提取工具,3秒处理30秒视频
1
61
井晶灵
2025-12-10
安全
sql server 事务日志备份异常恢复案例---惜分飞
0
483
莅耸
2025-12-12
业界
短视频 / 图片不够清?SeedVR2.5 超分操作指南,一键拉满画质
2
947
焦听云
2025-12-12
业界
软件逆向加密视频专用播放器是如何检测到用户在录像
0
931
删一
2025-12-14
安全
Oracle性能诊断与SQL优化:从9i到19c的技术演进与实践
0
492
官厌
2025-12-18
回复
(7)
史华乐
2025-10-14 01:49:21
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
材部
2025-10-14 17:16:25
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
羊舌正清
2025-11-2 17:02:15
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
史穹逊
2025-11-15 07:12:48
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
喳谍
2025-11-20 00:57:46
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
泡市
2025-11-23 16:24:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,辛苦了
左丘纨
2025-12-10 23:12:52
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
返噗掖
2025-12-10 23:12:52
关注
0
粉丝关注
13
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994891
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9982
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
1002
Kali2025.4+Cherry Studio一键配置HexStrik
414
PHP 之高级面向对象编程 深入理解设计模式
411
PHP 之高级面向对象编程 深入理解设计模式
568
升级curl版本,及升级后引起的动态库链接不
292
2025年GEO优化服务商全景对比:五大核心维
779
AI Agent详解
983
Buildah 简明教程:让镜像构建更轻量,告别
609
OceanBase 在滴滴大规模运维经验以及新功能
975
[CSS+]HTML Learn Data Day 2
96
掌握相关性分析:读懂数据间的“悄悄话”
138
嵌入式UI框架-抗锯齿画圆弧算法
935
嵌入式UI框架的渐变原理、渐变算法
219
日本股票 API 对接实战指南(实时行情与 IP
562
解决Docker磁盘空间告急:认识并清理“悬空
394
别再只会算直线距离了!用“马氏距离”揪出
530
企业进行信息化后,一定会提高效率吗?真相
516
n8n整合ffmpeg
492
从random随机数看验证码重复数字
525
OceanBase 向量索引优化指南
233
Vue2中能否实现输入中文自动转化为拼音, 且