登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
场景题:有40亿个QQ号如何去重?仅1GB内存 ...
场景题:有40亿个QQ号如何去重?仅1GB内存
[ 复制链接 ]
滕佩杉
2025-6-1 21:26:39
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
场景题也有一些套路可以考虑,比如去重、判断给定数据是否存在
1.大数据去重
1.1 现在有40亿个QQ号如何去重?仅1GB内存
参考链接:https://juejin.cn/post/7396332696660131849
介绍2种方法:Bitmap和布隆过滤器
方法一:Bitmap
首先介绍下什么是位图Bitmap
位图是使用bit数组表示的,它只存储0或者1,因此我们可以把全部的QQ号放到位图中,当index位置为1时表示该索引位的QQ号已经存在。
数据规模分析+可行性分析
QQ号是32位的无符号整型数据,整型数据范围是[-2^31, 2^31-1],总计数据量有43亿,可以覆盖40亿的QQ号。直接存储40亿QQ号,需要的空间为40亿 * 4字节 = 14.9GB,超过1GB了。
使用Bitmap来存储,每个QQ号仅占1位,比如:QQ号23333,只需要判断Bitmap的索引位23333是否为1,为1表示数据已经存在,就能判断是否重复了。所需要内存空间: 2 ^ 32 * 1bit / 8 = 512MB
实现步骤
直接用java自带的Bitset来实现代码,假设QQ号都在整型范围内
[code]//初始化长度为2 ^ 32位的位数组BitSet bitmap = new BitSet(1L
场景
40亿个
QQ
号如
何去
相关帖子
Apollo场景建议配置指南:充分发挥分布式配置中心优势
算力赋能场景:RK主板的技术演进与行业应用全景
Laravel 乐观锁:高并发场景下的性能优化利器
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
Electron.js 详解、应用场景及完整案例
关于renpy游戏小范围QQ群内部测试的一个思路
假如有10亿QQ号如何去重?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Apollo场景建议配置指南:充分发挥分布式配置中心优势
2
254
郁兰娜
2025-11-07
安全
算力赋能场景:RK主板的技术演进与行业应用全景
2
329
兮督
2025-11-13
业界
Laravel 乐观锁:高并发场景下的性能优化利器
1
253
丧血槌
2025-11-25
安全
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
1
498
澹台忆然
2025-11-30
安全
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
1
368
亢安芙
2025-12-02
安全
Electron.js 详解、应用场景及完整案例
3
714
甘子萱
2025-12-08
安全
关于renpy游戏小范围QQ群内部测试的一个思路
1
236
垢峒
2025-12-13
业界
假如有10亿QQ号如何去重?
0
819
颛孙中
2025-12-15
回复
(6)
肿圬后
2025-10-15 13:55:36
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
姚望舒
2025-10-31 14:10:30
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
轨项尺
2025-11-24 01:49:33
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个有用。
崔瑜然
2025-11-26 14:52:57
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
热心回复!
归筠溪
2025-12-1 12:00:56
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
阕阵闲
7 天前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,辛苦了
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
滕佩杉
7 天前
关注
0
粉丝关注
17
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
362
Avalonia源码解读:Grid(网格控件)
236
研究 TikTok 爆款的人,一定要懂这类下载工
956
Java Optional 完全指南:优雅处理 null 的
23
全面封禁 Cursor!又一家大厂出手了
877
记一次MySQL binlog日志导致磁盘空间占满的
776
记一次MySQL binlog日志导致磁盘空间占满的
876
小白也能看懂的RLHF-PPO:原理篇
301
小白也能看懂的RLHF-PPO:原理篇
277
2026年主流原型设计工具:Axure、墨刀功能
67
邮箱怎么群发邮件给多个人
588
27个行业创新实践一次看|HarmonyOS SDK案
143
秋的启迪
781
秋的启迪
499
不止编程!Claude Code 跨界应用指南:5 大
21
VictoriaMetrics 尝鲜
965
高频OTA时代,如何用SIL测试兼顾软件可靠性
868
ROS2概念之分布式通信
707
通过.ovf和.vmdk导入VMware虚拟机
620
酷狗音乐api接口抓取 | 音乐管理系统
652
吴恩达深度学习课程四:计算机视觉 第二周