登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
场景题:有40亿个QQ号如何去重?仅1GB内存 ...
场景题:有40亿个QQ号如何去重?仅1GB内存
[ 复制链接 ]
滕佩杉
2025-6-1 21:26:39
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
场景题也有一些套路可以考虑,比如去重、判断给定数据是否存在
1.大数据去重
1.1 现在有40亿个QQ号如何去重?仅1GB内存
参考链接:https://juejin.cn/post/7396332696660131849
介绍2种方法:Bitmap和布隆过滤器
方法一:Bitmap
首先介绍下什么是位图Bitmap
位图是使用bit数组表示的,它只存储0或者1,因此我们可以把全部的QQ号放到位图中,当index位置为1时表示该索引位的QQ号已经存在。
数据规模分析+可行性分析
QQ号是32位的无符号整型数据,整型数据范围是[-2^31, 2^31-1],总计数据量有43亿,可以覆盖40亿的QQ号。直接存储40亿QQ号,需要的空间为40亿 * 4字节 = 14.9GB,超过1GB了。
使用Bitmap来存储,每个QQ号仅占1位,比如:QQ号23333,只需要判断Bitmap的索引位23333是否为1,为1表示数据已经存在,就能判断是否重复了。所需要内存空间: 2 ^ 32 * 1bit / 8 = 512MB
实现步骤
直接用java自带的Bitset来实现代码,假设QQ号都在整型范围内
[code]//初始化长度为2 ^ 32位的位数组BitSet bitmap = new BitSet(1L
场景
40亿个
QQ
号如
何去
相关帖子
Apollo场景建议配置指南:充分发挥分布式配置中心优势
算力赋能场景:RK主板的技术演进与行业应用全景
Laravel 乐观锁:高并发场景下的性能优化利器
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
Electron.js 详解、应用场景及完整案例
关于renpy游戏小范围QQ群内部测试的一个思路
假如有10亿QQ号如何去重?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Apollo场景建议配置指南:充分发挥分布式配置中心优势
2
254
郁兰娜
2025-11-07
安全
算力赋能场景:RK主板的技术演进与行业应用全景
2
329
兮督
2025-11-13
业界
Laravel 乐观锁:高并发场景下的性能优化利器
1
253
丧血槌
2025-11-25
安全
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
1
498
澹台忆然
2025-11-30
安全
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
1
368
亢安芙
2025-12-02
安全
Electron.js 详解、应用场景及完整案例
3
714
甘子萱
2025-12-08
安全
关于renpy游戏小范围QQ群内部测试的一个思路
1
235
垢峒
2025-12-13
业界
假如有10亿QQ号如何去重?
0
813
颛孙中
2025-12-15
回复
(6)
肿圬后
2025-10-15 13:55:36
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
姚望舒
2025-10-31 14:10:30
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
轨项尺
2025-11-24 01:49:33
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个有用。
崔瑜然
2025-11-26 14:52:57
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
归筠溪
2025-12-1 12:00:56
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
阕阵闲
6 天前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,辛苦了
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
滕佩杉
6 天前
关注
0
粉丝关注
17
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9998
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
246
RSA加密
316
pydash原型链污染
176
大模型榜单周报(2025/12/08—2025/12/12)
849
当你不再迷信“最强模型”,系统设计才刚刚
876
软件i2c
301
2025年专业起名老师联系方式汇总:全国资深
652
解码IP协议号:网络世界的“货物运单”
712
Python Selenium 漫步指南:从入门到精通
643
AI 付费模式终极对比:ChatGPT、Gemini、Cl
838
JSAPIThree 加载 3D Tiles 学习笔记:大规
358
LLM 工具调用的范式演进与认知模型集成
355
Requirements Engineering with AI for Con
343
【节点】[Adjustment-WhiteBalance节点]原
303
上海专业建筑维修服务解析:标准化流程如何
947
【分析式AI】-带你弄懂XGBoost模型
731
【分析式AI】-带你弄懂XGBoost模型
53
【分析式AI】-带你弄懂XGBoost模型
274
C语言之统计天数
241
如何使用DashVector的多向量检索
272
【分析式AI】-朴素贝叶斯算法模型