喜迎
春节
加权随机算法:按权重控制的概率选择机制
加权随机算法:按权重控制的概率选择机制
如何让稀有物品掉落率低、普通物品掉落率高?加权随机算法提供了完美的概率控制方案。 问题背景在很多应用场景中,我们需要按照预设的概率分布来进行随机选择,而不是简单的均匀随机: 游戏开发:稀有装备1%概率,普通装备50%概率 推荐系统:热
2025-11-20
蓄水池抽样算法:从大数据流中随机取样的优雅解决方案
蓄水池抽样算法:从大数据流中随机取样的优雅解决方案
如何在未知总量的数据流中公平地随机抽取样本?蓄水池抽样算法给出了完美的答案。 问题背景在大数据时代,我们经常面临这样的挑战:需要从一个规模未知或极大的数据集中随机抽取少量样本。比如: 从数十GB的日志文件中随机选取1万条记录进行分析
2025-11-20
Parquet 数据格式
Parquet 数据格式
1. Parquet 是什么?Apache Parquet 是一种开源的、列式存储的、为大规模数据分析而设计的文件格式。 它与我们熟悉的 CSV、JSON 等行式存储格式有根本性的不同。让我们通过一个比喻来理解: 行式存储(如 CSV、J
2025-10-16
字典编码和游程编码
字典编码和游程编码
字典编码和游程编码这两种都是非常经典和常用的无损数据压缩技术。 1. 字典编码核心思想字典编码的基本思想是:用一种较短的“代码”来替换数据中频繁出现的、较长的“短语”。这些“短语”和其对应的“代码”被存储在一个“字典”中。 压缩时:扫描
数据压缩技术
数据压缩技术
数据压缩是计算机科学和信息技术中的一个基础且重要的领域,它关乎如何更高效地存储和传输数据。 一、 核心概念:什么是数据压缩?数据压缩是指通过特定的算法和编码技术,减少原始数据所占用的存储空间或传输带宽的过程。其核心思想是消除数据中的冗余信息
AI时代:一场静默却彻底的文明跃迁——从工具革命到认知革命
AI时代:一场静默却彻底的文明跃迁——从工具革命到认知革命
引言:当机器开始“思考”,我们如何重新定义“人类”?18世纪蒸汽机的轰鸣,开启了人类对“体力”的规模化替代;20世纪计算机的诞生,推动了“脑力”的数字化延伸;而21世纪AI的爆发,则是一场对“认知”的革命性重构。与前三次工业革命不同,AI不
2025-07-01
Logjam攻击:加密协议中的数学漏洞与防御之道
Logjam攻击:加密协议中的数学漏洞与防御之道
一、Logjam攻击概述Logjam攻击是由国际密码学研究团队于2015年公布的针对Diffie-Hellman密钥交换协议的重大安全漏洞(CVE-2015-4000)。该攻击通过数学手段将1024位DH密钥交换的安全性降低至可被普通计算机
2025-06-30
Shor算法:量子计算颠覆密码学的数学利器
Shor算法:量子计算颠覆密码学的数学利器
一、Shor算法概述Shor算法是由Peter Shor于1994年提出的一种量子计算算法,能够在多项式时间内对大整数进行质因数分解。这一算法的诞生彻底改变了密码学界对安全性的认知——它可直接破解RSA、ECC等现代公钥密码体系的基础数学难
2025-06-30
后量子密码学:量子计算时代的加密革命
后量子密码学:量子计算时代的加密革命
一、后量子密码学概述后量子密码学(Post-Quantum Cryptography,PQC)是应对量子计算威胁的新型密码学分支,旨在设计能抵抗量子计算机攻击的加密算法。随着Shor算法(1994年提出)和Grover算法的出现,传统RSA
2025-06-30
字典匹配技术全面解析:原理、应用与实践
字典匹配技术全面解析:原理、应用与实践
一、字典匹配的概念与本质字典匹配(Dictionary Matching)是一种在文本中查找特定词汇集合(字典)出现位置的技术。从本质上讲,它是字符串搜索问题的特例,将搜索目标从单个模式扩展到多个预定义的模式集合。 核心特征: 预定义词汇
2025-06-30
2 / 25