如何在未知总量的数据流中公平地随机抽取样本?蓄水池抽样算法给出了完美的答案。
问题背景在大数据时代,我们经常面临这样的挑战:需要从一个规模未知或极大的数据集中随机抽取少量样本。比如:
从数十GB的日志文件中随机选取1万条记录进行分析
2025-11-20