MinHash 与 SimHash:海量文本相似度检测 2025-07-15 | algorithms | #probabilistic #minhash #simhash #lsh #similarity 在数十亿网页中找出近似重复的内容,逐对比较需要天文数字的计算量。MinHash 和 SimHash 用概率方法将复杂度从 O(n^2) 降到近线性。