MinHash 项目fork自https://github.com/chrisjmccormick/MinHash runMinHash.py是参照原算法重写的 组织成一个单独的类,适配python3。
直接运行:python runMinHash.py 即可快速看到效果。
目前测试效果,对于短文本效果不稳定,建议调低阈值使用。
测试效果如下:
我们在这类非常开心 --> 我们在这里非常开心 Minhash相似度: 0.36 Jacade距离: 0.40
我们在这类非常开心 --> 如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00
我们在这类非常开心 --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00
我们在这里非常开心 --> 如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00
我们在这里非常开心 --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00
如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.80 Jacade距离: 0.68