Skip to content

Example Python code for comparing documents using MinHash

License

Notifications You must be signed in to change notification settings

liwenju0/MinHash

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MinHash 项目fork自https://github.com/chrisjmccormick/MinHash runMinHash.py是参照原算法重写的 组织成一个单独的类,适配python3。

直接运行:python runMinHash.py 即可快速看到效果。

目前测试效果,对于短文本效果不稳定,建议调低阈值使用。

测试效果如下:

我们在这类非常开心 --> 我们在这里非常开心 Minhash相似度: 0.36 Jacade距离: 0.40

我们在这类非常开心 --> 如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00

我们在这类非常开心 --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00

我们在这里非常开心 --> 如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00

我们在这里非常开心 --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.00 Jacade距离: 0.00

如果记忆能被定格,你的高中会是怎样的一幅画?高考开始,愿你全力以赴大胜归来! --> 如果记忆能被定格,你的高中会是怎样的?高考开始,全力以赴大胜归来! Minhash相似度: 0.80 Jacade距离: 0.68

About

Example Python code for comparing documents using MinHash

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%