俊豪

@suntyan

俊豪 暂无简介

所有 个人的 我参与的
Forks 暂停/关闭的

    俊豪/Gwenson-robot爬虫机器人

    这是一个使用JAVA语言开发的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8

搜索帮助