2014-5-9 22:08:07 阅读258 评论0 92014/05 May9
2013-10-23 22:19:47 阅读317 评论0 232013/10 Oct23
本算法是《利用余弦相似度对大量文章排重》的升级版本,转载请注明出处。
概念定义:
关键词重合度:
文章a的关键词集为A,文章b的关键词集为B,文章a与b的关键词重合度为:COUNT(A交B)/COUNT(A)
假分页文章:
将多篇相关文章糅合在一起作为一篇新文章
一、通过关键词选出相关文章
1、将最近10天的所有有效文章,根据长度,按1%的比例提取7-20关键词保存(100个字提取1个词,不足7个取7个,超过20个取20个)