当前位置: 首页 > 后端技术 > PHP

(1)社区反垃圾文本重复率检测

时间:2023-03-30 01:16:15 PHP

(1)社区反垃圾文本重复率检测前言:随着用户的增长和内容的变迁,总会有一些好心人留下一些您的产品或应用程序中的垃圾。这些垃圾不是传统意义上的垃圾,而是指互联网上的垃圾文字、垃圾邮件、垃圾图片、垃圾媒体信息等。这些东西就像漂浮在水里的垃圾一样,一步步的破坏着产品的水质,所以一个anti-spamsystem(敏感信息和垃圾信息的过滤系统。主要包括:垃圾信息拦截,微博广告过滤、弹幕、直播等场景),本篇博客将一步步实现一个简单的反垃圾系统原型。1.反垃圾邮件流程要进行反垃圾邮件,首先我们需要了解基本的反垃圾邮件流程。2.反垃圾内容检测当我们从服务器上获取到用户发送的内容后,我们需要识别是否是垃圾内容,然后决定是否发布该内容。场景A:BBS论坛评论区经常被用户淹没。剧本内容如下:A:今天写15个字、哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈。B:帅哥加我v帅哥加我v帅哥加我v帅哥加我v帅哥加我v帅哥加我v保护分析:当前文本中,存在大量重复内容信息,达到整串文字的50%,我们可以通过字符重复率来判断是否为低质量或垃圾内容。三、技术实现1.将文本拆解成字符串2.分析字符比例下面是通过PHP代码获取并实现一个文本重复函数getStrRepeatRate($str){$strArr=mb_str_split($str);returnarray_count_values($strArr);}测试文本A:今天写了15个字,哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈效果如下:以上21个字中,“哈”字出现了13次,占全文的61%。我们还可以计算出复合字符重复次数最多的三个词,这三个词占全文的一定比例。它可以被识别为低质量的内容或垃圾系统。尾巴:虽然可能会有一些误伤,但鉴定内容往往是组合拳。只有结合起来,才能发挥出最大的威力。这篇文章暂时就说这么多。快乐编码!