以论坛中的反垃圾信息为例, 从具体策略上说说自己的看法。

1.对每一个帐号都设定打分项,主要从帐号发布的内容、帐号的行为、与帐号的关联因素三方面考虑。
内容因素:
首先,垃圾帐号发布的内容多半会提供一个外站的链接或者手机、QQ号。因此一个帐号连续多次发布的信息中如果有重复的链接/数字出现,他有极高的可能性是一个垃圾帐号。
其次,每个论坛都会有自己的敏感词库,如果不是那种最ugly的敏感词库,至少应该会有三层级别:
a.直接删除内容并禁言帐号;
b.需要对内容做先审后发的处理同时监控帐号其他发布的内容;
c.内容可以先发后审,帐号不作处理。
对于前两种情况,垃圾信息能造成的危害被降到了最低。第三种情况,就需要结合其他因素一起来判断。

行为因素:
这里举一个例子来说,垃圾帐号因为是趋利,所以在行为上一定会异于普通的正常用户。比如在论坛上它会一直不停地发帖,而正常用户都是看帖多发帖少。这就给我们提供一个参考。通过post数量和浏览的url数量比值我们就能找到垃圾帐号和正常帐号的差异。

其他的关联因素:
看到之前的回答中有提到不少,这里补充一个:帐号所使用的主机id。垃圾帐号通常是批量注册的,因此一个垃圾账号背后来自同一个ip、同一个主机的其他帐号往往也都是垃圾帐号。但是这里提出一点:不要轻易封掉ip或主机,一方面是会有误伤,另一方面这种简单的封杀做法会让你的反垃圾体系变成马其诺防线,一旦被突破,只会抬高你的反垃圾成本。

2.基于上述三方面的考虑后,我们已经拥有评估垃圾帐号可能性的几个因素了,基于三个因素对帐号做评估。可以使用一些比较智能的算法,比如贝叶斯公式,但这需要你能准确地统计出垃圾帐号中各个因素的占比系数,这个模型一旦建立起来,整个反垃圾系统需要通过不断地机器学习来对系数做调整,才可能应对垃圾帐号即时的变化。
当然,你可以有比较简单的做法,只要某个帐号具备了其中的若干因素,就可以怀疑它是垃圾帐号了。接下来就看是否需要借助人为的监控行为做进一步识别了。

3.验证码和反垃圾策略的关系
必须明确的一点是:验证码本身只能用来防住机器人,防不住人,更何况破解技术层出不穷,实际上抵挡机器人的效果也不完全能让人满意。即使你对自己的验证码有把握,那么你也许能挡得住一部分机器人,但并不能把所有垃圾帐号都防住。
所以验证码实际上只能算抵挡垃圾信息的第一道防线,在验证码之后,一定要有合理的反垃圾策略。

4.反垃圾工作的确是一项长期的工作
理论上来说,当垃圾信息的发布成本高于所能得到的收获时,垃圾信息会减少,这些发布垃圾信息的人也会选择离开,转而寻找其他的社区。但事实上,垃圾信息行为与反垃圾行为永远都是一场你来我往的战斗,随时注意网站的数据变化,及时找到典型的垃圾模型。才能巩固已有的战果。

目录结构

转载地址

作者:裴立(Pz)
链接:https://www.zhihu.com/question/20103086/answer/14100454
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

 


 


Contributor片刻

网站地址: www.apache.wiki

ApacheCN【技术属于世界、欢迎转载传播】