页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

基本概念:

在介绍这个之前首先要介绍一下,什么叫作弊?

    指用欺骗的手法去做违背制度或规定的事情。

那么反作弊是什么呢?

   就是通过使用某些规则,从而发现并惩罚这种欺骗行为,从而维护环境的公平性。

 

面板

目录结构

目录

广告作弊:

  1. 流量劫持
    1. DNS劫持(客户端请求后,返回服务器前) 又称 域名劫持;例如:你无法访问Google, 它对你的请求进行拦截,让其请求失去响应 或者 返回一个假的IP地址;导致无法请求google服务器。
    2. HTTP劫持(到服务器后,返回客户端前):是指解析URL错误,而引发的重定向行为;例如:一打开浏览器的时候,会对你的页面进行修改,解析错误,然后重定向到其他的页面。
    3. Cookie Stuffing 技术: 就是在某些页面下面,嵌套小的页面窗口,肉眼无法看到。这个解决方案有很多。
  2. 刷单 (机器行为/人工行为
    1. 刷销量
    2. 刷评价
    3. 刷排名
  3. 作弊工具
    1. 挂站软件: 使用浏览器内核,全国多人安装互刷每天每个人制造上千次虚假PV,可以伪造大流量。 例如流量宝、流量精灵、e流量、流量通、天和流量等等。
    2. 恶意插件:安装在浏览器中,在用户浏览网页时,暗弹广告(用户看到不,但被访问网址记录一次访问)
    3. 人工干预:通过人工手段对广告反复点击、app激活、安装等操作行为。
  4. 结语:其实无论什么形式的作弊,最后损失最大的永远都是为流量买单的“广告主“。

 

从上图可以看出,流量多的二跳率却很低;用户数接近流量的一半二跳却为0,看数据就知道这绝对有问题,所以这时候就需要考虑是不是有作弊行为、刷量了。
当然除了二跳率这些指标外,异常表现还包括广告来源异常;曝光、点击频次异常; 曝光、点击IP/地域集中; 用户平均曝光量、点击量过大;曝光、点击的UA分布异常;数据时段分布异常;到达率、转化率异常等等。

 

分析方案(异常检测):

离群点检测类型

全局离群点

对于整理的流量渠道而言,有作弊比例为:0%/100%的渠道,区分度很高,有必要拿出来观察分析一下。

情境离群点

对于双11或者618,数据波动也许会比较异常,所以对于这种情况下的异常检测,我们的区分:购物时间和购物商城

集体离群点

对于所有流量渠道而言,例如:少部分的流量渠道作弊比例,假设集中在30%,突然今天有局部的流量渠道增长到60%、而大数据都30%左右波动;

这少部分的流量渠道之间,看上去是正常的,但对于整体的变化趋势而言,他们是明显有问题的。

离群点检测面临的挑战

1.正常对象和离群点的有效建模
2.针对应用的离群点检测
3.在离群点检测中处理噪音
4.可理解性

离群点检测方法

1.监督/半监督/无监督方法

2.统计方法、基于紧邻性的方法 和 基于聚类的方法

具体如下:

1.统计: 正太/箱线图
2.近邻: 基于 距离、网格、密度
3.聚类: 聚类法
4.分类: 半监督的分类器(SVM)