页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

许多统计问题需要在某个时候估计人口的协方差矩阵,这可以被看作是数据集散布图形状的估计。大多数情况下,这样的估计必须对其性质(尺寸,结构,均匀性)对估计质量有很大影响的样本进行。该 sklearn.covariance包的目的是提供工具下的各种设置,得到一个群体的协方差矩阵的准确估计。

我们假设观察是独立的,相同分布的(iid)。

 

经验协方差 

已知数据集的协方差矩阵与经典最大似然估计器(或“经验协方差”)很好地近似,条件是与特征数量(描述观测值的变量)相比,观测数量足够大。更准确地说,样本的最大似然估计是相应的群体协方差矩阵的无偏估计。

样本的经验协方差矩阵可以使用empirical_covariance包的函数计算 ,或者通过EmpiricalCovariance使用EmpiricalCovariance.fit方法将对象与数据样本 拟合 。要注意,取决于数据是否居中,结果会有所不同,所以可能需要assume_centered准确使用该参数。更准确地说,如果使用assume_centered=False,则测试集应该具有与训练集相同的均值向量。如果不是这样,两者都应该以用户为中心,assume_centered=True应该使用。

例子:

 

Shrunk协方差

基本收缩

尽管是协方差矩阵的无偏估计,最大似然估计不是协方差矩阵的特征值的一个很好的估计,所以从反演得到的精度矩阵是不准确的。有时,甚至出现数学原因,经验协方差矩阵不能反转。为了避免这样的反演问题,实证协方差矩阵的变换已经被介绍:shrinkage

在scikit学习中,该变换(具有用户定义的收缩系数)可以直接应用于使用该shrunk_covariance方法的预先计算的协方差。此外,协方差的收缩估计器可以用ShrunkCovariance对象及其ShrunkCovariance.fit方法拟合到数据中。再次,根据数据是否居中,结果会不同,所以可能要assume_centered准确使用参数。

在数学上,这种收缩在于减少经验协方差矩阵的最小和最大特征值之间的比率。可以通过简单地根据给定的偏移量移动每个特征值来完成,这相当于找到协方差矩阵的l2惩罚的最大似然估计器。在实践中,收缩归结为简单的凸变换:

选择收缩量,相当于设置偏差/方差权衡,下面将讨论。

例子:

Ledoit-Wolf收缩

在他们的2004年的文章[1]中,O.Ledoit和M.Wolf提出了一个公式,以计算最小化估计和实际协方差矩阵之间的均方误差的最优收缩系数。

可以在具有sklearn.covariance包的ledoit_wolf函数的 样本上计算协方差矩阵的Ledoit-Wolf估计器,或者可以通过将对象拟合到相同的样本来获得。LedoitWolf

例子:

[1] O.Ledoit和M.Wolf,“A Well-Conditioned Estimator for Large-Dimensional”协方差矩阵“,多变量分析杂志,第88卷,第2期,2004年2月,第365-411页。

Oracle近似收缩

在数据为高斯分布的假设下,Chen等 [2]导出了一个公式,旨在选择收缩系数,产生比Ledoit和Wolf公式给出的更小的均方误差。所得到的估计器被称为协方差的Oracle收缩近似估计器。

可以在具有sklearn.covariance 包的oas功能的样本上计算协方差矩阵的OAS估计器,或者可以通过将 对象拟合到相同的样本来获得。OAS


设定收缩时的偏差方差权衡:比较Ledoit-Wolf和OAS估计量的选择

[2] Chen等人,“Shrinkage Algorithms for MMSE协方差估计”IEEE Trans。上签。Proc.of Volume 58,Issue 10,October 2010。

例子:

稀疏逆协方差

通常称为精度矩阵的协方差矩阵的矩阵逆与部分相关矩阵成正比。它给出部分独立性关系。换句话说,如果两个特征在其他特征上有条件地独立,则精度矩阵中的对应系数将为零。这就是为什么估计一个稀疏精度矩阵是有道理的:通过从数据中学习独立关系,协方差矩阵的估计条件更好。这被称为协方差选择

在小样本的情况,即n_samples是数量级n_features或更小的,稀疏的逆协方差估计往往工作比缩水协方差估计更好。然而,在相反的情况下,或者对于非常相关的数据,它们可能在数值上不稳定。此外,与收缩估计量不同,稀疏估计器能够恢复非对角线结构。

GraphLasso估计器使用L1惩罚执行关于精度矩阵的稀疏性:越高其alpha参数,越稀疏的精度矩阵。相应的GraphLassoCV对象使用交叉验证来自动设置alpha参数。


在非常小的样本设置中,协方差和精度矩阵的最大似然,收缩和稀疏估计的比较。

注意

 

结构恢复

从数据中的相关性恢复图形结构是一个具有挑战性的事情。如果您对这种恢复感兴趣,请记住:

  • 相关矩阵的恢复比协方差矩阵更容易:在运行前标准化观察值 GraphLasso
  • 如果底层图具有比平均节点更多的连接节点,则算法将错过其中一些连接。
  • 如果您的观察次数与底层图形中的边数相比不大,则不会恢复。
  • 即使您处于良好的恢复条件,通过交叉验证(例如使用GraphLassoCV对象)选择的Alpha参数 将导致选择太多边。然而,相关边缘将具有比不相关边缘更重的权重。

数学公式如下:

ķ要估计的精度矩阵在哪里,并且小号是样本协方差矩阵。是非对角系数的绝对值之和ķ。用于解决这个问题的算法是来自Friedman 2008 Biostatistics论文的GLasso算法。它与R glasso包中的算法相同。

例子:

参考文献:

 

Robust协方差估计

实际数据集通常是测量或记录错误的主题。常见但不常见的观察也可能出于各种原因。每个不常见的观察称为异常值。上面提出的经验协方差估计器和收缩协方差估计器对数据中外围观测的存在非常敏感。因此,应该使用鲁棒协方差估计来估计其真实数据集的协方差。或者,可以使用鲁棒协方差估计器来执行异常值检测,并根据数据的进一步处理丢弃/降低某些观察值。

sklearn.covariance包实现了协方差的鲁棒估计器,最小协方差决定因子[3]。

最小协方差决定

最小协方差决定因子估计器是由PJ Rousseeuw在[3]中引入的数据集协方差的鲁棒估计。这个想法是找出一个给定比例(h)的“好”观察值,它们不是离群值,而是计算其经验协方差矩阵。然后将该经验协方差矩阵重新缩放以补偿所执行的观察选择(“一致性步骤”)。计算最小协方差决定因子估计器后,可以根据其马氏距离给出观测值的权重,导致数据集的协方差矩阵的重新加权估计(“重新加权步骤”)。

Rousseeuw和Van Driessen [4]开发了FastMCD算法,以计算最小协方差决定因子。该算法在将MCD对象拟合到数据时用于scikit学习。FastMCD算法同时计算数据集位置的鲁棒估计。

原估计可为访问raw_location_raw_covariance_ 一个属性MinCovDet强大的协方差估计对象。

[3] PJ Rousseeuw。最小平方回归中值。Am Stat Ass,79:871,1984。[4]一种用于最小协方差决策因子估计器的快速算法,1999年,美国统计协会和美国质量协会,TECHNOMETRICS。

例子:

 


异常值对位置和协方差估计的影响使用马哈拉诺比斯距离分离离群值

 

  • 无标签