页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

半监督学习是一种情况,在您的培训数据中,一些样本没有标记。半监督估计器sklearn.semi_supervised能够利用这些附加的未标记数据来更好地捕获底层数据分布的形状,并将其更好地推广到新的样本。当我们有非常少量的标记点和大量的未标记点时,这些算法可以表现良好。

y中未标记的条目

在使用该fit方法训练模型时,必须将标识符与标记数据一起分配给未标记的点。此实现使用的标识符是整数值-1

 

标签传播

标签传播表示半监督图推理算法的几个变体。

此模型中提供的几项功能:可用于分类和回归任务将数据投影到备用维空间的内核方法

scikit学习提供了两种标签传播模型: LabelPropagationLabelSpreading。两者都可以通过在输入数据集中的所有项目上构建相似图。


标签传播的说明: 未标记观察的结构与类结构一致,因此类标签可以传播到训练集的未标记观察。

LabelPropagation并且LabelSpreading 对图形的相似性矩阵和对标签分布的夹紧效应的修改不同。夹紧允许算法在一定程度上改变真实地面标记数据的重量。该LabelPropagation算法执行输入标签的硬夹紧,这意味着。这种夹紧因素可以放松,这就意味着我们将始终保持原始标签分配的80%,但算法可以将其分布的置信度改变在20%以内。

LabelPropagation使用从数据构建的原始相似度矩阵,而不进行修改。相反,LabelSpreading 最小化具有正则化特性的损失函数,因此它通常对噪声更加鲁棒。该算法迭代原始图形的修改版本,并通过计算归一化图拉普拉斯矩阵来规范边缘权重。此过程也用于光谱聚类

标签传播模型有两种内置的内核方法。内核的选择会影响算法的可扩展性和性能。以下可用:

  • rbf()。由关键字gamma指定。
  • knn()。ķ由关键字n_neighbors指定。

RBF内核将产生一个完全连接的图形,它通过密集矩阵在存储器中表示。该矩阵可能非常大,并且与算法的每次迭代执行全矩阵乘法计算的成本相结合可导致超长的运行时间。另一方面,KNN内核将产生更多的内存友好的稀疏矩阵,可以大大减少运行时间。

参考

[1] Yoshua Bengio,Olivier Delalleau,Nicolas Le Roux。在半监督学习(2006),第193-216页

[2] Olivier Delalleau,Yoshua Bengio,Nicolas Le Roux。半监督学习中有效的非参数函数诱导。AISTAT 2005 http://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf

 

  • 无标签