页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

线性回归

优点:结果易于理解,计算上不复杂。

缺点:对非线性的数据拟合不好。

适用数据类型:数值型和标称型数据。

 

      回归的目的:预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,加入你想预测姐姐男友汽车的功率大小可能会这么计算:

      HorsePower = 0.0015*annualSalary - 0.99*hoursListeningToPublicRadio

      这就是所谓的回归方程(regression equation),其中的0.0015和-0.99称作回归系数(regression weights), 求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测久非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。

      说到回归,一般都是指线性回归(linear regression),所以本章里面的回归和线性回归代表同一个意思。需要说明的是,存在另一种称为非线性回归的回归模型,该模型不认同上面的做法,比如认为输入可能是输入的乘积。这样,上面的功率计算公式也可以写做:

      HorsePower = 0.0015*annualSalary/hoursListeningToPublicRadio

      这就是一个非线性回归的例子,但本章对此不做深入讨论。

回归的一般方法

1. 收集数据: 采用任意方法收集数据。

2. 准备数据: 回归需要数值型数据,标称型数据将被转成二值型数据。

3. 分析数据: 绘出数据的可视化二维图将有助于对数据作出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。

4. 训练算法: 找到回归系数。

5. 测试算法: 使用R² 或者 预测值和数据的拟合度,来分析模型的效果。

6. 使用算法: 使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

      应当怎样从一大堆数据里求出回归方程呢? 假定输入数据存放在矩阵x中,而回归系数存放在向量w中。那么对于给定的数据x1,预测结果将会通过  给出。现在的问题是,手里又一些x和对应的y,怎样才能找到w呢?一个常用的方法就是找出使误差最小的w。这里的误差是指预测y值和真实y值之间的差值,使用该误差的简单累加奖使得正差值和负差值相互抵消,所以我们采用平方误差。

      平方误差可以写做:

                              

      用矩阵表示还可以写做。如果对w求导,得到 ,令其等于0,解出w如下:

                             

 

 

 

 

 

目录结构

 

 

 

 

 

副标题

内容

 


 


Contributor片刻

网站地址: www.apache.wiki

ApacheCN【技术属于世界、欢迎转载传播】


  • 无标签