页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。
信息
title线性回归

优点:结果易于理解,计算上不复杂。

缺点:对非线性的数据拟合不好。

适用数据类型:数值型和标称型数据。

 

      回归的目的:预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,加入你想预测姐姐男友汽车的功率大小可能会这么计算:

      HorsePower = 0.0015*annualSalary - 0.99*hoursListeningToPublicRadio

      这就是所谓的回归方程(regression equation),其中的0.0015和-0.99称作回归系数(regression weights), 求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测久非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。

      说到回归,一般都是指线性回归(linear regression),所以本章里面的回归和线性回归代表同一个意思。需要说明的是,存在另一种称为非线性回归的回归模型,该模型不认同上面的做法,比如认为输入可能是输入的乘积。这样,上面的功率计算公式也可以写做:

      HorsePower = 0.0015*annualSalary/hoursListeningToPublicRadio

      这就是一个非线性回归的例子,但本章对此不做深入讨论。

信息
title回归的一般方法

1. 收集数据: 采用任意方法收集数据。

2. 准备数据: 回归需要数值型数据,标称型数据将被转成二值型数据。

3. 分析数据: 绘出数据的可视化二维图将有助于对数据作出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。

4. 训练算法: 找到回归系数。

5. 测试算法: 使用R² 或者 预测值和数据的拟合度,来分析模型的效果。

6. 使用算法: 使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

      应当怎样从一大堆数据里求出回归方程呢? 假定输入数据存放在矩阵x中,而回归系数存放在向量w中。那么对于给定的数据x1,预测结果将会通过 Image RemovedImage Added 给出。现在的问题是,手里又一些x和对应的y,怎样才能找到w呢?一个常用的方法就是找出使误差最小的w。这里的误差是指预测y值和真实y值之间的差值,使用该误差的简单累加奖使得正差值和负差值相互抵消,所以我们采用平方误差。

      平方误差可以写做:

                              

      用矩阵表示还可以写做。如果对w求导,得到 ,令其等于0,解出w如下:

                             Image Added

    Image Removed

 

 

 

 

面板

目录结构

目录

 

 

 

 

 

副标题

内容

 


 

面板
borderStyledashed


Contributor片刻

网站地址: www.apache.wiki

ApacheCN【技术属于世界、欢迎转载传播】