使用python进行回归分析 - python3吧

level 6

YS易小唐楼主

一、概述
1.回归：利用样本（已知数据），产生拟合方程，从而对未知数据进行预测
2.分类
*线性回归：一元线性；多元线性
*逻辑回归：实际上预测的是数据X属于分类Y的概率p。逻辑回归公式由 log(p/(1-p))=β0+β1X 推导求得。
*非线性回归
3.求解回归时需考虑的问题
1）样本是否符合正态分布假设？
2）误差是否满足独立性、等方差、正态分布等假设条件？
3）是否存在离群值导致模型产生较大误差？
4.）线性模型是否合理，是否存在拟合不足？
5）观察拟合方程，是否存在多重共线性？
6）如何选择变量？如何进行特征工程？
4.需要进一步解决的问题
1）怎么进行正态性检测？
2）怎么处理离群点？
3）非线性回归方程要怎么构建？
4）R中有岭回归可以解决多重共线性的问题，python中要怎么处理？
5）怎么构建多重逻辑回归模型，用于预测分类大于2的情形？
5.个人思考
从本质上来看，回归分析不管是线性回归还是逻辑回归，拟合的都是一条线（二维）或者一个平面（三维）或者更高维度，因此更适合使用连续型的数值型特征进行预测，而对于有太多分类型特征的数据，即使转换为哑变量，也必然会存在拟合不足的现象。
二、线性回归
1.协方差和相关系数：评估线性相关性
*协方差
cov(X,Y)=E[(X-E[X])(Y-E[Y])]
相关系数：消除协方差中数据变动的影响
相关系数r=(x和y的协方差)/(x的标准差y的标准差)
*相关系数函数：data.corr()
2.决定系数R2：评估模型精确度
有多少百分比的y波动被回归曲线描述=R2=1-误差平方和/总波动
值大小：R2越大，回归模型越精确
3.线性回归算法概述
将拟合平面（线）整合成矩阵形式，矩阵计算通常比较高效
真实值和预测值之间肯定是存在差异（用ε表示误差）。误差服从高斯分布，将拟合函数带入到误差服从的高斯分布中。
通过最大似然估计推导出最小二乘法。
求解最小二乘法。在实际应用中一般使用梯度下降策略，而不是直接求解。
4.python进行线性回归一般框架
a.在sklearn中搜索linear regression用法
b.提取特征和标签