level 12
朱老剑客
楼主
呵呵,我希望这个思考题能够引起@angelycs 的兴趣。
一共4个问题。
第一问:
我定的微信公众号今天讲回归分析,前面的线性回归什么的还能看懂,到后面说到了回归正则化方法就感觉太专业了,简直是云里雾里。各位有兴趣科普一下么?
第二问:
比如说,我用一个简单的二次函数加随机噪音之后生成了1000个数据点集A,然后从A中随机取500个数据点形成点集B,剩下的500个数据点为点集C,然后我分别对B和C进行二次多项式的拟合,得到的拟合系数八成不会一样吧,两次回归的效果与我一开始定义的二次函数相比较的,自然会有优劣之分,如此得到了一个回归误差Δ。然后我又重复上面的动作,得到另外两个相等的数据点集E和F,此时这个Δ还有效吗?
第三问:
如果我选择的数据点集不是相等的,比如说一个是200,一个是800;或者更极端些,一个是10,一个是990,我猜想这个Δ肯定会有所变化的,那么Δ的变化规律是什么?
第四问:
上面我用的是二次多项式做的实验,如果我用线性、三次多项式或其他基本函数做实验,所得到的Δ的变化规律会不会不一样呢?咱们就说多项式吧,Δ的变化规律与多项式的次数之间有没有什么观察上的或者必然的联系呢?另外Δ与我所加的噪音的性质有什么关系么?
以上都可以MC模拟出来,主要是看各位的建模能否有效达到研究的目的了。
2015年10月16日 17点10分
1
一共4个问题。
第一问:
我定的微信公众号今天讲回归分析,前面的线性回归什么的还能看懂,到后面说到了回归正则化方法就感觉太专业了,简直是云里雾里。各位有兴趣科普一下么?
第二问:
比如说,我用一个简单的二次函数加随机噪音之后生成了1000个数据点集A,然后从A中随机取500个数据点形成点集B,剩下的500个数据点为点集C,然后我分别对B和C进行二次多项式的拟合,得到的拟合系数八成不会一样吧,两次回归的效果与我一开始定义的二次函数相比较的,自然会有优劣之分,如此得到了一个回归误差Δ。然后我又重复上面的动作,得到另外两个相等的数据点集E和F,此时这个Δ还有效吗?
第三问:
如果我选择的数据点集不是相等的,比如说一个是200,一个是800;或者更极端些,一个是10,一个是990,我猜想这个Δ肯定会有所变化的,那么Δ的变化规律是什么?
第四问:
上面我用的是二次多项式做的实验,如果我用线性、三次多项式或其他基本函数做实验,所得到的Δ的变化规律会不会不一样呢?咱们就说多项式吧,Δ的变化规律与多项式的次数之间有没有什么观察上的或者必然的联系呢?另外Δ与我所加的噪音的性质有什么关系么?
以上都可以MC模拟出来,主要是看各位的建模能否有效达到研究的目的了。






