數(shù)學建模與數(shù)學實驗 回歸分析課件
《數(shù)學建模與數(shù)學實驗 回歸分析課件》由會員分享,可在線閱讀,更多相關《數(shù)學建模與數(shù)學實驗 回歸分析課件(80頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、2022-5-161數(shù)學建模與數(shù)學實驗數(shù)學建模與數(shù)學實驗回歸分析回歸分析實驗目的實驗目的實驗內(nèi)容實驗內(nèi)容2、掌握用數(shù)學軟件求解回歸分析問題。、掌握用數(shù)學軟件求解回歸分析問題。1、直觀了解回歸分析基本內(nèi)容。、直觀了解回歸分析基本內(nèi)容。1 1、回歸分析的基本理論回歸分析的基本理論。3 3、實驗作業(yè)。實驗作業(yè)。2、用數(shù)學軟件求解回歸分析問題。用數(shù)學軟件求解回歸分析問題。2022-5-163回歸分析回歸分析數(shù)學模型及定義數(shù)學模型及定義*模型參數(shù)估計模型參數(shù)估計* *檢驗、預測與控制檢驗、預測與控制可線性化的一元非線可線性化的一元非線性回歸(曲線回歸性回歸(曲線回歸)數(shù)學模型及定義數(shù)學模型及定義*模型參
2、數(shù)估計模型參數(shù)估計*多元線性回歸中的多元線性回歸中的檢驗與預測檢驗與預測逐步回歸分析逐步回歸分析2022-5-164一、數(shù)學模型一、數(shù)學模型例例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:身高143145146147149150153154155156157158159160162164腿長8885889192939395969897969899100102以身高x為橫坐標,以腿長y為縱坐標將這些數(shù)據(jù)點(xI,yi)在平面直角坐標系上標出.1401451501551601658486889092949698100102散點圖xy102022-5-165 一般地,稱由xy10確定的模型為一一元
3、元線線性性回回歸歸模模型型,記為 210, 0DExy固定的未知參數(shù)0、1稱為回歸系數(shù),自變量 x 也稱為回歸變量.一元線性回歸分析的主要任務主要任務是:1、用試驗值(樣本值)對0、1和作點估計;2、對回歸系數(shù)0、1作假設檢驗; 3、在 x=0 x處對 y 作預測,對 y 作區(qū)間估計.xY10,稱為 y 對對 x的的回回歸歸直直線線方方程程.返回返回2022-5-166二、模型參數(shù)估計二、模型參數(shù)估計1、回歸系數(shù)的最小二乘估計、回歸系數(shù)的最小二乘估計有 n 組獨立觀測值, (x1,y1) , (x2,y2) , (xn,yn) 設 相互獨立且,niiiiDEnixy., , 0,.,2 , 1
4、,21210 記 niiiniixyQQ12101210),(最小二乘法最小二乘法就是選擇0和1的估計0,1使得 ),(min),(10,1010QQ2022-5-1672、2的的無無偏偏估估計計記 niniiiiieyyxyQQ11221010)(),(稱 Qe為殘殘差差平平方方和和或剩剩余余平平方方和和. 2的的無無偏偏估估計計為 )2(2nQee稱2e為剩剩余余方方差差(殘殘差差的的方方差差) , 2e分別與0、1獨立 。 e稱為剩剩余余標標準準差差.返回返回2022-5-168三、檢驗、預測與控制三、檢驗、預測與控制1、回歸方程的顯著性檢驗、回歸方程的顯著性檢驗 對回歸方程xY10的顯
5、著性檢驗,歸結(jié)為對假設 0:; 0:1110HH進行檢驗.假設0:10H被拒絕,則回歸顯著,認為 y 與 x存在線性關系,所求的線性回歸方程有意義;否則回歸不顯著,y 與 x 的關系不能用一元線性回歸模型來描述,所得的回歸方程也無意義.2022-5-169()F檢驗法檢驗法 當0H成立時, )2/( nQUFeF(1,n-2)其中 niiyyU12(回歸平方和)回歸平方和)故 F)2, 1 (1nF,拒絕0H,否則就接受0H. ()t檢驗法檢驗法niiniixxxnxxxL12212)(其中當0H成立時,exxLT1t(n-2)故)2(21ntT,拒絕0H,否則就接受0H.2022-5-161
6、0()r檢驗法檢驗法當|r| r1-時,拒絕 H0;否則就接受 H0.記 niniiiniiiyyxxyyxxr11221)()()(其中2, 121111nFnr2022-5-16112、回歸系數(shù)的置信區(qū)間、回歸系數(shù)的置信區(qū)間0和和1置信水平為置信水平為 1-的置信區(qū)間分別為的置信區(qū)間分別為 xxexxeLxnntLxnnt221022101)2(,1)2(和 xxexxeLntLnt/)2(,/)2(2112112的的置置信信水水平平為為 1-的的置置信信區(qū)區(qū)間間為為 )2(,)2(22221nQnQee2022-5-16123、預測與控制、預測與控制(1)預測)預測用 y0的回歸值010
7、0 xy作為 y0的預測值的預測值.0y的置信水平為1的預測區(qū)間預測區(qū)間為 )(),(0000 xyxy其中xxeLxxnntx2021011)2()( 特 別 , 當 n 很 大 且 x0在x附 近 取 值 時 ,y 的 置 信 水 平 為1的 預預 測測 區(qū)區(qū) 間間 近近 似似 為為 2121,uyuyee2022-5-1613(2)控制)控制要求:xy10的值以1的概率落在指定區(qū)間yy ,只要控制 x 滿足以下兩個不等式 yxyyxy )(,)(要求)(2xyy .若yxyyxy )(,)(分別有解x和x ,即yxyyxy )(,)(. 則xx ,就是所求的 x 的控制區(qū)間.返回返回20
8、22-5-1614四、可線性化的一元非線性回歸四、可線性化的一元非線性回歸 (曲線回歸)(曲線回歸)例例2 出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕, 容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關 系.對一鋼包作試驗,測得的數(shù)據(jù)列于下表:使用次數(shù)增大容積使用次數(shù)增大容積234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.762022-5-161524681012141666.577.588.599.51010.511散點圖此即非線性回歸非線性回歸或曲線
9、回歸曲線回歸 問題(需要配曲線)配曲線的一般方法是:配曲線的一般方法是:先對兩個變量 x 和 y 作 n 次試驗觀察得niyxii,.,2 , 1),(畫出散點圖,根據(jù)散點圖確定須配曲線的類型.然后由 n 對試驗數(shù)據(jù)確定每一類曲線的未知參數(shù) a 和 b.采用的方法是通過變量代換把非線性回歸化成線性回歸,即采用非線性回歸線性化的方法.2022-5-1616通常選擇的六類曲線如下:(1)雙雙曲曲線線xbay1(2)冪冪函函數(shù)數(shù)曲曲線線y=abx, 其中 x0,a0(3)指指數(shù)數(shù)曲曲線線 y=abxe其中參數(shù) a0.(4)倒倒指指數(shù)數(shù)曲曲線線 y=axbe/其中 a0,(5)對對數(shù)數(shù)曲曲線線 y=a
10、+blogx,x0(6)S 型型曲曲線線xbeay1返回返回解例2.由散點圖我們選配倒指數(shù)曲線y=axbe/根據(jù)線性化方法,算得4587. 2,1107. 1Ab由此 6789.11Aea最后得 xey1107. 16789.112022-5-1617一、數(shù)學模型及定義一、數(shù)學模型及定義一般稱 nICOVEXY2),(, 0)( 為高斯馬爾柯夫線性模型(k k 元線性回歸模型元線性回歸模型),并簡記為),(2nIXY nyyY.1,nknnkkxxxxxxxxxX.1.1.1212222111211,k.10,n.21kkxxy.110稱為回回歸歸平平面面方方程程. 返回返回線性模型),(2n
11、IXY考慮的主要問題是: (1)用試驗值(樣本值)對未知參數(shù)和2作點估計和假設檢驗,從而建立 y 與kxxx,.,21之間的數(shù)量關系; (2)在,.,0022011kkxxxxxx處對 y 的值作預測與控制,即對 y 作區(qū)間估計. 2022-5-1618二、模型參數(shù)估計二、模型參數(shù)估計1、對、對i和和2作估計作估計用最小二乘法求k,.,0的估計量:作離差平方和 niikkiixxyQ12110.選擇k,.,0使 Q 達到最小。解得估計值 YXXXTT1 得到的i代入回歸平面方程得: kkxxy.110稱為經(jīng)經(jīng)驗驗回回歸歸平平面面方方程程.i稱為經(jīng)經(jīng)驗驗回回歸歸系系數(shù)數(shù).注注意意 :服從 p+1
12、 維正態(tài)分 布,且為的無偏估 計,協(xié)方差陣為C2. C=L-1=(cij), L=XX2022-5-16192、 多多 項項 式式 回回 歸歸設變量 x、Y 的回歸模型為 ppxxxY.2210其中 p 是已知的,), 2 , 1(pii是未知參數(shù),服從正態(tài)分布), 0(2N. 令iixx ,i=1,2,k 多項式回歸模型變?yōu)槎嘣€性回歸模型.返回返回 kkxxxY.2210稱為回回歸歸多多項項式式.上面的回歸模型稱為多多項項式式回回歸歸.2022-5-1620三、多元線性回歸中的檢驗與預測三、多元線性回歸中的檢驗與預測1、線線性性模模型型和和回回歸歸系系數(shù)數(shù)的的檢檢驗驗假設 0.:100kH
13、 ()F檢驗法檢驗法()r檢驗法檢驗法定義eyyQUULUR為 y 與 x1,x2,.,xk的多多元元相相關關系系數(shù)數(shù)或復復相相關關系系數(shù)數(shù)。由于2211RRkknF,故用 F 和用 R檢驗是等效的。當 H0成立時,)1,()1/(/knkFknQkUFe如果 F F1-(k,n-k-1) ,則拒絕 H0,認為 y 與 x1, xk之間顯著地有線性關系;否則就接受 H0,認為 y 與 x1, xk之間線性關系不顯著.其中 niiyyU12(回回歸歸平平方方和和) niiieyyQ12)(殘差平方和)殘差平方和)2022-5-16212、預測、預測(1)點預測)點預測求出回歸方程kkxxy.11
14、0,對于給定自變量的值kxx ,.,*1,用*110*.kkxxy來預測*110.kkxxy.稱* y為*y的點預測.(2)區(qū)間預測)區(qū)間預測y 的1的預測區(qū)間(置信)區(qū)間為),(21yy,其中) 1(1) 1(12/10022/1001kntxxcyykntxxcyykikjjiijekikjjiijeC=L-1=(cij), L=XX1knQee返回返回2022-5-1622四、逐步回歸分析四、逐步回歸分析(4)“有進有出”的逐步回歸分析。(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;(3)從一個變量開始,把變量逐個引入方程;
15、選擇“最優(yōu)”的回歸方程有以下幾種方法: “最優(yōu)最優(yōu)”的回歸方程的回歸方程就是包含所有對Y有影響的變量, 而不包含對Y影響不顯著的變量回歸方程。 以第四種方法,即逐步回歸分析法逐步回歸分析法在篩選變量方面較為理想.2022-5-1623 這個過程反復進行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時為止。逐步回歸分析法逐步回歸分析法的思想: 從一個自變量開始,視自變量Y作用的顯著程度,從大到地依次逐個引入回歸方程。 當引入的自變量由于后面變量的引入而變得不顯著時,要將其剔除掉。 引入一個自變量或從回歸方程中剔除一個自變量,為逐步回歸的一步。 對于每一步都要進行Y值檢驗,以確
16、保每次引入新的顯著性變量前回歸方程中只包含對Y作用顯著的變量。返回返回2022-5-16241、多元線性回歸、多元線性回歸2、多項式回歸、多項式回歸3、非線性回歸、非線性回歸4、逐步回歸、逐步回歸返回返回2022-5-1625多元線性回歸多元線性回歸 b=regress( Y, X )npnnppxxxxxxxxxX.1.1.1212222111211nYYYY.21pb.101、確定回歸系數(shù)的點估計值:確定回歸系數(shù)的點估計值:ppxxy.110對一元線性回歸,取 p=1 即可2022-5-16263、畫出殘差及其置信區(qū)間:畫出殘差及其置信區(qū)間: rcoplot(r,rint)2、求回歸系數(shù)的
17、點估計和區(qū)間估計、并檢驗回歸模型:求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: b, bint,r,rint,stats=regress(Y,X,alpha)回歸系數(shù)的區(qū)間估計殘差用于檢驗回歸模型的統(tǒng)計量,有三個數(shù)值:相關系數(shù)r2、F值、與F對應的概率p置信區(qū)間 顯著性水平(缺省時為0.05) 相關系數(shù) r2越接近 1,說明回歸方程越顯著; F F1-(k,n-k-1)時拒絕 H0,F(xiàn) 越大,說明回歸方程越顯著; 與 F 對應的概率 p時拒絕 H0,回歸模型成立.2022-5-1627例例1 解:解:1、輸入數(shù)據(jù):輸入數(shù)據(jù): x=143 145 146 147 149 150 153 154
18、 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回歸分析及檢驗:回歸分析及檢驗: b,bint,r,rint,stats=regress(Y,X) b,bint,stats得結(jié)果:b = bint = -16.0730 -33.7071 1.5612 0.7194 0.6047 0.8340 stats = 0.9282 180.9531 0.0000即7194. 0,073.1610;0的置信區(qū)間為-33.7017,1.5612, 1
19、的置信區(qū)間為0.6047,0.834;r2=0.9282, F=180.9531, p=0.0000p0.05, 可知回歸模型 y=-16.073+0.7194x 成立.To MATLAB(liti11)2022-5-16283、殘差分析,作殘差圖:、殘差分析,作殘差圖: rcoplot(r,rint) 從殘差圖可以看出,除第二個數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點均較近,且殘差的置信區(qū)間均包含零點,這說明回歸模型 y=-16.073+0.7194x能較好的符合原始數(shù)據(jù),而第二個數(shù)據(jù)可視為異常點. 4、預測及作圖:、預測及作圖:z=b(1)+b(2)*x plot(x,Y,k+,x,z,r)24681
20、0121416-5-4-3-2-101234Residual Case Order PlotResidualsCase Number返回返回To MATLAB(liti12)2022-5-1629多多 項項 式式 回回 歸歸 (一)一元多項式回歸(一)一元多項式回歸 (1)確定多項式系數(shù)的命令:p,S=polyfit(x,y,m) 其中 x=(x1,x2,xn) ,y=(y1,y2,yn) ;p=(a1,a2,am+1)是多項式y(tǒng)=a1xm+a2xm-1+amx+am+1的系數(shù);S 是一個矩陣,用來估計預測誤差.(2)一元多項式回歸命令:polytool(x,y,m)1、回歸:、回歸:y=a1
21、xm+a2xm-1+amx+am+12、預測和預測誤差估計:、預測和預測誤差估計:(1)Y=polyval(p,x)求polyfit所得的回歸多項式在x處 的預 測值Y; (2)Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得 的回歸多項式在x處的預測值Y及預測值的顯著性為1- alpha的置信區(qū)間Y DELTA;alpha缺省時為0.5.2022-5-1630 例例 2 觀測物體降落的距離s 與時間t 的關系,得到數(shù)據(jù)如下表,求s關于 t 的回歸方程2ctbtas.t (s)1/302/303/304/305/306/307/30s (cm)11.8615.67
22、20.6026.6933.7141.9351.13t (s)8/309/3010/3011/3012/3013/3014/30s (cm)61.4972.9085.4499.08113.77129.54146.48法一法一 直接作二次多項式回歸:直接作二次多項式回歸: t=1/30:1/30:14/30; s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48; p,S=polyfit(t,s,2)To MATLAB(liti21)1329. 98896.652946.48
23、92tts得回歸模型為 :2022-5-1631法二法二化為多元線性回歸:化為多元線性回歸:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t (t.2);b,bint,r,rint,stats=regress(s,T);b,statsTo MATLAB(liti22)22946.4898896.651329. 9tts得回歸模型為 :Y=polyconf(p,t,S) plot(t,s,k+,t,Y,r
24、)預測及作圖預測及作圖To MATLAB(liti23)2022-5-1632(二)多元二項式回歸(二)多元二項式回歸命令:rstool(x,y,model, alpha)nm矩陣顯著性水平(缺省時為0.05)n維列向量由下列 4 個模型中選擇 1 個(用字符串輸入,缺省時為線性模型): linear(線性):mmxxy 110 purequadratic(純二次): njjjjmmxxxy12110 interaction(交叉): mkjkjjkmmxxxxy1110 quadratic(完全二次): mkjkjjkmmxxxxy,1110 2022-5-1633 例例3 設某商品的需求量
25、與消費者的平均收入、商品價格的統(tǒng)計數(shù) 據(jù)如下,建立回歸模型,預測平均收入為1000、價格為6時 的商品需求量.需求量10075807050659010011060收入10006001200500300400130011001300300價格5766875439選擇純二次模型,即 2222211122110 xxxxy法一法一 直接用多元二項式回歸:x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2; rstool(x,y
26、,purequadratic)2022-5-1634 在畫面左下方的下拉式菜單中選”all”, 則beta、rmse和residuals都傳送到Matlab工作區(qū)中.在左邊圖形下方的方框中輸入1000,右邊圖形下方的方框中輸入6。 則畫面左邊的“Predicted Y”下方的數(shù)據(jù)變?yōu)?8.47981,即預測出平均收入為1000、價格為6時的商品需求量為88.4791.2022-5-1635在Matlab工作區(qū)中輸入命令: beta, rmse得結(jié)果:beta = 110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse = 4.5362故回歸模型為:222121
27、8475. 10001. 05709.261464. 05313.110 xxxxy剩余標準差為 4.5362, 說明此回歸模型的顯著性較好.To MATLAB(liti31)2) (2nyysxy為剩余標準差,表示應變量Y值對于回歸直線的離散程度。 2022-5-1636X=ones(10,1) x1 x2 (x1.2) (x2.2);b,bint,r,rint,stats=regress(y,X);b,stats結(jié)果為: b = 110.5313 0.1464 -26.5709 -0.0001 1.8475 stats = 0.9702 40.6656 0.0005法二法二To MATLA
28、B(liti32)返回返回 2222211122110 xxxxy將 化為多元線性回歸:2022-5-1637非線性回非線性回 歸歸 (1)確定回歸系數(shù)的命令: beta,r,J=nlinfit(x,y,model, beta0)(2)非線性回歸命令:nlintool(x,y,model, beta0,alpha)1、回歸:、回歸:殘差Jacobian矩陣回歸系數(shù)的初值是事先用m-文件定義的非線性函數(shù)估計出的回歸系數(shù)輸入數(shù)據(jù)x、y分別為 矩陣和n維列向量,對一元非線性回歸,x為n維列向量。mn2、預測和預測誤差估計:、預測和預測誤差估計:Y,DELTA=nlpredci(model, x,be
29、ta,r,J)求nlinfit 或nlintool所得的回歸函數(shù)在x處的預測值Y及預測值的顯著性為1-alpha的置信區(qū)間Y DELTA.2022-5-1638例例 4 對第一節(jié)例2,求解如下:1、對將要擬合的非線性模型 y=axbe/,建立 m-文件 volum.m 如下: function yhat=volum(beta,x) yhat=beta(1)*exp(beta(2)./x);2、輸入數(shù)據(jù): x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60 10.90 10.76; beta0=8
30、 2;3、求回歸系數(shù): beta,r ,J=nlinfit(x,y,volum,beta0); beta得結(jié)果:beta = 11.6036 -1.0641即得回歸模型為:xey10641. 16036.11To MATLAB(liti41)2022-5-16394、預測及作圖: YY,delta=nlpredci(volum,x,beta,r ,J); plot(x,y,k+,x,YY,r)To MATLAB(liti42)2022-5-1640例例5 財政收入預測問題:財政收入與國民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值、總?cè)丝?、就業(yè)人口、固定資產(chǎn)投資等因素有關。下表列出了1952-1981年的原始
31、數(shù)據(jù),試構造預測模型。 解解 設國民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值、總?cè)丝凇⒕蜆I(yè)人口、固定資產(chǎn)投資分別為x1、x2、x3、x4、x5、x6,財政收入為y,設變量之間的關系為:y= ax1+bx2+cx3+dx4+ex5+fx6使用非線性回歸方法求解。2022-5-16411 對回歸模型建立對回歸模型建立M文件文件model.m如下如下: function yy=model(beta0,X) a=beta0(1); b=beta0(2); c=beta0(3); d=beta0(4); e=beta0(5); f=beta0(6); x1=X(:,1); x2=X(:,2); x3=X(:,3);
32、 x4=X(:,4); x5=X(:,5); x6=X(:,6); yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6; 2022-5-16422. 主程序主程序liti6.m如下如下:X=598.00 349.00 461.00 57482.00 20729.00 44.00 . 2927.00 6862.00 1273.00 100072.0 43280.00 496.00;y=184.00 216.00 248.00 254.00 268.00 286.00 357.00 444.00 506.00 . 271.00 230.00 266.00 323.00 393.00
33、466.00 352.00 303.00 447.00 . 564.00 638.00 658.00 691.00 655.00 692.00 657.00 723.00 922.00 . 890.00 826.00 810.0;beta0=0.50 -0.03 -0.60 0.01 -0.02 0.35;betafit = nlinfit(X,y,model,beta0)To MATLAB(liti6)2022-5-1643 betafit = 0.5243 -0.0294 -0.6304 0.0112 -0.0230 0.3658即y= 0.5243x1-0.0294x2-0.6304x3
34、+0.0112x4-0.0230 x5+0.3658x6結(jié)果為結(jié)果為:返返 回回2022-5-1644逐逐 步步 回回 歸歸逐步回歸的命令是: stepwise(x,y,inmodel,alpha) 運行stepwise命令時產(chǎn)生三個圖形窗口:Stepwise Plot,Stepwise Table,Stepwise History. 在Stepwise Plot窗口,顯示出各項的回歸系數(shù)及其置信區(qū)間. Stepwise Table 窗口中列出了一個統(tǒng)計表,包括回歸系數(shù)及其置信區(qū)間,以及模型的統(tǒng)計量剩余標準差(RMSE)、相關系數(shù)(R-square)、F值、與F對應的概率P.矩陣的列數(shù)的指標,
35、給出初始模型中包括的子集(缺省時設定為全部自變量)顯著性水平(缺省時為0.5)自變量數(shù)據(jù), 階矩陣mn因變量數(shù)據(jù), 階矩陣1n2022-5-1645例例6 水泥凝固時放出的熱量y與水泥中4種化學成分x1、x2、x3、 x4 有關,今測得一組數(shù)據(jù)如下,試用逐步回歸法確定一個 線性模 型. 序號12345678910111213x17111117113122111110 x226295631525571315447406668x3615886917221842398x46052204733226442226341212y78.574.3104.387.695.9109.2102.772.593.1
36、115.983.8113.3109.41、數(shù)據(jù)輸入:、數(shù)據(jù)輸入:x1=7 1 11 11 7 11 3 1 2 21 1 11 10;x2=26 29 56 31 52 55 71 31 54 47 40 66 68;x3=6 15 8 8 6 9 17 22 18 4 23 9 8;x4=60 52 20 47 33 22 6 44 22 26 34 12 12;y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4;x=x1 x2 x3 x4;2022-5-16462、逐步回歸:、逐步回歸:(1)先在
37、初始模型中取全部自變量:)先在初始模型中取全部自變量: stepwise(x,y)得圖Stepwise Plot 和表Stepwise Table圖圖Stepwise Plot中四條直線都是虛中四條直線都是虛線,說明模型的顯著性不好線,說明模型的顯著性不好從表從表Stepwise Table中看出變中看出變量量x3和和x4的顯著性最差的顯著性最差.2022-5-1647(2)在圖)在圖Stepwise Plot中點擊直線中點擊直線3和直線和直線4,移去變量,移去變量x3和和x4移去變量移去變量x3和和x4后模型具有顯著性后模型具有顯著性. 雖然剩余標準差(雖然剩余標準差(RMSE)沒)沒有太大
38、的變化,但是統(tǒng)計量有太大的變化,但是統(tǒng)計量F的的值明顯增大,因此新的回歸模型值明顯增大,因此新的回歸模型更好更好.To MATLAB(liti51)2022-5-1648(3)對變量)對變量y和和x1、x2作線性回歸:作線性回歸: X=ones(13,1) x1 x2; b=regress(y,X)得結(jié)果:b = 52.5773 1.4683 0.6623故最終模型為:y=52.5773+1.4683x1+0.6623x2To MATLAB(liti52)返回返回2022-5-16491、考察溫度x對產(chǎn)量y的影響,測得下列10組數(shù)據(jù):溫度()20253035404550556065產(chǎn)量(kg)
39、13.215.116.417.117.918.719.621.222.524.3求y關于x的線性回歸方程,檢驗回歸效果是否顯著,并預測x=42時產(chǎn)量的估值及預測區(qū)間(置信度95%).2、某零件上有一段曲線,為了在程序控制機床上加工這一零件,需要求這段曲線的解析表達式,在曲線橫坐標xi處測得縱坐標yi共11對數(shù)據(jù)如下:xi02468101214161820yi0.62.04.47.511.817.123.331.239.649.761.7求這段曲線的縱坐標y關于橫坐標x的二次多項式回歸方程.2022-5-16503、 在研究化學動力學反應過程中,建立了一個反應速度和反應物含量的數(shù)學模型,形式為
40、34231253211xxxxxy其中51,是未知參數(shù),321,xxx是三種反應物(氫,n 戊烷,異構戊烷)的含量,y 是反應速度.今測得一組數(shù)據(jù)如表 4,試由此確定參數(shù)51,,并給出置信區(qū)間.51,的參考值為(1,0.05, 0.02, 0.1, 2).序號反應速度 y氫 x1n 戊烷 x2異構戊烷 x318.554703001023.79285801034.8247030012040.024708012052.754708010614.391001901072.54100806584.3547019065913.0010030054108.50100300120110.0510080120
41、1211.3228530010133.132851901202022-5-16514、混凝土的抗壓強度隨養(yǎng)護時間的延長而增加,現(xiàn)將一批混凝土作成12個試塊,記錄了養(yǎng)護日期x(日)及抗壓強度y(kg/cm2)的數(shù)據(jù):養(yǎng)護時間 x234579121417212856抗壓強度 y354247535965687376828699試求xbayln型回歸方程.2022-5-1653四四 軟件開發(fā)人員的薪金軟件開發(fā)人員的薪金問題:問題:一家高技術公司人事部門為研究軟件開發(fā)人員的薪金與他們的資歷、管理責任、教育程度等因素之間的關系,要建立一個數(shù)學模型,以便分析公司人士策略的合理性,并作為新聘用人員工資的參考。
42、他們認為目前公司人員的薪金總體上是合理的,可以作為建模的依據(jù),于是調(diào)查了46名開發(fā)人員的檔案資料,如表。其中資歷一列指從事專業(yè)工作的年數(shù),管理一列中1表示管理人員,0表示非管理人員,教育一列中1表示中學程度,2表示大學程度,3表示更高程度(研究生)2022-5-1654編號薪金資歷管理教育編號薪金資歷管理教育0113876111131980031302116081031411417401031870111315202634130411283102161323140305117671031712844402062087221218132455020711772202191367750308105
43、352012015965511091219520321123666011012313302222135261311149753112313839602122137131224228846122022-5-1655編號薪金資歷管理教育編號薪金資歷管理教育251697871136168821202261480380237241701213271740481138159901301282218481339263301312291354880140179491402301446710014125685151331159421002422783716123223174101343188381602332
44、378010124417483160134254101112451920717023514861110146193462001開發(fā)人員的薪金與他們的資歷、管理責任、教育程度2022-5-1656分析與假設:分析與假設:按照常識,薪金自然按照資歷(年)的增長而增加,管理人員的薪金高于非管理人員,教育程度越高薪金越高。薪金記作y,資歷(年)記作1x,為了表示是否為管理人員定義2x1,管理人員0,非管理人員為了表示三種教育程度,定義3x1,中學0,其它4x1,大學0,其它這樣,中學用0, 143xx表示,大學用1, 043xx表示,研究生則用0, 043xx表示。2022-5-1657為了簡單起見,
45、我們假定資歷(年)對薪金的作用是線性的,即資歷每加一年,薪金的增長是常數(shù);管理責任、教育程度、資歷諸因素之間沒有交互作用,建立線性回歸模型?;灸P停夯灸P停盒浇饄與資歷1x,管理責任2x,教育程度43,xx之間的多元線性回歸模型為443322110 xaxaxaxaay其中,410,aaa是待估計的回歸系數(shù),是隨機誤差。利用MATLAB的系統(tǒng)工具箱可以得到回歸系數(shù)及其置信區(qū)間(置信水平 )05. 0、檢驗統(tǒng)計量pFR,2的結(jié)果,見表。2022-5-1658參數(shù)參數(shù)估計值置信區(qū)間1103210258 11807546484 60868836248 7517-2994-3826 -216214
46、8-636 9310a1a2a3a4a0,226,957. 02pFR2022-5-1659結(jié)果分析:結(jié)果分析:從表中,957. 02R,即因變量(薪金)的95.7%可由模型確定,F(xiàn)值超過F檢驗的臨界值,p遠小于,因而模型從整體來看是可用的。比如,利用模型可以估計(或估計)一個大學畢業(yè)、有2年資歷、管理人員的薪金為12273100243210aaaaay模型中各個回歸系數(shù)的含義可初步解釋如下:1x的系數(shù)為546,說明資歷每增加一年,薪金增長546;2x的系數(shù)為6883,說明管理人員的薪金比非管理人員多6883;3x的系數(shù)為-2994,說明中學程度的薪金比研究生少2994;4x的系數(shù)為148,說
47、明大學程度的薪金比研究生多148,但是應該注意到4a的置信區(qū)間包含零點,所以這個系數(shù)的解釋是不可靠的。注意:上述解釋是就平均值來說的,并且,一個因素改變引起的因變量的變化量,都是在其它因素不變的條件下才成立的。2022-5-1660進一步討論:進一步討論:的置信區(qū)間包含零點,說明上述基本模型存在缺點。為了4a尋找改進的方向,常用殘差分析法(殘差指薪金的實際值y與模型估計的薪金y 之差,是基本模型中隨機誤差的估計值,這里用同一個符號)。我們將影響因素分成資歷與管理教育組合兩類,管理-教育組合定義如表。組合1 23456管理010101教育112233管理管理教育組合教育組合2022-5-1661
48、為了對殘差進行分析,下圖給出與資歷1x的關系,及與管理2x-教育43, xx組合間的關系。與資歷1x的關系與432,xxx 組合的關系從左圖看,殘差大概分成3個水平,這是由于6種管理教育組合混在一起,在模型中未被正確反映的結(jié)果;從右圖看,對于前4個管理教育組合,殘差或者全為正,或者全為負,也表明管理-教育組合在模型中處理不當。在模型中,管理責任和教育程度是分別起作用的,事實上,二者可能起著交互作用,如大學程度的管理人員的薪金會比二者分別的薪金之和高一點。2022-5-1662以上分析提示我們,應在基本模型中增加管理更好的模型:更好的模型:2x與教育43, xx的交互項,建立新的回歸模型。增加2
49、x與43, xx的交互項后,模型記作426325443322110 xxaxxaxaxaxaxaay利用MATLAB的統(tǒng)計工具箱得到的結(jié)果如表:2022-5-1663參數(shù)參數(shù)估計值置信區(qū)間1120411044 11363497486 50870486841 7255-1727-1939 -1514-348-545 -152-3071-3372 -276918361571 21010a1a2a3a4a5a6a0,554,999. 02pFR2022-5-1664由上表可知,這個模型的做該模型的兩個殘差分析圖,可以看出,已經(jīng)消除了不正?,F(xiàn)象,這也說明了模型的適用性。2R和F值都比上一個模型有所改進
50、,并且所有回歸系數(shù)的置信區(qū)間都不含零點,表明這個模型完全可用。與1x的關系與432,xxx 組合的關系2022-5-1665從上圖,還可以發(fā)現(xiàn)一個異常點:具有10年資歷、大學程度的管理人員(編號33)的實際薪金明顯低于模型的估計值,也明顯低于與他有類似經(jīng)歷的其他人的薪金。這可能是由我們未知的原因造成的。為了使個別數(shù)據(jù)不致影響整個模型,應該將這個異常數(shù)據(jù)去掉,對模型重新估計回歸系數(shù),得到的結(jié)果如表。殘差分析見圖??梢钥吹?,去掉異常數(shù)據(jù)后結(jié)果又有改善。2022-5-1666參數(shù)參數(shù)估計值置信區(qū)間1120011139 11261498494 50370416962 7120-1737-1818 -1
51、656-356-431 -281-3056-3171 -294219971894 21000a1a2a3a4a5a6a0,36701,9998. 02pFR2022-5-1667與1x的關系與432,xxx 組合的關系模型的應用:模型的應用:對于第二個模型,用去掉異常數(shù)據(jù)(33號)后估計出的系數(shù)得到的結(jié)果是滿意的。模型的應用之一,可以用來“制訂”6種管理教育組合人員的“基礎”薪金(即資歷為零的薪金),這是平均意義上的。利用第二個模型和去掉異常數(shù)據(jù)后得到的回歸系數(shù),可以得到如下結(jié)果:2022-5-1668組合管理教育系數(shù)“基礎”薪金10194632111344830210844412198825
52、03112006131824130aa 5320aaaa40aa 6420aaaa0a20aa 2022-5-1669可以看出,大學程度的管理人員薪金比研究生程度管理人員薪金高,而大學程度的非管理人員薪金比研究生程度非管理人員薪金略低。當然,這是根據(jù)這家公司實際數(shù)據(jù)建立的模型得到的結(jié)果,并不具普遍性。評注:評注:從建立回歸模型的角度,通過這個問題的求解我們學習了:1) 對于影響因變量的定性因素(管理、教育),可以引入 01變量來處理,01變量的個數(shù)比定性因素的水平少 1(如教育程度有3個水平,引入2個01變量)。2) 用殘差分析法可以發(fā)現(xiàn)模型的缺陷,引入交互作用項常 ??梢缘玫礁纳?。3) 若發(fā)
53、現(xiàn)異常值應剔除,有助于結(jié)果的合理性。思考:思考:在這里我們由簡到繁,先分別引進管理和教育因素,再引入交互項。試直接對6種管理-教育組合引入5個01變量,建立模型,看結(jié)果如何。2022-5-1670五五 教學評估教學評估為了考評教師的教學質(zhì)量,教學研究部門設計了一個教學評估表,對學生進行一次問卷調(diào)查,要求學生對12位教師的15門課程(其中3為教師有兩門課程)按以下7項內(nèi)容打分,分值為15分(5分最好,1分最差):問題:問題:1X課程內(nèi)容組織的合理性;2X主要問題展開的邏輯性;3X回答學生問題的有效性;4X課下交流的有助性;5X教科書的幫助性;6X考試評分的公正性;Y對教師的總體評價。2022-5
54、-1671收回問卷調(diào)查表后,得到了學生對12為教師、15門課程各項評分的平均值,見表。 教師編號課程編號12014.464.424.234.104.564.374.1122244.113.823.293.603.993.823.3833013.583.313.243.764.393.753.1743014.424.374.344.403.634.274.3953014.624.474.534.674.634.574.691X2X3X4X5X6XY2022-5-1672教師編號課程編號63093.183.823.923.623.504.143.2573112.472.793.583.502.84
55、3.842.8483114.293.924.053.762.764.113.9593124.414.364.274.754.594.114.18103124.594.344.244.392.644.384.44113334.554.454.434.574.454.404.47124244.674.644.524.393.484.214.6133513.713.413.394.184.064.063.1744114.284.454.104.073.764.434.1594244.244.384.354.484.154.504.331X2X3X4X5X6XY2022-5-167361 XX不一定每
56、項都對教師總體評價Y有顯著影響,并且各項內(nèi)容之間也可能存在很強的相關性,他們希望得到一個總體評價與各項具體內(nèi)容之間的模型,模型應盡量簡單和有效,并且由此能給教師一些合理的建議,以提高總體評價。準備知識:準備知識:逐步回歸這個問題給出了6個自變量,但我們希望從中選出對因變量Y影響顯著的那些來建立回歸模型。變量選擇的標準應該是將所有對因變量影響顯著的自變量都選入模型,而影響不顯著的自變量都不選入模型,從便于應用的角度,應使模型中的自變量個數(shù)盡量少。逐步回歸就是一種從眾多自變量中有效的選擇重要變量的方法。教學研究部門認為,所列各項具體內(nèi)容2022-5-1674逐步回歸的基本思路是,先確定一個包含若干
57、自變量的初始集合,然后每次從集合外的變量中引入一個對因變量影響最大的,再對集合中的變量進行檢驗,從變得不顯著的變量中移出一個影響最小的,依次進行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標準。利用MATLAB系統(tǒng)工具箱中的逐步回歸命令stepwise可以實現(xiàn)逐步回歸。Stepwise提供人機交互式畫面,可以在畫面上自由引入和移出變量,進行統(tǒng)計分析。具體用法參見MATLAB叢書回歸模型的建立與求解:回歸模型的建立與求解:我們利用MATLAB命令得到各個變量的回歸系數(shù),置信區(qū)間,及剩余標準差(RMSE),決定系數(shù)(R-square),F(xiàn)值,p值。見表。2022-5-1675參數(shù)參數(shù)
58、估計值置信區(qū)間10.51620.01546 0.0192-0.05469-0.853 0.7436 30.6706-0.03795 1.37940.1245-0.462 0.67515-0.04335-0.2514 0.164760.1363-0.6958 0.9684RMSER-squareFp0.11250.980667.292.071e-006可以看到,除1X外其他自變量的回歸系數(shù)置信區(qū)間都包含零點3X在臨界狀態(tài),將6542,XXXX一一移去(與次序無關),當模型中僅含31, XX時結(jié)果見下表。2022-5-1676參數(shù)參數(shù)估計值置信區(qū)間10.50990.326 0.69382-0.11
59、37-0.689 0.4616 30.7678-0.5124 1.02340.0833-0.2767 0.44335-0.018-0.1565 0.120560.1109-0.5594 0.7811RMSER-squareFp0.10.977254.71.487e-010可以看到,僅含31, XX模型的回歸系數(shù)置信區(qū)間遠離零點,31, XX對Y的影響是顯著的,與上個結(jié)果比較,剩余標準差由0.1125減少到0.1,雖然2R略有下降,但F值大大提高。這些表明僅含31, XX模型是合適的。但MATLAB命令并未給出回歸模型的常數(shù)項。我們由以下方法計算得到:2022-5-1677終得到的模型為在最終模
60、型里回歸變量只有2471.133110XbXbYb其中,31,XXY分別是31,XXY的平均值。利用逐步回歸最2471.17678.05099.031XXY模型解釋:模型解釋:31, XX,是一個簡單易用的模型,據(jù)此可把課程內(nèi)容組織的合理性( )1X和回答學生問題的有效性( )列入考評的重點。上式表明,3X1X的分值每增加一分,對教師的總體評價就增加約0.5分;3X的分值每增加一分,對教師的總體評價就增加約0.77分。應建議教師注重這兩方面的工作。為了分析其它變量沒有進入最終模型的原因,可以計算YXX,61的相關系數(shù),利用MATLAB系統(tǒng)工具箱中的corrcoef命令直接得到這7個變量的相關系
61、數(shù)矩陣:2022-5-16781.00000.90080.67520.73610.29100.64710.89730.90081.00000.85040.73990.27750.80260.93630.67520.85041.00000.74990.08080.84900.91160.73610.73990.74991.00000.43700.70410.82190.29100.27750.08080.43701.00000.18720.17830.64710.80260.84900.70410.18721.00000.82460.89730.93630.91160.82190.17830.8
62、2461.0000一般認為,兩個變量的相關系數(shù)超過0.85時才具有顯著的相關關系。由上面的結(jié)果知,與Y相關關系顯著的只有321,XXX而2X未進入最終模型,是由于它與31,XX的相關系數(shù)顯著(相關系數(shù)8504. 0,9008. 03212rr),可以說,模型中有了31, XX以后2022-5-1679變量如果初步看來影響因變量的因素較多,并得到了大量的數(shù)據(jù)。為了建立一個有效的、便于應用的模型,可以利用逐步回歸只選擇那些影響顯著的變量“入圍”。如果懷疑原有變量的平方項、交叉項等也會對變量有顯著影響也可以將這些項作為新的自變量加入到候選行列,用逐步回歸來處理。2X是多余的,應該去掉。評注:評注:2022-5-1680練習:練習:下表給出了某工廠產(chǎn)品的生產(chǎn)批量與單位成本(元)的數(shù)據(jù),從散點圖,可以明顯的發(fā)現(xiàn),生產(chǎn)批量在500以內(nèi)時,單位成本對生產(chǎn)批量服從一種線性關系,生產(chǎn)批量超過500時服從另一種線性關系,此時單位成本明顯下降。希望你構造一個合適的回歸模型全面地描述生產(chǎn)批量與單位成本的關系。生產(chǎn)批量650340400800300600720480440540750單位成本2.48 4.454.52 1.384.652.96 2.18 4.04 4.20 3.101.50
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。