數(shù)學(xué):第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)
《數(shù)學(xué):第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)》由會員分享,可在線閱讀,更多相關(guān)《數(shù)學(xué):第三章《統(tǒng)計案例》教案(1)(新人教A版選修2-3)(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第三章 統(tǒng)計案例 3.1回歸分析的基本思想及其初步應(yīng)用 (共計4課時) 授課類型:新授課 一、教學(xué)內(nèi)容與教學(xué)對象分析 學(xué)生將在必修課程學(xué)習(xí)統(tǒng)計的基礎(chǔ)上,通過對典型案例的討論,了解和使用一些常用的統(tǒng)計方法,進(jìn)一步體會運用統(tǒng)計方法解決實際問題的基本思想,認(rèn)識統(tǒng)計方法在決策中的作用。 二、學(xué)習(xí)目標(biāo) 1、知識與技能 通過本節(jié)的學(xué)習(xí),了解回歸分析的基本思想,會對兩個變量進(jìn)行回歸分析,明確建立回歸模型的基本步驟,并對具體問題進(jìn)行回歸分析,解決實際應(yīng)用問題。 2、過程與方法 本節(jié)的學(xué)習(xí),應(yīng)該讓學(xué)生通過實際問題去理解回歸分析的必要性,明確回歸分析的基本思想,從散點圖中點的分布上我們發(fā)現(xiàn)直接求回歸直線方程存在明顯的不足,從中引導(dǎo)學(xué)生去發(fā)現(xiàn)解決問題的新思路—進(jìn)行回歸分析,進(jìn)而介紹殘差分析的方法和利用R的平方來表示解釋變量對于預(yù)報變量變化的貢獻(xiàn)率,從中選擇較為合理的回歸方程,最后是建立回歸模型基本步驟。 3、情感、態(tài)度與價值觀 通過本節(jié)課的學(xué)習(xí),首先讓顯示了解回歸分析的必要性和回歸分析的基本思想,明確回歸分析的基本方法和基本步驟,培養(yǎng)我們利用整體的觀點和互相聯(lián)系的觀點,來分析問題,進(jìn)一步加強數(shù)學(xué)的應(yīng)用意識,培養(yǎng)學(xué)生學(xué)好數(shù)學(xué)、用好數(shù)學(xué)的信心。加強與現(xiàn)實生活的聯(lián)系,以科學(xué)的態(tài)度評價兩個變量的相關(guān)系。教學(xué)中適當(dāng)?shù)卦黾訉W(xué)生合作與交流的機會,多從實際生活中找出例子,使學(xué)生在學(xué)習(xí)的同時。體會與他人合作的重要性,理解處理問題的方法與結(jié)論的聯(lián)系,形成實事求是的嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和鍥而不舍的求學(xué)精神。培養(yǎng)學(xué)生運用所學(xué)知識,解決實際問題的能力。 三、教學(xué)重點、難點 教學(xué)重點:熟練掌握回歸分析的步驟;各相關(guān)指數(shù)、建立回歸模型的步驟;通過探究使學(xué)生體會有些非線性模型通過變換可以轉(zhuǎn)化為線性回歸模型,了解在解決實際問題的過程中尋找更好的模型的方法。 教學(xué)難點:求回歸系數(shù) a , b ;相關(guān)指數(shù)的計算、殘差分析;了解常用函數(shù)的圖象特點,選擇不同的模型建模,并通過比較相關(guān)指數(shù)對不同的模型進(jìn)行比較。 四、教學(xué)策略: 教學(xué)方法:誘思探究教學(xué)法 學(xué)習(xí)方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結(jié)。 教學(xué)手段:多媒體輔助教學(xué) 五、教學(xué)過程: (一)、復(fù)習(xí)引入:回歸分析是對具有相關(guān)關(guān)系的兩個變量進(jìn)行統(tǒng)計分析的一種常用方法。 (二)、新課: 探究:對于一組具有線性相關(guān)關(guān)系的數(shù)據(jù): () , () ,…, (), 我們知道其回歸方程的截距和斜率的最小二乘估計公式分別為: (1) (2) 其中,()成為樣本點的中心. 注:回歸直線過樣本中心. 你能推導(dǎo)出這兩個計算公式嗎? 從我們已經(jīng)學(xué)過的知識知道,截距和斜率分別是使 取到最小值時的值. 由于 注意到 . 在上式中,后兩項和無關(guān),而前兩項為非負(fù)數(shù),因此要使Q取得最小值,當(dāng)且僅當(dāng)前兩項的值均為0,即有 這正是我們所要推導(dǎo)的公式. 下面我們從另一個角度來推導(dǎo)的公式. 人教A版選修2-2P37習(xí)題1.4A組第4題: 用測量工具測量某物體的長度,由于工具的精度以及測量技術(shù)的原因,測得n個數(shù)據(jù) . 證明:用這個數(shù)據(jù)的平均值 表示這個物體的長度,能使這n個數(shù)據(jù)的方差 最小. 思考:這個結(jié)果說明了什么?通過這個問題,你能說明最小二乘法的基本原理嗎? 證明:由于,所以 , 令, 得。 可以得到, 是函數(shù)的極小值點,也是最小值點. 這個結(jié)果說明,用n個數(shù)據(jù)的平均值表示這個物體的長度是合理的,這就是最小二乘法的基本原理. 由最小二乘法的基本原理即得 定理 設(shè),,則 (*) 當(dāng)且僅當(dāng)時取等號. (*)式說明, 是任何一個實數(shù)與的差的平方的平均數(shù)中最小的數(shù).從而說明了方差具有最小性,也即定義標(biāo)準(zhǔn)差的合理性. 下面借助(*)式求的最小值. , 由(*)式知, 當(dāng)且僅當(dāng),且時, 達(dá)到最小值 . 由此得到,其中是回歸直線的斜率,是截距. 借助和配方法,我們給出了人教A版必修3的第二章統(tǒng)計第三節(jié)變量間的相關(guān)關(guān)系中回歸直線方程的一個合理的解釋 1、回歸分析的基本步驟: (1) 畫出兩個變量的散點圖. (2) 求回歸直線方程. (3) 用回歸直線方程進(jìn)行預(yù)報. 下面我們通過案例,進(jìn)一步學(xué)習(xí)回歸分析的基本思想及其應(yīng)用 2、舉例: 例1. 從某大學(xué)中隨機選取 8 名女大學(xué)生,其身高和體重數(shù)據(jù)如表 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為 172 cm 的女大學(xué)生的體重. 解:由于問題中要求根據(jù)身高預(yù)報體重,因此選取身高為自變量 x ,體重為因變量 y . 作散點圖(圖3 . 1 一 1) 從圖3. 1一1 中可以看出,樣本點呈條狀分布,身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程來近似刻畫它們之間的關(guān)系 根據(jù)探究中的公式(1)和(2 ) ,可以得到. 于是得到回歸方程 . 因此,對于身高172 cm 的女大學(xué)生,由回歸方程可以預(yù)報其體重為 ( kg ) . 是斜率的估計值,說明身高 x 每增加1個單位時,體重y就增加0.849 位,這表明體重與身高具有正的線性相關(guān)關(guān)系.如何描述它們之間線性相關(guān)關(guān)系的強弱? 在必修 3 中,我們介紹了用相關(guān)系數(shù);來衡量兩個變量之間線性相關(guān)關(guān)系的方法本相關(guān)系數(shù)的具體計算公式為 當(dāng)r>0時,表明兩個變量正相關(guān);當(dāng)r<0時,表明兩個變量負(fù)相關(guān).r的絕對值越接近1,表明兩個變量的線性相關(guān)性越強;r的絕對值接近于0時,表明兩個變量之間幾乎不存在線性相關(guān)關(guān)系.通常,當(dāng)r的絕對值大于0. 75 時認(rèn)為兩個變量有很強的線性相關(guān)關(guān)系 在本例中,可以計算出r =0. 798.這表明體重與身高有很強的線性相關(guān)關(guān)系,從而也表明我們建立的回歸模型是有意義的 顯然,身高172cm 的女大學(xué)生的體重不一定是60. 316 kg,但一般可以認(rèn)為她的體重接近于60 . 316 kg .圖3 . 1 一 2 中的樣本點和回歸直線的相互位置說明了這一點 由于所有的樣本點不共線,而只是散布在某一條直線的附近,所以身高和體重的關(guān)系可用下面的線性回歸模型來表示: , ( 3 ) 這里 a 和 b 為模型的未知參數(shù),e是 y 與之間的誤差.通常e為隨機變量,稱為隨機誤差,它的均值 E (e)=0,方差D(e)=>0 .這樣線性回歸模型的完整表達(dá)式為: (4) 在線性回歸模型(4)中,隨機誤差e的方差護(hù)越小,通過回歸直線 (5) 預(yù)報真實值y的精度越高.隨機誤差是引起預(yù)報值與真實值 y 之間的誤差的原因之一,大小取決于隨機誤差的方差. 另一方面,由于公式(1)和(2)中 和為截距和斜率的估計值,它們與真實值a和b之間也存在誤差,這種誤差是引起預(yù)報值與真實值y之間誤差的另一個原因. 思考:產(chǎn)生隨機誤差項e的原因是什么? 一個人的體重值除了受身高的影響外,還受許多其他因素的影響.例如飲食習(xí)慣、是否喜歡運動、度量誤差等.事實上,我們無法知道身高和體重之間的確切關(guān)系是什么,這里只是利用線性回歸方程來近似這種關(guān)系.這種近似以及上面提到的影響因素都是產(chǎn)生隨機誤差 e 的原因. 因為隨機誤差是隨機變量,所以可以通過這個隨機變量的數(shù)字特征來刻畫它的一些總體特征.均值是反映隨機變量取值平均水平的數(shù)字特征,方差是反映隨機變量集中于均值程度的數(shù)字特征,而隨機誤差的均值為0,因此可以用方差來衡量隨機誤差的大小. 為了衡量預(yù)報的精度,需要估計護(hù)的值.一個自然的想法是通過樣本方差來估計總體方差.如何得到隨機變量的樣本呢?由于模型(3)或(4)中的隱含在預(yù)報變量 y 中,我們無法精確地把它從 y 中分離出來,因此也就無法得到隨機變量的樣本. 解決問題的途徑是通過樣本的估計值來估計.根據(jù)截距和斜率的估計公式(1)和(2 ) , 可以建立回歸方程 , 因此是(5)中的估計量.由于隨機誤差,所以是的估計量.對于樣本點() , () ,…, () 而言,相應(yīng)于它們的隨機誤差為 , 其估計值為 , 稱為相應(yīng)于點的殘差(residual ).類比樣本方差估計總體方差的思想,可以用 作為的估計量, 其中和由公式(1) (2)給出,Q( ,)稱為殘差平方和(residual sum of squares ).可以用衡量回歸方程的預(yù)報精度.通常,越小,預(yù)報精度越高. 在研究兩個變量間的關(guān)系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關(guān),是否可以用線性回歸模型來擬合數(shù)據(jù)然后,可以通過殘差 來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù).這方面的分析工作稱為殘差分析.表3一 2 列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 殘差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 我們可以利用圖形來分析殘差特性作圖時縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重的估計值等,這樣作出的圖形稱為殘差圖.圖 3 . 1 一 3 是以樣本編號為橫坐標(biāo)的殘差圖。 從圖3 . 1 一 3 中可以看出,第 1 個樣本點和第 6 個樣本點的殘差比較大,需要確認(rèn)在采集這兩個樣本點的過程中是否有人為的錯誤.如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因.另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適.這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高.另外,我們還可以用相關(guān)指數(shù)來刻畫回歸的效果,其計算公式是: 顯然,取值越大,意味著殘差平方和越小,也就是說模型的擬合效果越好.在線性回歸模型中,表示解釋變量對于預(yù)報變量變化的貢獻(xiàn)率. 越接近于1,表示回歸的效果越好(因為越接近于1,表示解釋變量和預(yù)報變量的線性相關(guān)性越強).如果對某組數(shù)據(jù)可能采取幾種不同的回歸方程進(jìn)行回歸分析,也可以通過比較幾個,選擇大的模型作為這組數(shù)據(jù)的模型。 在例 1 中,=0. 64 ,表明“女大學(xué)生的身高解釋了64 %的體重變化”,或者說“女大學(xué)生的體重差異有 64 %是由身高引起的” 用身高預(yù)報體重時,需要注意下列問題: 1.回歸方程只適用于我們所研究的樣本的總體.例如,不能用女大學(xué)生的身高和體重之間的回歸方程,描述女運動員的身高和體重之間的關(guān)系.同樣,不能用生長在南方多雨地區(qū)的樹木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹木的高與直徑之間的關(guān)系。 2.我們所建立的回歸方程一般都有時間性.例如,不能用 20 世紀(jì) 80 年代的身高體重數(shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關(guān)系。 3.樣本取值的范圍會影響回歸方程的適用范圍.例如,我們的回歸方程是由女大學(xué)生身高和體重數(shù)據(jù)建立的,那么用它來描述一個人幼兒時期的身高和體重之間的關(guān)系就不恰當(dāng)(即在回歸方程中,解釋變量 x 的樣本的取值范圍為[155cm,170cm〕 ,而用這個方程計算 x-70cm 時的y值,顯然不合適。) 4.不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值.事實上,它是預(yù)報變量的可能取值的平均值. 一般地,建立回歸模型的基本步驟為: (1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預(yù)報變量; (2)畫出確定好的解釋變量和預(yù)報變量的散點圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等) (3)由經(jīng)驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性回歸方程 y=bx+a ) (4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法); (5)得出結(jié)果后分析殘差圖是否有異常(個別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等 例2.現(xiàn)收集了一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x之間的7組觀測數(shù)據(jù)列于下表: 溫度xoC 21 23 25 27 29 32 35 產(chǎn)卵數(shù)y/個 7 11 21 24 66 115 325 (1)試建立y與x之間的回歸方程;并預(yù)測溫度為28oC時產(chǎn)卵數(shù)目。 (2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 探究: 方案1(學(xué)生實施): (1)選擇變量,畫散點圖。 (2)通過計算器求得線性回歸方程:=19.87x-463.73 (3)進(jìn)行回歸分析和預(yù)測: R2=r2≈0.8642=0.7464 預(yù)測當(dāng)氣溫為28 時,產(chǎn)卵數(shù)為92個。這個線性回歸模型中溫度解釋了74.64%產(chǎn)卵數(shù)的變化。 困惑:隨著自變量的增加,因變量也隨之增加,氣溫為28 時,估計產(chǎn)卵數(shù)應(yīng)該低于66個,但是從推算的結(jié)果來看92個比66個卻多了26個,是什么原因造成的呢? 方案2: (1)找到變量t=x 2,將y=bx2+a轉(zhuǎn)化成y=bt+a; (2)利用計算器計算出y和t的線性回歸方程:y=0.367t-202.54 (3)轉(zhuǎn)換回y和x的模型: (4)y=0.367x2 -202.54 (5)計算相關(guān)指數(shù)R2≈0.802這個回歸模型中溫度解釋了80.2%產(chǎn)卵數(shù)的變化。 預(yù)測:當(dāng)氣溫為28 時,產(chǎn)卵數(shù)為85個。 困惑:比66還多19個,是否還有更適合的模型呢? 方案3: (1)作變換z=lgy,將轉(zhuǎn)化成z=c2x+lgc1(線性模型)。 (2)利用計算器計算出z和x的線性回歸方程: z=0.118x-1.672 (3)轉(zhuǎn)換回y和x的模型: (4)計算相關(guān)指數(shù)R2≈0.985這個回歸模型中溫度解釋了98.5%產(chǎn)卵數(shù)的變化。 預(yù)測:當(dāng)氣溫為28 時,產(chǎn)卵數(shù)為4 2個。 解:根據(jù)收集的數(shù)據(jù)作散點圖(圖3. 1一4 ) . 在散點圖中,樣本點并沒有分布在某個帶狀區(qū)域內(nèi),因此兩個變量不呈線性相關(guān)關(guān)系,所以不能直接利用線性回歸方程來建立兩個變量之間的關(guān)系.根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線的周圍,其中和是待定參數(shù).現(xiàn)在,問題變?yōu)槿绾喂烙嫶▍?shù)和.我們可以通過對數(shù)變換把指數(shù)關(guān)系變?yōu)榫€性關(guān)系.令,則變換后樣本點應(yīng)該分布在直線的周圍.這樣,就可以利用線性回歸模型來建立 y 和 x 之間的非線性回歸方程了. 由表3一3 的數(shù)據(jù)可以得到變換后的樣本數(shù)據(jù)表 3一4 ,圖3.1一5 給出了表 3 一 4 中數(shù)據(jù)的散點圖.從圖3.1一5 中可以看出,變換后的樣本點分布在一條直線的附近,因此可以用線性回歸方程來擬合. x 21 23 25 27 29 32 35 z 1.946 3.398 3.045 3.178 4.190 4.745 5.784 由表 3 一 4 中的數(shù)據(jù)得到線性回歸方程 . 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 . ( 6 ) 另一方面,可以認(rèn)為圖3. 1一4 中樣本點集中在某二次曲線的附近,其中和為待定參數(shù).因此可以對溫度變量做變換,即令,然后建立y與t之間的線性回歸方程,從而得到y(tǒng)與x之間的非線性回歸方程.表3一5 是紅鈴蟲的產(chǎn)卵數(shù)和對應(yīng)的溫度的平方,圖3 . 1一6 是相應(yīng)的散點圖. t 441 529 625 729 841 1024 1225 x 7 11 21 24 66 115 325 從圖3.1一6 中可以看出,y與t的散點圖并不分布在一條直線的周圍,因此不宜用線性回歸方程來擬合它,即不宜用二次曲線來擬合 y 和 x 之間的關(guān)系.這個結(jié)論還可以通過殘差分析得到,下面介紹具體方法. 為比較兩個不同模型的殘差,需要建立兩個相應(yīng)的回歸方程.前面我們已經(jīng)建立了y 關(guān)于x 的指數(shù)回歸方程,下面建立y關(guān)于x的二次回歸方程.用線性回歸模型擬合表 3 一 5 中的數(shù)據(jù),得到 y 關(guān)于 t 的線性回歸方程 , 即 y 關(guān)于 x 的二次回歸方程為 . ( 7 ) 可以通過殘差來比較兩個回歸方程( 6 )和( 7 )的擬合效果.用 xi表示表3一3 中第 1 行第 i 列的數(shù)據(jù),則回歸方程( 6 )和( 7 )的殘差計算公式分別為 ; . 表3一6 給出了原始數(shù)據(jù)及相應(yīng)的兩個回歸方程的殘差.從表中的數(shù)據(jù)可以看出模型 ( 6 )的殘差的絕對值顯然比模型( 7 )的殘差的絕對值小,因此模型( 6 )的擬合效果比模型( 7 ) 的擬合效果好. x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968 在一般情況下,比較兩個模型的殘差比較困難.原因是在某些樣本點上一個模型的殘差的絕對值比另一個模型的小,而另一些樣本點的情況則相反.這時可以通過比較兩個模型的殘差平方和的大小來判斷模型的擬合效果.殘差平方和越小的模型,擬合的效果越好.由表 3 一 6 容易算出模型( 6 )和( 7 )的殘差平方和分別為 . 因此模型(6)的擬合效果遠(yuǎn)遠(yuǎn)優(yōu)于模型(7). 類似地,還可以用尸來比較兩個模型的擬合效果,R2越大,擬合的效果越好.由表 3 一 6 容易算出模型(6)和(7)的R2分別約為 0 . 98 和 0 . 80 ,因此模型( 6 )的效果好于模型(7) 的效果. 對于給定的樣本點() , () ,…, (),兩個含有未知參數(shù)的模型 和, 其中 a 和 b 都是未知參數(shù).可以按如下的步驟來比較它們的擬合效果: (1)分別建立對應(yīng)于兩個模型的回歸方程與, ,其中和分別是參數(shù)a和b的估計值; (2)分別計算兩個回歸方程的殘差平方和與; ( s )若,則的效果比的好;反之,的效果不如的好. 例2:(提示后做練習(xí)、作業(yè))研究某灌溉渠道水的流速y與水深x之間的關(guān)系,測得一組數(shù)據(jù)如下: 水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速ym/s 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (1)求y對x的回歸直線方程; (2)預(yù)測水深為1。95m 時水的流速是多少? 解:依題意,把溫度作為解釋變量x ,產(chǎn)卵個數(shù)y作為預(yù)報變量 , 作散點圖,由觀察知兩個變量不呈線性相關(guān)關(guān)系。但樣本點分布在某一條指數(shù)函數(shù) y=c1ec2 x 周圍. 令 z=lny , a=lnc1 , b=c2 則 z=bx+a 此時可用線性回歸來擬合 z=0.272x-3.843 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 Y=e0.272x-3.843. 3、從上節(jié)課的例1提出的問題引入線性回歸模型: Y=bx+a+e 解釋變量x 預(yù)報變量y 隨機誤差 e 4、(1) 相關(guān)指數(shù): 相關(guān)系數(shù) r (公式) , r>0 正相關(guān). R<0 負(fù)相關(guān) R絕對值接近于1相關(guān)性強接 r絕對值 近于0 相關(guān)性幾乎無 5、回憶建立模型的基本步驟 ① 例2 問題背景分析 畫散點圖。 ② 觀察散點圖,分析解釋變量與預(yù)報變量更可能是什么函數(shù)關(guān)系。 ③ 學(xué)生討論后建立自己的模型 ④ 引導(dǎo)學(xué)生探究如果不是線性回歸模型如何估計參數(shù)。能否利用回歸模型 通過探究體會有些不是線性的模型通過變換可以轉(zhuǎn)化為線性模型 ⑤ 對數(shù)據(jù)進(jìn)行變換后,對數(shù)據(jù)(新)建立線性模型 ⑥ 轉(zhuǎn)化為原來的變量模型,并通過計算相關(guān)指數(shù)比較幾個不同模型的擬合效果 ⑦ 總結(jié)建模的思想。鼓勵學(xué)生大膽創(chuàng)新。 ⑧ 布置課后作業(yè): 習(xí)題1.1 1、 6、復(fù)習(xí)與鞏固:練習(xí)1:某班5名學(xué)生的數(shù)學(xué)和化學(xué)成績?nèi)缦卤硭?,對x與y進(jìn)行回歸分析,并預(yù)報某學(xué)生數(shù)學(xué)成績?yōu)?5分時,他的化學(xué)成績。 A B C D E 數(shù)學(xué)x 88 76 73 66 63 化學(xué)y 78 65 71 64 61 解略。 練習(xí)2:某醫(yī)院用光電比色計檢驗?zāi)蚬瘯r,得尿汞含量 (mg/l) 與消光系數(shù)的結(jié)果如下: 尿汞含量x 2 4 6 8 10 消光系數(shù)y 64 138 205 285 360 (1)求回歸方程。(2)求相關(guān)指數(shù)R2。 解:略。 (三) 課堂小結(jié) 1.知識梳理: 2規(guī)律小結(jié):(1)回歸直線方程;(2)樣本相關(guān)系數(shù);(3)樣本殘差分析;(4)樣本指數(shù); (5)建立回歸模型的基本步驟。 (四) 作業(yè): (五) 課后反思: 本節(jié)內(nèi)容對回歸分析的探討過程很精彩,學(xué)生討論很熱烈,激發(fā)了學(xué)生的學(xué)習(xí)熱情。但對殘差分析學(xué)生只能欣賞它的過程,計算量太大,思維的跳躍性太強! 3.2 獨立性檢驗的基本思想及其初步應(yīng)用 (共計3課時) 授課類型:新授課 一、教學(xué)內(nèi)容與教學(xué)對象分析 通過典型案例,學(xué)習(xí)下列一些常用的統(tǒng)計方法,并能初步應(yīng)用這些方法解決一些實際問題。 ① 通過對典型案例(如“患肺癌與吸煙有關(guān)嗎”等)的探究。了解獨立性檢驗(只要求2×2列聯(lián)表)的基本思想、方法及初步應(yīng)用。 ② 通過對典型案例(如“人的體重與身高的關(guān)系”等)的探究,了解回歸的基本思想、 方法及其初步應(yīng)用。 二. 學(xué)習(xí)目標(biāo) 1、知識與技能 通過本節(jié)知識的學(xué)習(xí),了解獨立性檢驗的基本思想和初步應(yīng)用,能對兩個分類變量是否有關(guān)做出明確的判斷。明確對兩個分類變量的獨立性檢驗的基本思想具體步驟,會對具體問題作出獨立性檢驗。 2、過程與方法 在本節(jié)知識的學(xué)習(xí)中,應(yīng)使學(xué)生從具體問題中認(rèn)識進(jìn)行獨立性檢驗的作用及必要性,樹立學(xué)好本節(jié)知識的信心,在此基礎(chǔ)上學(xué)習(xí)三維柱形圖和二維柱形圖,并認(rèn)識它們的基本作用和存在的不足,從而為學(xué)習(xí)下面作好鋪墊,進(jìn)而介紹K的平方的計算公式和K的平方的觀測值R的求法,以及它們的實際意義。從中得出判斷“X與Y有關(guān)系”的一般步驟及利用獨立性檢驗來考察兩個分類變量是否有關(guān)系,并能較準(zhǔn)確地給出這種判斷的可靠程度的具體做法和可信程度的大小。最后介紹了獨立性檢驗思想的綜合運用。 3、情感、態(tài)度與價值觀 通過本節(jié)知識的學(xué)習(xí),首先讓學(xué)生了解對兩個分類博變量進(jìn)行獨立性檢驗的必要性和作用,并引導(dǎo)學(xué)生注意比較與觀測值之間的聯(lián)系與區(qū)別,從而引導(dǎo)學(xué)生去探索新知識,培養(yǎng)學(xué)生全面的觀點和辨證地分析問題,不為假想所迷惑,尋求問題的內(nèi)在聯(lián)系,培養(yǎng)學(xué)生學(xué)習(xí)數(shù)學(xué)、應(yīng)用數(shù)學(xué)的良好的數(shù)學(xué)品質(zhì)。加強與現(xiàn)實生活相聯(lián)系,從對實際問題的分析中學(xué)會利用圖形分析、解決問題及用具體的數(shù)量來衡量兩個變量之間的聯(lián)系,學(xué)習(xí)用圖形、數(shù)據(jù)來正確描述兩個變量的關(guān)系。明確數(shù)學(xué)在現(xiàn)實生活中的重要作用和實際價值。教學(xué)中,應(yīng)多給學(xué)生提供自主學(xué)習(xí)、獨立探究、合作交流的機會。養(yǎng)成嚴(yán)謹(jǐn)?shù)膶W(xué)習(xí)態(tài)度及實事求是的分析問題、解決問題的科學(xué)世界觀,并會用所學(xué)到的知識來解決實際問題。 三.教學(xué)重點、難點 教學(xué)重點:理解獨立性檢驗的基本思想;獨立性檢驗的步驟。 教學(xué)難點;1、理解獨立性檢驗的基本思想; 2、了解隨機變量K2的含義; 3、獨立性檢驗的步驟。 四、教學(xué)策略 教學(xué)方法:誘思探究教學(xué)法 學(xué)習(xí)方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結(jié)。 教學(xué)手段:多媒體輔助教學(xué) 五、教學(xué)過程: 對于性別變量,其取值為男和女兩種.這種變量的不同“值”表示個體所屬的不同類別,像這類變量稱為分類變量.在現(xiàn)實生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰,國籍,等等.在日常生活中,我們常常關(guān)心兩個分類變量之間是否有關(guān)系.例如,吸煙與患肺癌是否有關(guān)系?性別對于是否喜歡數(shù)學(xué)課程有影響?等等. 為調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調(diào)查了9965人,得到如下結(jié)果(單位:人) 表3-7 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計 不吸煙 7775 42 7817 吸煙 2099 49 2148 總計 9874 91 9965 那么吸煙是否對患肺癌有影響嗎? 像表3一7 這樣列出的兩個分類變量的頻數(shù)表,稱為列聯(lián)表.由吸煙情況和患肺癌情況的列聯(lián)表可以粗略估計出:在不吸煙者中,有0.54 %患有肺癌;在吸煙者中,有2.28%患有肺癌.因此,直觀上可以得到結(jié)論:吸煙者和不吸煙者患肺癌的可能性存在差異. 與表格相比,三維柱形圖和二維條形圖能更直觀地反映出相關(guān)數(shù)據(jù)的總體狀況.圖3. 2 一1 是列聯(lián)表的三維柱形圖,從中能清晰地看出各個頻數(shù)的相對大?。? 圖3.2一2 是疊在一起的二維條形圖,其中淺色條高表示不患肺癌的人數(shù),深色條高表示患肺癌的人數(shù).從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例. 為了更清晰地表達(dá)這個特征,我們還可用如下的等高條形圖表示兩種情況下患肺癌的比例.如圖3.2一3 所示,在等高條形圖中,淺色的條高表示不患肺癌的百分比;深色的條高表示患肺癌的百分比. 通過分析數(shù)據(jù)和圖形,我們得到的直觀印象是“吸煙和患肺癌有關(guān)”.那么我們是否能夠以一定的把握認(rèn)為“吸煙與患肺癌有關(guān)”呢? 為了回答上述問題,我們先假設(shè) H0:吸煙與患肺癌沒有關(guān)系.用A表示不吸煙, B表示不患肺癌,則“吸煙與患肺癌沒有關(guān)系”獨立”,即假設(shè) H0等價于 PAB)=P(A)+P(B) . 把表3一7中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表: 表3-8 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計 不吸煙 a b a+b 吸煙 c d c+d 總計 a+c b+d a+b+c+d 在表3一8中,a恰好為事件AB發(fā)生的頻數(shù);a+b 和a+c恰好分別為事件A和B發(fā)生的頻數(shù).由于頻率近似于概率,所以在H0成立的條件下應(yīng)該有 , 其中為樣本容量, (a+b+c+d)≈(a+b)(a+c) , 即ad≈bc. 因此,|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;|ad -bc|越大,說明吸煙與患肺癌之間關(guān)系越強. 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于上面的分析,我們構(gòu)造一個隨機變量 (1) 其中為樣本容量. 若 H0 成立,即“吸煙與患肺癌沒有關(guān)系”,則 K “應(yīng)該很?。鶕?jù)表3一7中的數(shù)據(jù),利用公式(1)計算得到 K “的觀測值為 , 這個值到底能告訴我們什么呢? 統(tǒng)計學(xué)家經(jīng)過研究后發(fā)現(xiàn),在 H0成立的情況下, . (2) (2)式說明,在H0成立的情況下,的觀測值超過 6. 635 的概率非常小,近似為0 . 01,是一個小概率事件.現(xiàn)在的觀測值≈56.632 ,遠(yuǎn)遠(yuǎn)大于6. 635,所以有理由斷定H0不成立,即認(rèn)為“吸煙與患肺癌有關(guān)系”.但這種判斷會犯錯誤,犯錯誤的概率不會超過0.01,即我們有99%的把握認(rèn)為“吸煙與患肺癌有關(guān)系” 在上述過程中,實際上是借助于隨機變量的觀測值建立了一個判斷H0是否成立的規(guī)則: 如果≥6. 635,就判斷H0不成立,即認(rèn)為吸煙與患肺癌有關(guān)系;否則,就判斷H0成立,即認(rèn)為吸煙與患肺癌沒有關(guān)系 在該規(guī)則下,把結(jié)論“H0 成立”錯判成“H0 不成立”的概率不會超過 , 即有99%的把握認(rèn)為從不成立. 上面解決問題的想法類似于反證法.要確認(rèn)是否能以給定的可信程度認(rèn)為“兩個分類變量有關(guān)系”,首先假設(shè)該結(jié)論不成立,即 H0:“兩個分類變量沒有關(guān)系” 成立.在該假設(shè)下我們所構(gòu)造的隨機變量應(yīng)該很?。绻捎^測數(shù)據(jù)計算得到的的觀測值k很大,則在一定可信程度上說明H0不成立,即在一定可信程度上認(rèn)為“兩個分類變量有關(guān)系”;如果k的值很小,則說明由樣本觀測數(shù)據(jù)沒有發(fā)現(xiàn)反對H0 的充分證據(jù) 怎樣判斷的觀測值 k 是大還是小呢?這僅需確定一個正數(shù),當(dāng)時就認(rèn)為 的觀測值k大.此時相應(yīng)于的判斷規(guī)則為: 如果,就認(rèn)為“兩個分類變量之間有關(guān)系”;否則就認(rèn)為“兩個分類變量之間沒有關(guān)系”. 我們稱這樣的為一個判斷規(guī)則的臨界值.按照上述規(guī)則,把“兩個分類變量之間沒有關(guān)系”錯誤地判斷為“兩個分類變量之間有關(guān)系”的概率為. 在實際應(yīng)用中,我們把解釋為有的把握認(rèn)為“兩個分類變量之間有關(guān)系”;把解釋為不能以的把握認(rèn)為“兩個分類變量之間有關(guān)系”,或者樣本觀測數(shù)據(jù)沒有提供“兩個分類變量之間有關(guān)系”的充分證據(jù).上面這種利用隨機變量來確定是否能以一定把握認(rèn)為“兩個分類變量有關(guān)系”的方法,稱為兩個分類變量的獨立性檢驗 利用上面結(jié)論,你能從列表的三維柱形圖中看出兩個變量是否相關(guān)嗎? 一般地,假設(shè)有兩個分類變量X和Y,它們的可能取值分別為{}和{}, 其樣本頻數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為: 表3一 9 2×2列聯(lián)表 總計 總計 若要推斷的論述為 Hl:X與Y有關(guān)系, 可以按如下步驟判斷結(jié)論Hl 成立的可能性: 1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關(guān)系,但是這種判斷無法精確地給出所得結(jié)論的可靠程度. ① 在三維柱形圖中,主對角線上兩個柱形高度的乘積ad 與副對角線上的兩個柱形高度的乘積bc相差越大,H1成立的可能性就越大. ② 在二維條形圖中,可以估計滿足條件X=的個體中具有Y=的個體所占的比例,也可以估計滿足條件X=的個體中具有Y=,的個體所占的比例.“兩個比例的值相差越大,Hl 成立的可能性就越大. 2.可以利用獨立性檢驗來考察兩個分類變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度.具體做法是: ① 根據(jù)實際問題需要的可信程度確定臨界值; ② 利用公式( 1 ) ,由觀測數(shù)據(jù)計算得到隨機變量的觀測值; ③ 如果,就以的把握認(rèn)為“X與Y有關(guān)系”;否則就說樣本觀測數(shù)據(jù)沒有提供“X與Y有關(guān)系”的充分證據(jù). 在實際應(yīng)用中,要在獲取樣本數(shù)據(jù)之前通過下表確定臨界值: 表3一10 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 1.323 2.706 3.841 5.024 6.635 10.828 (四)、舉例: 例1.在某醫(yī)院,因為患心臟病而住院的 665 名男性病人中,有 214 人禿頂,而另外 772 名不是因為患心臟病而住院的男性病人中有 175 人禿頂. (1)利用圖形判斷禿頂與患心臟病是否有關(guān)系. (2)能夠以 99 %的把握認(rèn)為禿頂與患心臟病有關(guān)系嗎?為什么? 解:根據(jù)題目所給數(shù)據(jù)得到如下列聯(lián)表: (1)相應(yīng)的三維柱形圖如圖3.2一4所示.比較來說,底面副對角線上兩個柱體高度的乘積要大一些,可以在某種程度上認(rèn)為“禿頂與患心臟病有關(guān)”. (2)根據(jù)列聯(lián)表3一11中的數(shù)據(jù),得到 ≈16.373>6 . 因此有 99 %的把握認(rèn)為“禿頂與患心臟病有關(guān)” . 例2.為考察高中生的性別與是否喜歡數(shù)學(xué)課程之間的關(guān)系,在某城市的某校高中生中隨機抽取300名學(xué)生,得到如下列聯(lián)表: 表3一12 性別與喜歡數(shù)學(xué)課程列聯(lián)表 喜歡數(shù)學(xué)課程 不喜歡數(shù)學(xué)課程 總計 男 37 85 122 女 35 143 178 總計 72 228 300 由表中數(shù)據(jù)計算得的觀測值.能夠以95%的把握認(rèn)為高中生的性別與是否喜歡數(shù)學(xué)課程之間有關(guān)系嗎?請詳細(xì)闡明得出結(jié)論的依據(jù). 解:可以有約95%以上的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”.作出這種判斷的依據(jù)是獨立性檢驗的基本思想,具體過程如下: 分別用a , b , c , d 表示樣本中喜歡數(shù)學(xué)課的男生人數(shù)、不喜歡數(shù)學(xué)課的男生人數(shù)、喜歡數(shù)學(xué)課的女生人數(shù)、不喜歡數(shù)學(xué)課的女生人數(shù).如果性別與是否喜歡數(shù)學(xué)課有關(guān)系,則男生中喜歡數(shù)學(xué)課的比例與女生中喜歡數(shù)學(xué)課的人數(shù)比例應(yīng)該相差很多,即 應(yīng)很大. 將上式等號右邊的式子乘以常數(shù)因子 , 然后平方得 , 其中.因此越大,“性別與喜歡數(shù)學(xué)課之間有關(guān)系”成立的可能性越大. 另一方面,在假設(shè)“性別與喜歡數(shù)學(xué)課之間沒有關(guān)系”的前提下,事件A ={≥3. 841}的概率為P (≥3. 841) ≈0.05, 因此事件 A 是一個小概率事件.而由樣本數(shù)據(jù)計算得的觀測值k=4.514,即小概率事件 A發(fā)生.因此應(yīng)該斷定“性別與喜歡數(shù)學(xué)課之間有關(guān)系”成立,并且這種判斷結(jié)果出錯的可能性約為5 %.所以,約有95 %的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”. 補充例題1:打鼾不僅影響別人休息,而且可能與患某種疾病有關(guān),下表是一次調(diào)查所得的數(shù)據(jù),試問:每一晚都打鼾與患心臟病有關(guān)嗎? 患心臟病 未患心臟病 合計 每一晚都打鼾 30 224 254 不打鼾 24 1355 1379 合計 54 1579 1633 解:略。 補充例題2: 對196個接受心臟搭橋手術(shù)的病人和196個接受血管清障手術(shù)的病人進(jìn)行3年跟蹤研究,調(diào)查他們是否又發(fā)作過心臟病,調(diào)查結(jié)果如下表所示: 又發(fā)作過心臟病 未發(fā)作過心臟病 合計 心臟搭橋手術(shù) 39 157 196 血管清障手術(shù) 29 167 196 合計 68 324 392 試根據(jù)上述數(shù)據(jù)比較兩種手術(shù)對病人又發(fā)作心臟病的影響有沒有差別。 解略 (四) 課堂小結(jié) 1.知識梳理 2.規(guī)律小結(jié) (1)三維柱形圖與二維條形圖 (2)獨立性檢驗的基本思想 (3)獨立性檢驗的一般方法 (五) 作業(yè) 五 課后反思: 本節(jié)內(nèi)容對獨立性檢驗的探討過程學(xué)生基本沒什么困難,還有學(xué)生提出了新的探討路徑和思想,學(xué)生思維活潑!對獨立性檢驗的作用,本節(jié)課也作了系統(tǒng)總結(jié)比較。 - 22 -- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計案例 數(shù)學(xué) 第三 統(tǒng)計 案例 教案 新人 選修
鏈接地址:http://kudomayuko.com/p-1381537.html