人民大學(xué)統(tǒng)計(jì)學(xué)在職題庫(kù)統(tǒng)計(jì)綜述答案.doc
《人民大學(xué)統(tǒng)計(jì)學(xué)在職題庫(kù)統(tǒng)計(jì)綜述答案.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《人民大學(xué)統(tǒng)計(jì)學(xué)在職題庫(kù)統(tǒng)計(jì)綜述答案.doc(88頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):1 一、 (20分) 隨機(jī)抽取20塊手機(jī)電池,測(cè)得其使用壽命數(shù)據(jù)如下(單位:小時(shí)): 1008 993 998 1007 1011 1002 1013 999 1008 995 983 995 1000 977 1015 1010 998 1005 1011 996 列出描述上述數(shù)據(jù)所適用的統(tǒng)計(jì)圖形,并說(shuō)明這些圖形的用途。 直方圖:直觀的展示一組數(shù)據(jù)(電池使用壽命)的分布情況。 箱線圖:直觀反映原始數(shù)據(jù)(電池壽命)的數(shù)據(jù)分布的特征,如偏態(tài),是否有離群點(diǎn)。 二、 (20分)方差分析中有哪些基本假定?這些假定中對(duì)哪個(gè)假定的要求比較嚴(yán)格? 1、方差分析有3個(gè)基本假定: (1)正態(tài)性:每個(gè)總體都應(yīng)服從正態(tài)分布,即對(duì)于因子的每一個(gè)水平,其觀測(cè)值是來(lái)自正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本; (2)方差齊性:各個(gè)總體的方差必須相同; (3)獨(dú)立性:每個(gè)樣本數(shù)據(jù)是來(lái)自因子各水平的獨(dú)立樣本 2、對(duì)獨(dú)立性要求比較嚴(yán)格,獨(dú)立性得不到滿足會(huì)對(duì)方差分析結(jié)果有較大影響,對(duì)正態(tài)性和方差齊性的要求相對(duì)比較寬松。 三、 (20分)某種食品每袋的標(biāo)準(zhǔn)重量是100克,從該批食品中抽取一個(gè)隨機(jī)樣本,檢驗(yàn)假設(shè),。 (1) 如果拒絕,你的結(jié)論是什么?,如果不拒絕,你的結(jié)論是什么? (2) 能否得到一個(gè)樣本能夠證明該食品的平均重量是100克?請(qǐng)說(shuō)明理由。 (3) 如果由該樣本得到的檢驗(yàn)的,你的結(jié)論是什么?0.03這個(gè)值是犯第Ⅰ類錯(cuò)誤的概率,是實(shí)際算出來(lái)的顯著性水平,你怎樣解釋這個(gè)值? (1)拒絕:該種食品每袋的平均重量不是100g 不拒絕:提供的樣本不能證明該種食品每袋的平均重量不是100g (2)不能,樣本得出的結(jié)論只能是拒絕或不拒絕原假設(shè),并不能直接確定原假設(shè)為真 (3)結(jié)論:若給定顯著性水平為0.05,則可以拒絕原假設(shè),認(rèn)為該食品每袋的平均重量不是100克;但若給定顯著性水平為0.01,則不能拒絕原假設(shè) P值: 如果該種食品每袋的平均重量是100g,樣本結(jié)果會(huì)像實(shí)際觀測(cè)那樣極端或更極端的概率僅為0.03 四、 (20分)在建立多元線性回歸模型時(shí),通常需要對(duì)自變量進(jìn)行篩選。 (1) 請(qǐng)談?wù)勀銓?duì)變量篩選的必要性的看法。 (2) 列出變量篩選的方法,請(qǐng)簡(jiǎn)要說(shuō)明這些方法的特點(diǎn)。 (1)若將所有的自變量都引入回歸模型,往往會(huì)導(dǎo)致所建立的模型不能進(jìn)行有效的解釋,也可能會(huì)導(dǎo)致多重共線性,增加自變量還會(huì)導(dǎo)致判定系數(shù)增大,從而高估模型擬合優(yōu)度。 (2)變量篩選有向前選擇、向后剔除、逐步回歸等方法。特點(diǎn)如下: 向前選擇:從沒(méi)有自變量開(kāi)始,不停向模型中增加自變量,直到增加不能導(dǎo)致SSE顯著增加為止。 向后剔除:從所有自變量開(kāi)始,不停從模型中剔除自變量,直到剔除不能導(dǎo)致SSE顯著減小為止。 逐步回歸:結(jié)合向前選擇和向后剔除,從沒(méi)有自變量開(kāi)始,不停向模型中增加自變量,每增加一個(gè)自變量就對(duì)所有現(xiàn)有的自變量進(jìn)行考察,若某個(gè)自變量對(duì)模型的貢獻(xiàn)變得不顯著就剔除。如此反復(fù),直到增加變量不能導(dǎo)致SSE顯著減少為止。 五、 (20分)如果一個(gè)時(shí)間序列包含趨勢(shì)、季節(jié)成分、隨機(jī)波動(dòng),適用的預(yù)測(cè)方法有哪些?對(duì)這些方法做檢驗(yàn)說(shuō)明。 可以使用Winter指數(shù)平滑模型、引入季節(jié)啞變量的多元回歸和分解法等進(jìn)行預(yù)測(cè)。 (1)Winter指數(shù)平滑模型 包含三個(gè)平滑參數(shù),即α、β、γ(取值均在0~1),以及平滑值St、趨勢(shì)項(xiàng)更新Tt、季節(jié)項(xiàng)更新It、未來(lái)第k期的預(yù)測(cè)值Ft+k。 L為季節(jié)周期的長(zhǎng)度,對(duì)于季度數(shù)據(jù),L=4,對(duì)于月份數(shù)據(jù),L=12;I為季節(jié)調(diào)節(jié)因子。平滑值消除季節(jié)變動(dòng),趨勢(shì)項(xiàng)更新是對(duì)趨勢(shì)值得修正,季節(jié)項(xiàng)更新是t期的季節(jié)調(diào)整因子,F(xiàn)t+k=(St+kTt)It-L+k是用于預(yù)測(cè)的模型。 使用Winter 模型進(jìn)行預(yù)測(cè),要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個(gè)以上的季節(jié)周期(4年以上的數(shù)據(jù))。 使用Winter 模型進(jìn)行預(yù)測(cè),要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個(gè)以上的季節(jié)周期(4年以上的數(shù)據(jù))。 (2)引入季節(jié)啞變量的多元回歸 對(duì)于以季度記錄的數(shù)據(jù),引入3個(gè)啞變量 Q2、Q3、Q4,其中Q2=1(第1季度)或0(其他季度),以此類推,則季節(jié)性多元回歸模型表示為: Y=b0+b1t+b2Q2+b3Q3+b4Q4 其中b0是常數(shù)項(xiàng),b1是趨勢(shì)成分的系數(shù),表示趨勢(shì)給時(shí)間序列帶來(lái)的影響,b2、b3、b4表示每一季度與參照的第1季度的平均差值。 (3)分解預(yù)測(cè) 第1步,確定并分離季節(jié)成分。計(jì)算季節(jié)指數(shù),然后將季節(jié)成分從時(shí)間序列中分離出去,即用每一個(gè)時(shí)間序列觀測(cè)值除以相應(yīng)的季節(jié)指數(shù)以消除季節(jié)性。 第2步,建立預(yù)測(cè)模型并進(jìn)行預(yù)測(cè)。對(duì)消除了季節(jié)成分的時(shí)間序列建立適當(dāng)?shù)念A(yù)測(cè)模型,并根據(jù)這一模型進(jìn)行預(yù)測(cè)。 第3步,計(jì)算出最后的預(yù)測(cè)值。用預(yù)測(cè)值乘以相應(yīng)的季節(jié)指數(shù),得到最終的預(yù)測(cè)值。 2中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):2 一、 (20分)在某小學(xué)隨機(jī)抽取35名小學(xué)生,調(diào)查他們每周購(gòu)買零食的花費(fèi)情況,得到的數(shù)據(jù)如下(單位:元): 24 17 26 29 38 6 28 44 39 8 30 17 26 32 40 10 20 27 43 33 15 4 28 35 26 47 25 17 26 45 16 36 29 37 5 列出描述上述數(shù)據(jù)所適用的統(tǒng)計(jì)量,并說(shuō)明這些統(tǒng)計(jì)量的用途。 平均數(shù):用于度量對(duì)象的一般水平。 中位數(shù)(分位數(shù)):用中間(某個(gè))位置上的值代表數(shù)據(jù)水平,也用于度量對(duì)象的一般情況,且不受極值的影響具有穩(wěn)定性。 方差(標(biāo)準(zhǔn)差):用于描述一組數(shù)據(jù)的差異水平,越大說(shuō)明數(shù)據(jù)的分布越分散不穩(wěn)定。 偏態(tài)系數(shù):用于描述數(shù)據(jù)分布的不對(duì)稱性,越接近0越對(duì)稱。 峰度系數(shù):用于描述數(shù)據(jù)分布峰值高低,大于0為尖峰,小于0為扁平分布。 二、 (20分)簡(jiǎn)要說(shuō)明分布和分布在推斷統(tǒng)計(jì)中應(yīng)用。 t分布:當(dāng)正態(tài)總體標(biāo)準(zhǔn)差未知時(shí),在小樣本的條件下對(duì)總體均值的估計(jì)和檢驗(yàn)要用到t分布。描述樣本均值分布,用于對(duì)兩個(gè)樣本均值差異進(jìn)行顯著性測(cè)試、估算置信區(qū)間等。 F分布:通常用于比較不同總體的方差是否有顯著差異。應(yīng)用于方差分析、協(xié)方差分析和回歸分析等,還可用于似然比檢驗(yàn)。 三、 (20分)什么是值?要證明原假設(shè)不正確,如何確定合理的值? P值:犯第I類錯(cuò)誤的真實(shí)概率,也稱觀察到的顯著性水平。是當(dāng)原假設(shè)為真時(shí),得到的樣本結(jié)果會(huì)像實(shí)際觀測(cè)結(jié)果這樣極端或者更極端的概率。 若要證明原假設(shè)不正確,則由樣本得到的P值應(yīng)小于給定的顯著性水平。 四、 (20分)某企業(yè)準(zhǔn)備用三種方法組裝一種新的產(chǎn)品,為確定哪種方法每小時(shí)生產(chǎn)的產(chǎn)品數(shù)量最多,隨機(jī)抽取了30名工人,并指定每個(gè)人使用其中的一種方法。通過(guò)對(duì)每個(gè)工人生產(chǎn)的產(chǎn)品數(shù)進(jìn)行方差分析得到下面的結(jié)果: 方差分析表 差異源 SS df MS F P-value 組間 210 0.245946 組內(nèi) 3836 — — 總計(jì) 2 — — — (1) 完成上面的方差分析表。 (2) 組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強(qiáng)度如何? (3) 若顯著性水平,檢驗(yàn)三種方法組裝的產(chǎn)品數(shù)量之間是否有顯著差異? (1) 差異源 SS df MS F P-value 組間 2*210=420 I-1=2 210 210142.07=1.478 0.245946 組內(nèi) 3836 30-3=27 383627=142.07 — — 總計(jì) 420+3836=4256 29 — — — (2) 從P值來(lái)看,組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強(qiáng)度較弱。 (3) 原假設(shè):三種方法每小時(shí)組裝的產(chǎn)品數(shù)量沒(méi)有差異 若顯著性水平為0.05,則P>0.05,因此不能拒絕原假設(shè),即不能證明三種方法組裝的產(chǎn)品數(shù)量之間有顯著差異。 五、 (20分)簡(jiǎn)要說(shuō)明分解預(yù)測(cè)的基本步驟。 第1步,確定并分離季節(jié)成分。計(jì)算季節(jié)指數(shù),然后將季節(jié)成分從時(shí)間序列中分離出去,即用每一個(gè)時(shí)間序列觀測(cè)值除以相應(yīng)的季節(jié)指數(shù)以消除季節(jié)性。 第2步,建立預(yù)測(cè)模型并進(jìn)行預(yù)測(cè)。對(duì)消除了季節(jié)成分的時(shí)間序列建立適當(dāng)?shù)念A(yù)測(cè)模型,并根據(jù)這一模型進(jìn)行預(yù)測(cè)。 第3步,計(jì)算出最后的預(yù)測(cè)值。用預(yù)測(cè)值乘以相應(yīng)的季節(jié)指數(shù),得到最終的預(yù)測(cè)值。 3中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):3 一、 (20分)在2008年8月10日舉行的第29屆北京奧運(yùn)會(huì)女子10米氣手槍決賽中,進(jìn)入決賽的8名運(yùn)動(dòng)員的預(yù)賽成績(jī)和最后10槍的決賽成績(jī)?nèi)缦卤恚? 要對(duì)各名運(yùn)動(dòng)員進(jìn)行綜合評(píng)價(jià),使用的統(tǒng)計(jì)量有哪些?簡(jiǎn)要說(shuō)明這些統(tǒng)計(jì)量的用途。 (1)集中趨勢(shì):指一組數(shù)據(jù)向某一中心值靠攏的程度,它可以反映選手射擊成績(jī)中心點(diǎn)的位置 平均數(shù):一組數(shù)據(jù)相加后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。若各組數(shù)據(jù)在組內(nèi)是平均分布的,則計(jì)算的結(jié)果還是比較準(zhǔn)確的,否則誤差會(huì)比較大。(如中國(guó)選手發(fā)揮很穩(wěn)定,適合使用平均數(shù)判斷其成績(jī)) 中位數(shù):一組數(shù)據(jù)排序后處于中間位置上的變量值,但不受極端值的影響。(如波蘭選手大多數(shù)成績(jī)比較平均,但有一槍打到8.1,會(huì)嚴(yán)重影響其平均值,但不會(huì)影響中位數(shù)) (2)離散程度:各變量值遠(yuǎn)離其中心值的程度,它可以反映選手發(fā)揮的穩(wěn)定性 標(biāo)準(zhǔn)差:方差的平方根,能夠很好的反映出數(shù)據(jù)的離散程度,若選手的平均成績(jī)差異不大,可以通過(guò)直接比較標(biāo)準(zhǔn)差的方式進(jìn)行衡量 離散系數(shù):一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比,離散系數(shù)越大則數(shù)據(jù)的離散程度也大,若選手的平均成績(jī)差異很大,則需要計(jì)算離散系數(shù)比較穩(wěn)定性 極差:一組數(shù)據(jù)的最大值與最小值之差,它容易受極端值的影響,不能反映中間數(shù)據(jù)的分散情況,但可從另一方面選手是否存在發(fā)揮異常 (3)分布形狀 峰態(tài):峰態(tài)是對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)度,當(dāng)K>0時(shí)為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時(shí)為扁平分布,數(shù)據(jù)的分布越分散。通過(guò)對(duì)選手的峰態(tài)分布情況分析,可看出成績(jī)分布是否平均。 偏態(tài):偏態(tài)是對(duì)數(shù)據(jù)分布對(duì)稱性的測(cè)量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對(duì)稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。通過(guò)對(duì)選手的偏態(tài)分布情況情況分析,可看出選手成績(jī)分布是否對(duì)稱,是否受比賽時(shí)長(zhǎng)影響。 二、 (20分)為什么說(shuō)假設(shè)檢驗(yàn)不能證明原假設(shè)正確? (1)假設(shè)檢驗(yàn)的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因?yàn)榧僭O(shè)檢驗(yàn)只提供不利于原假設(shè)的證據(jù)(證據(jù)的強(qiáng)弱取決于P值的大?。?。因此,當(dāng)拒絕原假設(shè)時(shí),表明樣本提供的證據(jù)證明它是錯(cuò)誤的;當(dāng)沒(méi)有拒絕原假設(shè)時(shí),我們也沒(méi)法證明它是正確的,因?yàn)榧僭O(shè)檢驗(yàn)的程序沒(méi)有提供它正確的證據(jù)。 (2)假設(shè)檢驗(yàn)得出的結(jié)論都是根據(jù)原假設(shè)進(jìn)行闡述的。我們要么拒絕原假設(shè),要么不拒絕原假設(shè)。當(dāng)不能拒絕原假設(shè)時(shí),我們也不能說(shuō)“接受原假設(shè)”,因?yàn)闆](méi)有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)證明了原假設(shè)時(shí)真的,它僅僅意味著目前我們還沒(méi)有足夠的證據(jù)證明原假設(shè),只表示目前的樣本提供的證據(jù)還不足以拒絕原假設(shè)。 (3)假設(shè)檢驗(yàn)通常是先確定顯著性水平α,這等于控制了第Ⅰ類錯(cuò)誤的概率;但犯第Ⅱ類錯(cuò)誤的概率β卻是不確定的。在拒絕H0時(shí),犯第Ⅰ類錯(cuò)誤的概率不超過(guò)給定的顯著性水平α;當(dāng)樣本結(jié)果顯示沒(méi)有充分理由拒絕原假設(shè)時(shí),也難以確定第Ⅱ類錯(cuò)誤發(fā)生的概率。因此,在假設(shè)檢驗(yàn)中采用“不拒絕H0”而不采用“接受H0”的表述方法,這樣在多數(shù)場(chǎng)合下便避免了第Ⅱ類錯(cuò)誤發(fā)生的風(fēng)險(xiǎn)。 三、 (20分)為估計(jì)公共汽車從起點(diǎn)到終點(diǎn)平均行駛的時(shí)間,一家公交公司隨機(jī)抽取36班公共汽車,得到平均行駛的時(shí)間為26分鐘,標(biāo)準(zhǔn)差為8分鐘。 (1) 說(shuō)明樣本均值服從什么分布?依據(jù)是什么? (2) 計(jì)算平均行駛時(shí)間95%的置信區(qū)間。 (3) 解釋95%的置信水平的含義。 (,,,) (1)樣本均值服從正態(tài)分布。通過(guò)中心極限定理:設(shè)從均值為μ,方差為σ2(有限)的任意一個(gè)總體中抽取樣本量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值μ、方差σ2n的正態(tài)分布。一般統(tǒng)計(jì)學(xué)中的n≥30為大樣本,本題中抽取了36個(gè)樣本,因此樣本均值服從正態(tài)分布。 (2)已知n=36,x=26,s=8,置信區(qū)間95%所以zα2=z0.052=1.96 平均行駛時(shí)間95%的置信區(qū)間為: x ± zα2 sn = 26±1.96 x 836 = 26±2.61 即(23.39,28.61) (3)一般地,如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,5%的區(qū)間不包含總體參數(shù)的真值,那么用該方法構(gòu)造的區(qū)間稱為置信水平為95%的置信區(qū)間。 四、 (20分)設(shè)單因素方差分析的數(shù)學(xué)模型為:。解釋這一模型的含義,并說(shuō)明對(duì)這一模型的基本假定。 單因素方差分析指的是只有一種處理因素在影響結(jié)果,或者說(shuō)只有一個(gè)自變量在影響因變量的情況。 (1)設(shè)任何一次實(shí)驗(yàn)結(jié)果都可以表示成如下形式:Yi=μ+εi 其中Yi是第i次實(shí)驗(yàn)的實(shí)際結(jié)果,μ是該結(jié)果的最佳估計(jì)值,其實(shí)就是總體均值,εi是均值和實(shí)際結(jié)果的偏差也就是隨機(jī)誤差(2)假定εi服從均值為0,標(biāo)準(zhǔn)差為某個(gè)定值的正態(tài)分布,把以上形式按照方差分析進(jìn)行推廣,假設(shè)我們要研究幾種水平之間的差異,每種水平抽取一定樣本并收集相關(guān)數(shù)據(jù),那么模型公式可以表示為:Yij=μi+εij 其中Yij是第i組水平的第j個(gè)樣本的實(shí)際結(jié)果,μi是第i組的均值,εij是第i組第j個(gè)樣本相對(duì)于實(shí)際結(jié)果的偏差。同樣假定εi服從均值為0,標(biāo)準(zhǔn)差為某個(gè)定值的正態(tài)分布,如果這i組水平?jīng)]有差異,則Yij應(yīng)等于總體均值加上隨機(jī)誤差項(xiàng)。 (3)為了方便統(tǒng)計(jì)推斷,模型公式改為如下形式:Yij=μ+αi+εij 其中μ表示不考慮分組時(shí)的總體均值,αi表示第i組的附加效應(yīng),即在第i組時(shí)的均值改變情況,例如αi=10,表示第i組的均值要比總體均值多10,如果這i組均值并無(wú)差異,那么α1=α2=α3=.....=αi,反之則不等,據(jù)此我們可以建立假設(shè): H0:i取任意值時(shí),αi=0 H1:i取任意值時(shí),至少有一個(gè)αi<>0 結(jié)合差異分解的方差分析思路,我們發(fā)現(xiàn)αi實(shí)際上就是處理因素導(dǎo)致的差異。 五、 (20分)在多元回歸中,判斷共線性的統(tǒng)計(jì)量有哪些?簡(jiǎn)要解釋這些統(tǒng)計(jì)量。 (1)自變量間的相關(guān)系數(shù)矩陣:如果相關(guān)系數(shù)超過(guò)0.9的變量在分析時(shí)將會(huì)存在共線性問(wèn)題。在0.8以上可能會(huì)有問(wèn)題。但這種方法只能對(duì)共線性作初步的判斷,并不全面。 (2)容忍度(Tolerance):以每個(gè)自變量作為應(yīng)變量對(duì)其他自變量進(jìn)、行回歸分析時(shí)得到的殘差比例,大小用1減決定系數(shù)來(lái)表示。該指標(biāo)越小,則說(shuō)明該自變量被其余變量預(yù)測(cè)的越精確,共線性可能就越嚴(yán)重。 (3)方差膨脹因子(Variance inflation factor, VIF): 其中 為 與其余(m-1)個(gè)自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。 4、特征根(Eigenvalue):主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個(gè)特征根之比的平方根。當(dāng)對(duì)應(yīng)的方差比大于0.5時(shí),可認(rèn)為多元共線性嚴(yán)重存在 4中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):4 一、 (20分)在2008年8月10日舉行的第29屆北京奧運(yùn)會(huì)男子10米氣手槍決賽中,最后獲得金牌和銀牌的兩名運(yùn)動(dòng)員10槍的決賽成績(jī)?nèi)缦卤硭荆? 運(yùn)動(dòng)員 決賽成績(jī) 龐 偉 9.3 10.3 10.5 10.3 10.4 10.3 10.7 10.4 10.7 9.3 秦鐘午 9.5 9.9 10.6 10.3 9.4 10.2 10.1 10.8 9.9 9.8 根據(jù)上表計(jì)算的韓國(guó)運(yùn)動(dòng)員秦鐘午的平均環(huán)數(shù)是10.05環(huán),標(biāo)準(zhǔn)差是0.445環(huán)。比較分析哪個(gè)運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定。 (1)平均數(shù)、標(biāo)準(zhǔn)差:龐偉的平均環(huán)數(shù)=10.22環(huán),標(biāo)準(zhǔn)差是0.507;秦鐘午的平均環(huán)數(shù)=10.05環(huán),標(biāo)準(zhǔn)差是0.445環(huán),由于龐偉的平均環(huán)數(shù)明顯大于秦鐘午,因此只比較標(biāo)準(zhǔn)差不能說(shuō)明二人的穩(wěn)定性 (2)中位數(shù):龐偉的中位數(shù)=10.35,秦鐘午的中位數(shù)=10,同樣可以看出龐偉的成績(jī)更優(yōu)秀一些 (3)極差:龐偉的極差=1.4,秦鐘午的極差=1.4,兩者極差相同 (4)離散系數(shù):龐偉的離散系數(shù)=0.0496,秦鐘午的離散系數(shù)=0.0443 綜上所述,選手龐偉的成績(jī)更優(yōu)秀,但秦鐘午的發(fā)揮更穩(wěn)定。 二、 (20分)什么是統(tǒng)計(jì)意義上的顯著性?為什么說(shuō)統(tǒng)計(jì)上顯著不一定就有現(xiàn)實(shí)意義? (1)在假設(shè)檢驗(yàn)中,拒絕原假設(shè)稱樣本結(jié)果在“統(tǒng)計(jì)上是顯著的”;不拒絕原假設(shè)則稱結(jié)果是“統(tǒng)計(jì)上不顯著的”。“顯著的”在這里的意思是指非偶然的,它表示這樣的樣本結(jié)果不是偶然得到的,同樣,結(jié)果是不顯著的則表明這樣的樣本結(jié)果很可能是偶然得到的。 (2)在進(jìn)行決策時(shí),我們只能說(shuō)P值越小,拒絕原假設(shè)的證據(jù)就越強(qiáng),檢驗(yàn)的結(jié)果也就越顯著。當(dāng)P值很小而拒絕原假設(shè)時(shí),并不一定意味著檢驗(yàn)的結(jié)果就有實(shí)際意義。因?yàn)樵诩僭O(shè)檢驗(yàn)中的“顯著”僅僅是“統(tǒng)計(jì)意義上的顯著”。P值與樣本的大小密切相關(guān),樣本量越大,檢驗(yàn)統(tǒng)計(jì)量的值也就越大,P值就越小,就越可能拒絕原假設(shè)。因此,當(dāng)樣本量很大時(shí),解釋假設(shè)檢驗(yàn)的結(jié)果需要小心,因?yàn)樵诖髽颖厩闆r下,總能把與假設(shè)值的任何細(xì)微差別查出來(lái),即使這種差別幾乎沒(méi)有任何實(shí)際意義。因此,在實(shí)際檢驗(yàn)中,不能把“統(tǒng)計(jì)意義上的顯著性”與“實(shí)際意義上的顯著性”混同起來(lái)。 三、 (20分)簡(jiǎn)要說(shuō)明判斷一組數(shù)據(jù)是否服從正態(tài)分布的統(tǒng)計(jì)方法。 (1)圖示法 1. P-P圖 以樣本的累計(jì)頻率作為橫坐標(biāo),以按照正態(tài)分布計(jì)算的相應(yīng)累計(jì)概率作為縱坐標(biāo),以樣本值表現(xiàn)為直角坐標(biāo)系的散點(diǎn)。如果數(shù)據(jù)服從正態(tài)分布,則樣本點(diǎn)應(yīng)圍繞第一象限的對(duì)角線分布。 2. Q-Q圖 以樣本的分位數(shù)作為橫坐標(biāo),以按照正態(tài)分布計(jì)算的相應(yīng)分位點(diǎn)作為縱坐標(biāo),把樣本表現(xiàn)為直角坐標(biāo)系的散點(diǎn)。如果數(shù)據(jù)服從正太分布,則樣本點(diǎn)應(yīng)圍繞第一象限的對(duì)角線分布。 3. 直方圖(頻率直方圖) 判斷方法:是否以鐘型分布,同時(shí)可以選擇輸出正態(tài)性曲線。 4. 箱線圖 判斷方法:觀察矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對(duì)稱,否則是偏態(tài)分布。 5. 莖葉圖 判斷方法:觀察圖形的分布狀態(tài),是否是對(duì)稱分布。 (2)偏度、峰度檢驗(yàn)法 峰態(tài):峰態(tài)是對(duì)數(shù)據(jù)分布平峰或尖峰程度的測(cè)度,當(dāng)K>0時(shí)為尖峰分布,數(shù)據(jù)的分布更集中;當(dāng)K<0時(shí)為扁平分布,數(shù)據(jù)的分布越分散。 偏態(tài):偏態(tài)是對(duì)數(shù)據(jù)分布對(duì)稱性的測(cè)量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對(duì)稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。 (3)非參數(shù)檢驗(yàn) 非參數(shù)檢驗(yàn)方法包括Kolmogorov-Smirnov檢驗(yàn)(D檢驗(yàn))和Shapiro- Wilk( W檢驗(yàn))。當(dāng)樣本數(shù)N<2000時(shí),shapiro-wilk的W統(tǒng)計(jì)量檢驗(yàn)正態(tài)性;當(dāng)樣本數(shù)N>2000時(shí),Kolmogorov-Smirnov的D統(tǒng)計(jì)量檢驗(yàn)正態(tài)性;檢驗(yàn)時(shí),根據(jù)樣本計(jì)算一個(gè)統(tǒng)計(jì)量即檢驗(yàn)統(tǒng)計(jì)量D。它把樣本分布的形狀和正態(tài)分布相比較,比較得出一個(gè)數(shù)值p(0,0.0013<,0.0571> 故第2個(gè)回歸系數(shù)顯著,第1、3個(gè)回歸系數(shù)不顯著。 (4)多重判定系數(shù) R2=SSRSST=87803505.4697831680=0.8975 它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測(cè)值的優(yōu)劣程度。此處R2=0.8975,表明回歸擬合效果很好。 (5)估計(jì)標(biāo)準(zhǔn)誤差 sy=SSEn-p-1=MSE=626760.91=791.68 是的標(biāo)準(zhǔn)差的估計(jì),反映了(房地產(chǎn)銷售價(jià)格)的波動(dòng)程度。 (6)有用。雖然該變量的部分系數(shù)沒(méi)通過(guò)顯著性檢驗(yàn),但并不意味著該變量沒(méi)用,它在經(jīng)濟(jì)解釋上可能還是有一定意義的,方程總體顯著,說(shuō)明方程包含該變量總體上是有用的。也可能是多重共線性造成了不顯著。 5中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):5 一、 (20分)為研究大學(xué)生的逃課情況。隨機(jī)抽取350名大學(xué)生進(jìn)行調(diào)查,得到的男女學(xué)生逃課情況的匯總表如下。 是否逃課 男 女 合計(jì) 逃過(guò)課 84 88 172 未逃過(guò)課 78 100 178 合計(jì) 162 188 350 (1) 這里涉及的變量有哪些?這些變量屬于什么類型? 涉及的變量有性別、是否逃課。是否逃課及性別為分類型變量,不同性別的逃課和非逃課人數(shù),為數(shù)值變量。 (2) 描述上述數(shù)據(jù)所適用的統(tǒng)計(jì)圖形有哪些? 可以用條形圖、復(fù)式條形圖, 餅圖、復(fù)式餅圖,環(huán)形圖。 二、 (20分)現(xiàn)從一批零件中隨機(jī)抽取16只,測(cè)得其長(zhǎng)度(單位:厘米)如下: 15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.6 14.8 15.1 15.3 14.7 15.0 15. 15.1 14.7 (1) 如果要使用分布構(gòu)建零件平均長(zhǎng)度的置信區(qū)間,基本的假定條件是什么? 在小樣本(n<30)情況下 ,對(duì)鐘體均值得估計(jì)都是建立在總體服從正太分布假設(shè)前提下。當(dāng)正態(tài)總體的未知,樣本均值經(jīng)過(guò)標(biāo)準(zhǔn)化后服從自由度為n-1的t分布,用樣本方差 s2代替總體方差。 (2) 構(gòu)建該批零件平均長(zhǎng)度的95%的置信區(qū)間。 樣本均值平均長(zhǎng)度為=14.9,95%的置信區(qū)間為,即(14.77,15.03) (3)能否確定該批零件的實(shí)際平均長(zhǎng)度就在你所構(gòu)建的區(qū)間內(nèi)?為什么?(注:) 不能。因?yàn)樵摌颖舅鶚?gòu)造的是一個(gè)特定的區(qū)間,不再是隨機(jī)區(qū)間。只能說(shuō)在95%置信水平下,該區(qū)間是大量包含真值的區(qū)間中的一個(gè)。也可能是少數(shù)幾個(gè)不包含參數(shù)真值的區(qū)間中的一個(gè)。 三、 (20分)在假設(shè)檢驗(yàn)中,當(dāng)不拒絕原假設(shè)時(shí),為什么一般不采取“接受原假設(shè)”的表示方式? 1、假設(shè)檢驗(yàn)的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因?yàn)榧僭O(shè)檢驗(yàn)只提供不利于原假設(shè)的證據(jù) 2. 假設(shè)檢驗(yàn)得出的結(jié)論都是根據(jù)原假設(shè)進(jìn)行闡述的。當(dāng)不能拒絕原假設(shè)時(shí),我們也從來(lái)不說(shuō)“接受原假設(shè)”,因?yàn)闆](méi)有證明原假設(shè)是真的。沒(méi)有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)“證明”了原假設(shè)是真的,它僅僅意為著目前還沒(méi)有足夠的證據(jù)拒絕原假設(shè),只表示手頭上這個(gè)樣本提供的證據(jù)還不足以拒絕原假設(shè)?!安痪芙^”的表述方式實(shí)際上意味著沒(méi)有得出明確的結(jié)論 3. 假設(shè)檢驗(yàn)中通常是先確定顯著性水平,這就等于控制了第Ι類錯(cuò)誤的概率,但犯第Ⅱ類錯(cuò)誤的概率卻是不確定的。 四、 (20分)簡(jiǎn)要說(shuō)明分布在統(tǒng)計(jì)中的應(yīng)用。 卡方分布應(yīng)用很廣,常用于假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算,比如應(yīng)用到獨(dú)立性檢驗(yàn)中,同質(zhì)性檢驗(yàn)、適合性檢驗(yàn)等等 獨(dú)立性檢驗(yàn):主要用于兩個(gè)或兩個(gè)以上因素多項(xiàng)分類的計(jì)數(shù)資料分析,也就是研究?jī)深愖兞恐g的關(guān)聯(lián)性和依存性問(wèn)題 擬合優(yōu)度檢驗(yàn):檢驗(yàn)單個(gè)多項(xiàng)分類名義型變量各分類間的實(shí)際觀測(cè)次數(shù)與理論次數(shù)之間是否一致的問(wèn)題 同質(zhì)性檢驗(yàn):檢驗(yàn)兩個(gè)或兩個(gè)以上總體的某一特性分布,也就是各“類別”的比例是否統(tǒng)一或相近 適合性檢驗(yàn):檢驗(yàn)?zāi)骋活惙诸愘Y料所在總體的分布是否符合某個(gè)假設(shè)或理論的分布 【感覺(jué)簡(jiǎn)答題可以適當(dāng)寫多點(diǎn),也可以只說(shuō)檢驗(yàn)名字】 五、 (20分)簡(jiǎn)要說(shuō)明解決多元回歸中共線性的方法。 1:變量的選擇方法:向前選擇、向后剔除、逐步回歸。 2:嶺回歸方法:有偏估計(jì) 3:主成分分析:降維,提取信息 4:偏最小二乘回歸法:原理與主成分方法相似 6中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):6 一、 (20分)一家電視臺(tái)為了解觀眾對(duì)某檔娛樂(lè)節(jié)目的喜歡程度,對(duì)不同年齡段的男女觀眾進(jìn)行了調(diào)查,得到喜歡該檔娛樂(lè)節(jié)目的觀眾比例(單位:%)如下: 年齡段 男性 女性 20歲以下 5 6 20—30歲 25 32 30—40歲 16 15 40—50歲 12 12 50歲以上 6 8 (1) 這里涉及的變量有哪些?這些變量屬于什么類型? 有分類變量和數(shù)量變量。分類變量有性別,年齡段。數(shù)量變量有各年齡段的男女人數(shù)。 (2) 描述上述數(shù)據(jù)所適用的統(tǒng)計(jì)圖形有哪些? 可以用條形圖和餅圖【直方圖用于連續(xù)變量的這里最好不用】 二、 (20分)假定總體共有1000個(gè)個(gè)體,均值,標(biāo)準(zhǔn)差。從中抽取容量為100的所有簡(jiǎn)單隨機(jī)樣本。樣本均值的期望值和標(biāo)準(zhǔn)差各是多少?得出上述結(jié)論所依據(jù)的是統(tǒng)計(jì)中的哪一個(gè)定理?請(qǐng)簡(jiǎn)要敘述這一定理。 樣本均值的期望值為32,標(biāo)準(zhǔn)差為0.5 是中心極限定理,定理如下 設(shè)從均值為μ、方差為σ^2;(有限)的任意一個(gè)總體中抽取樣本量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ^2/n的正態(tài)分布 三、 (20分)在假設(shè)檢驗(yàn)中,利用決策與利用統(tǒng)計(jì)量決策有什么不同? P值:如果能把犯第Ⅰ類錯(cuò)誤的真實(shí)概率算出來(lái),就可以直接用這個(gè)概率做出決策。而不需要管什么事先給定的顯著性水平α,這個(gè)犯第Ⅰ類錯(cuò)誤的真實(shí)概率就是P值。 統(tǒng)計(jì)量檢驗(yàn)是根據(jù)事先確定的顯著性水平α圍成的拒絕域作出決策,不論檢驗(yàn)統(tǒng)計(jì)量的值是大是小,只要把它落入拒絕域就拒絕原假設(shè)H。否則就不拒絕H。這樣,無(wú)論統(tǒng)計(jì)量落在拒絕域的什么位置,你也只能說(shuō)犯第一錯(cuò)誤的概率為α,而用P值檢驗(yàn)則能把犯第Ⅰ類錯(cuò)誤的真實(shí)概率算出來(lái)。P 值決策優(yōu)于統(tǒng)計(jì)量決策。 P 值決策提供了更多的信息。 四、 (20分)簡(jiǎn)要說(shuō)明方差分析的基本原理。 方差分析被解釋為檢驗(yàn)多個(gè)總體均值是否相等的統(tǒng)計(jì)方法,這種解釋側(cè)重于方差分析的過(guò)程和形式。 本質(zhì)上,方差分析研究的是分類自變量對(duì)數(shù)值因變量的影響 方差分析總的思想是通過(guò)計(jì)算來(lái)比較因某一特定因素帶來(lái)的樣本值的差異與隨機(jī)偶然因素對(duì)樣本值的差異的大小,從而判斷該因素對(duì)總體是否有統(tǒng)計(jì)意義 五、 (20 分)比較說(shuō)明指數(shù)曲線和直線的異同。 一、相同點(diǎn):指數(shù)曲線模型和直線模型都可以對(duì)時(shí)間序列進(jìn)行擬合;都可以進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn);都可以對(duì)于未來(lái)的時(shí)點(diǎn)進(jìn)行預(yù)測(cè)。 二、不同點(diǎn): 1、直線為線性的,指數(shù)曲線為非線性的。 2、兩者適用于不同特點(diǎn)的時(shí)間序列; 線性趨勢(shì)是時(shí)間序列按一個(gè)固定的常數(shù)(不變的斜率)增長(zhǎng)或下降,指數(shù)曲線是時(shí)間序列各期觀察值按一定的增長(zhǎng)率增長(zhǎng)或衰減; 3、兩者的模型表達(dá)式不同; 4、系數(shù)的求解方法不同。直線用最小二乘法求得。指數(shù)曲線,需先采取線性化手段將其化為對(duì)數(shù)直線形式,根據(jù)最小二乘法,求解出系數(shù)的對(duì)數(shù),再取其反對(duì)數(shù)。 5、兩者的預(yù)測(cè)方法不同,直線趨勢(shì)可以用 Holt 指數(shù)平滑和一元線性回歸法預(yù)測(cè),指數(shù)曲線可以用指數(shù)模型來(lái)預(yù)測(cè)。 7中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):7 一、 (20分)一項(xiàng)關(guān)于大學(xué)生體重狀況的研究發(fā)現(xiàn),男生的平均體重為60kg,標(biāo)準(zhǔn)差為5kg;女生的平均體重為50kg,標(biāo)準(zhǔn)差為5kg。請(qǐng)回答下面的問(wèn)題 (1) 是男生的體重差異大還是女生的體重差異大?為什么? (2) 粗略地估計(jì)一下,男生中有百分之幾的人體重在55kg到65kg之間? (3) 粗略地估計(jì)一下,女生中有百分之幾的人體重在40kg到60kg之間? (1)女生的體重差異大。 男生體重的離散系數(shù)是V1=5/60=0.083 女生體重的離散系數(shù)是V2=5/50=0.1 離散系數(shù)大的離散程度也就大,V2> V1,因此,女生的體重差異大 (2)設(shè)男生的體重為X1,X1~N(60,52) 設(shè)Z1=(X1-60) / 5 男生體重在55kg到65kg之間的概率為P,則 P()=P(-1Z11)=68% 因此,男生有68%的體重在55~65kg之間。 (3)設(shè)女生的體重為X2,則X2~N(50,52), 設(shè)Z2=(X2-50)/ 5,則Z2~N(0,1) P(40X2 60)=P(-2Z22)=95% 故女生有95%的體制在40~60kg之間。 二、 (20分)敘述評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)。 評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn)主要有3個(gè)。 <1> 無(wú)偏性。無(wú)偏性是指估計(jì)量抽樣分布的期望值等于被估計(jì)的總體參數(shù)。設(shè)總體參數(shù)為,所選擇的估計(jì)量為,如果E()=,則稱為的無(wú)偏估計(jì)量。 <2>有效性。有效性是指估計(jì)量的方差盡可能小。一個(gè)無(wú)偏估計(jì)量并不意味著它就非常接近被估計(jì)的總體參數(shù),估計(jì)量與參數(shù)的接近程度是用估計(jì)量的方差來(lái)度量的。對(duì)同一總體參數(shù)的兩個(gè)無(wú)偏估計(jì)量,有更小方差的估計(jì)量更有效。 <3>一致性。一致性是指隨著樣本量的增大,點(diǎn)估計(jì)量的值越接近總體參數(shù)。一個(gè)大樣本給出的估計(jì)量要比一個(gè)小樣本給出的估計(jì)量更接近總體的參數(shù)。樣本均值的標(biāo)準(zhǔn)誤差`x=/與樣本量的大小有關(guān),樣本量越大,`x的值就越小。因此,大樣本量給出的估計(jì)量更接近總體均值u,從這個(gè)意義上來(lái)說(shuō),樣本均值是總體均值的一個(gè)一致估計(jì)量。 三、 (20分)一家房地產(chǎn)開(kāi)發(fā)公司準(zhǔn)備購(gòu)進(jìn)一批燈泡,公司打算在兩個(gè)供貨商之間選擇一家購(gòu)買,兩家供貨商生產(chǎn)的燈泡使用壽命的方差大小基本相同,價(jià)格也很相近,房地產(chǎn)公司購(gòu)進(jìn)燈泡時(shí)考慮的主要因素就是使用壽命。其中一家供貨商聲稱其生產(chǎn)的燈泡平均使用壽命在1500小時(shí)以上。如果在1500小時(shí)以上,在房地產(chǎn)公司就考慮購(gòu)買。由36只燈泡組成的隨機(jī)樣本表明,平均使用壽命為1510小時(shí),標(biāo)準(zhǔn)差為193小時(shí)。 (1) 如果是房地產(chǎn)開(kāi)發(fā)公司進(jìn)行檢驗(yàn),會(huì)提出怎樣的假設(shè)?請(qǐng)說(shuō)明理由。 (2) 如果是燈泡供應(yīng)商進(jìn)行檢驗(yàn),會(huì)提出怎樣的假設(shè),請(qǐng)說(shuō)明理由。 (1) 設(shè)燈泡的平均使用壽命為u H0:u1500(使用壽命符合標(biāo)準(zhǔn)) H1:u<1500(使用壽命不符合標(biāo)準(zhǔn)) 房地產(chǎn)開(kāi)發(fā)公司傾向于證明燈泡的使用壽命小于1500個(gè)小時(shí)。因?yàn)檫@會(huì)損害公司的利益(如果房地產(chǎn)公司非常相信燈泡的使用壽命在1500小時(shí)以上,也就沒(méi)有必要抽檢了)通常備擇假設(shè)用于表達(dá)研究者傾向于支持的看法,因此,備擇假設(shè)為u< 1500小時(shí),原假設(shè)為u1500。 (2)設(shè)燈泡的平均使用壽命為u. H0: u 1500 H1: u > 1500 燈泡供應(yīng)商傾向于支持燈泡的使用壽命大于1500小時(shí),所以備擇假設(shè)為:u > 1500;原假設(shè)為:u 1500 四、 (20分)什么是判定系數(shù)?它在回歸分析中的主要作用是什么? 1.判定系數(shù)是對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量。引起y值變化的這種波動(dòng)稱為變差。變差主要有兩種:一是自變量x的變化引起y變化,這部分的平方和稱為回歸平方和;二是除x以外的其他隨機(jī)因素導(dǎo)致y變化,這部分變差的平方和稱為殘差平方和。變差的平方和 = 回歸的平方和+殘差的平方和 判定系數(shù)(R2)=回歸的平方和(SSR)/ 變差的平方和(SST) 2.判定系數(shù)測(cè)度了回歸直線對(duì)觀測(cè)數(shù)據(jù)的擬合程度。回歸直線擬合的好壞取決于SSR/SST比值的大小。各觀測(cè)點(diǎn)越靠近直線,值越大,直線擬合的越好;值越小,直線擬合的越差。 五、 (20分)說(shuō)明分布的適用條件,如何判斷某個(gè)過(guò)程產(chǎn)生的數(shù)據(jù)滿足這一條件? 1.當(dāng)正態(tài)總體的標(biāo)準(zhǔn)差未知時(shí),在小樣本的條件下對(duì)總體均值的估計(jì)和檢驗(yàn)要用到t分布 2.正態(tài)性:可以劃出樣本數(shù)據(jù)的直方圖和莖葉圖或者P-P圖,Q-Q圖檢驗(yàn)數(shù)據(jù)的正態(tài)性 小樣本:當(dāng)樣本的數(shù)量小于30個(gè),當(dāng)成小樣本處理 8中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):8 一、 (20分)在金融證券領(lǐng)域,一項(xiàng)投資的的預(yù)期收益率的變化通常用該項(xiàng)投資的風(fēng)險(xiǎn)來(lái)衡量。預(yù)期收益率的變化越小,投資風(fēng)險(xiǎn)越低,預(yù)期收益率的變化越大,投資風(fēng)險(xiǎn)就越高。下面的兩個(gè)直方圖,分別反映了200種商業(yè)類股票和200種高科技類股票的收益率分布。在股票市場(chǎng)上,高收益率往往伴隨著高風(fēng)險(xiǎn)。但投資于哪類股票,往往與投資者的類型有一定關(guān)系。 (1) 你認(rèn)為該用什么樣的統(tǒng)計(jì)量來(lái)反映投資的風(fēng)險(xiǎn)? (2) 如果選擇風(fēng)險(xiǎn)小的股票進(jìn)行投資,應(yīng)該選擇商業(yè)類股票還是高科技類股票? (3) 如果你進(jìn)行股票投資,你會(huì)選擇商業(yè)類股票還是高科技類股票? (1)方差或標(biāo)準(zhǔn)差 (2)風(fēng)險(xiǎn)小的股票應(yīng)選商業(yè)類股票 (3)如果選擇風(fēng)險(xiǎn)小的股票,選擇商業(yè)類股票,如果選擇高收益的股票,選擇高科技類股票。 二、 (20分)某種感冒沖劑規(guī)定每包重量為12克,超重或過(guò)輕都是嚴(yán)重問(wèn)題。從過(guò)去的生產(chǎn)數(shù)據(jù)得知克,質(zhì)檢員抽取25包沖劑稱重檢驗(yàn),平均每包的重量為11.85克。假定產(chǎn)品重量服從正態(tài)分布。 (1) 根據(jù)上述檢驗(yàn)計(jì)算出的,感冒沖劑的每包重量是否符合標(biāo)準(zhǔn)要求()? (2) 說(shuō)明上述檢驗(yàn)中可能犯哪類錯(cuò)誤?該錯(cuò)誤的實(shí)際含義是什么? (1) 不符合標(biāo)準(zhǔn) P= 0.02<0.05點(diǎn)評(píng)人:原假設(shè)為H0:產(chǎn)品符合標(biāo)準(zhǔn)要求,由于P值小于0.05,因此拒絕原假設(shè),即,每包重量不符合標(biāo)準(zhǔn)要求?!綪為犯第一類錯(cuò)誤的概率,即原假設(shè)正確,實(shí)際拒絕的概率為0.02,位于拒絕域內(nèi),推翻H0】 (2)可能犯第Ⅰ類錯(cuò)誤(錯(cuò)誤)。原假設(shè)是正確的,實(shí)際確拒絕了原假設(shè)。 三、 (20分)簡(jiǎn)述方差分析的基本假定。 正態(tài)性:每種處理所對(duì)應(yīng)的總體都應(yīng)服從正態(tài)分布。 方差齊性:各個(gè)總體的方差必須相等。 獨(dú)立性:每個(gè)樣本數(shù)據(jù)都來(lái)自不同處理的獨(dú)立樣本。 方差分析對(duì)獨(dú)立性的要求比較嚴(yán)格,若該假設(shè)得不到滿足,方差分析的結(jié)果會(huì)受到較大影響。而對(duì)正態(tài)性和方差齊性的要求相對(duì)較寬松,當(dāng)正態(tài)性不滿足和方差略有不齊時(shí),對(duì)分析的結(jié)果影響不是很大。 四、 (20分)怎樣自相關(guān)圖和偏自相關(guān)圖來(lái)識(shí)別ARIMA()模型中的參數(shù)? 第一步:將序列平穩(wěn)化。只有平穩(wěn)序列才能建立ARIMA模型,當(dāng)原始序列不平穩(wěn)時(shí),通過(guò)差分可以將其平穩(wěn)化。 第二步:識(shí)別模型的階數(shù)。如果原始序列(或差分序列)的偏自相關(guān)系數(shù)有p個(gè)明顯的峰值,在p個(gè)值后截尾,而它的自相關(guān)函數(shù)呈現(xiàn)出指數(shù)衰減或正弦衰減,呈現(xiàn)出拖尾,為AR(p)序列,模型為ARIMA(p,0,0).如果序列的自相關(guān)函數(shù)有q個(gè)明顯的峰值,在q個(gè)值后截尾,而它的偏自相關(guān)函數(shù)呈指數(shù)或正弦衰減,呈現(xiàn)出拖尾,為MA(q)序列,模型為ARIMA(0,0,q).如果序列的自相關(guān)圖和偏自相關(guān)圖的前p個(gè)條和前q個(gè)條沒(méi)有固定規(guī)律,其后都是趨漸于0而不是突然變?yōu)?,都呈現(xiàn)出拖尾,模型為ARMA(P,Q),“I”的取值取決于差分的階數(shù)。 第三步:模型診斷。如果模型正確,模型預(yù)測(cè)產(chǎn)生的誤差是白噪聲序列,殘差序列的自相關(guān)圖沒(méi)有什么固定模式。書上245頁(yè) 五、 (20分)什么是回歸中的置信區(qū)間估計(jì)和預(yù)測(cè)區(qū)間估計(jì)??jī)蓚€(gè)區(qū)間的寬度是否一樣?取何值時(shí)兩個(gè)區(qū)間寬度最窄? 平均值的置信區(qū)間估計(jì):是對(duì)x的一個(gè)給定值x0,求出y的平均值的估計(jì)區(qū)間。 個(gè)別值的預(yù)測(cè)區(qū)間估計(jì):是對(duì)x的一個(gè)給定值x0,求出y的一個(gè)個(gè)別值的估計(jì)區(qū)間。 兩個(gè)區(qū)間的寬度是不一樣的。預(yù)測(cè)區(qū)間要比置信區(qū)間寬一些。 當(dāng)x=`x時(shí),兩個(gè)區(qū)間的寬度最窄,此時(shí),兩個(gè)區(qū)間也都是最準(zhǔn)確的。 9國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):9 一、 (20分)為研究少年兒童的成長(zhǎng)發(fā)育狀況,某研究所的一位調(diào)查人員在某城市抽取100名7~17歲的少年兒童作為樣本,另一位調(diào)查人員則抽取了1000名7~17歲的少年兒童作為樣本。請(qǐng)回答下面的問(wèn)題,并解釋其原因。 (1) 哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童的平均身高較大?或者這兩組樣本的平均身高相同? (2) 哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童身高的標(biāo)準(zhǔn)差較大?或者這兩組樣本的標(biāo)準(zhǔn)差相同? (3) 哪一位調(diào)查研究人員有可能得到這1100名少年兒童的最高者或最低者?或者對(duì)兩位調(diào)查研究人員來(lái)說(shuō),這種機(jī)會(huì)是相同的? 解:(1)、如果抽樣是隨機(jī)的,抽樣樣本數(shù)目對(duì)樣本平均值沒(méi)有決定作用,答案是不確定的; (2)、如果抽樣是隨機(jī)的,抽樣樣本數(shù)目對(duì)樣本方差、標(biāo)準(zhǔn)差沒(méi)有決定作用,答案是不確定的; (3)、不確定,都有可能。 二、 (20分)在參數(shù)統(tǒng)計(jì)分析中,應(yīng)用分布、分布和分布的假定條件是什么? 如何判斷樣本數(shù)據(jù)是否滿足假定條件。 解:(1)分布:設(shè)X1服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),X2服從自由度為n的分布,且X1與X2相互獨(dú)立,則稱變量t=服從的分布為自由度為n的分布。期望 E(T)=0 方差D(T)=n/(n-2),n>2; 分布:設(shè) X1,X2,......Xn相互獨(dú)立,都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則稱隨機(jī)變量X2=X12+X22+....+Xn2服從自由度為n的分布。期望E(X2)=n,D(X2)=2n; 分布:設(shè)X1服從自由度為n的分布,X2服從自由度為m的分布,且X1與X2相互獨(dú)立,則稱變量F= 服從 分布。 (2)正態(tài)性檢驗(yàn)及獨(dú)立性檢驗(yàn)。 三、 (20分)由于時(shí)間和成本對(duì)產(chǎn)量變動(dòng)的影響很大,所以在一種新的生產(chǎn)方式投入使用之前,生產(chǎn)廠家必須確信其所推薦新的生產(chǎn)方法能降低成本。目前生產(chǎn)中所用的生產(chǎn)方法成本均值為每小時(shí)200元。對(duì)某種新的生產(chǎn)方法,測(cè)量其一段樣本生產(chǎn)期的成本。 (1) 在該項(xiàng)研究中,建立適當(dāng)?shù)脑僭O(shè)和備擇假設(shè)。 (2) 當(dāng)不能拒絕時(shí),試對(duì)所做的結(jié)論進(jìn)行評(píng)述。 (3) 當(dāng)可以拒絕時(shí),試對(duì)所做的結(jié)論進(jìn)行評(píng)述。 解:(1)、原假設(shè)::新的生產(chǎn)方法成本的均值不低于200元/每小時(shí);備擇假設(shè)::新的生產(chǎn)方法成本的均值低于200元/每小時(shí)。 (2)、當(dāng)不能拒絕時(shí),說(shuō)明并沒(méi)有把握說(shuō)明新的生產(chǎn)方法能降低生產(chǎn)成本; (3)、當(dāng)可以拒絕時(shí),說(shuō)明新的生產(chǎn)方法可以降低生產(chǎn)成本,可以采用新的方法生產(chǎn)。 四、 (20分)列出度量下述測(cè)度變量間的關(guān)系所使用的統(tǒng)計(jì)量。 (1) 兩個(gè)分類變量。 (2) 兩個(gè)數(shù)值變量。 (3) 兩個(gè)順序變量。 (4) 一個(gè)分類變量與一個(gè)數(shù)值變量。 解:分類變量分為有序變量、無(wú)序變量及二分類,在差別性檢驗(yàn)中二分類變量和無(wú)序變量都可以用卡方統(tǒng)計(jì)量檢驗(yàn),不過(guò)一個(gè)是四方格、一個(gè)是R×C列聯(lián)卡方,有序變量也即等級(jí)資料得用秩和檢驗(yàn)。有序變量中可用多元回歸來(lái)檢驗(yàn)假設(shè),對(duì)于無(wú)序變量使用logistics回歸。 (1)統(tǒng)計(jì)量;(2)、相關(guān)系數(shù);(3)、等級(jí)相關(guān)系數(shù);(4)、F統(tǒng)計(jì)量。 五、 (20分)在多元線性回歸分析中,檢驗(yàn)和檢驗(yàn)有何不同? 解:(1)、F檢驗(yàn)是對(duì)模型整體顯著性水平的檢驗(yàn),而t檢驗(yàn)只是對(duì)單獨(dú)變量的顯著性水平的檢驗(yàn)。 (2)、F檢驗(yàn)顯著,說(shuō)明模型擬合效果顯著,但并不能說(shuō)明每個(gè)變量都顯著。 10中國(guó)人民大學(xué)接受同等學(xué)歷人員申請(qǐng)碩士學(xué)位考試試題 招生專業(yè):統(tǒng)計(jì)學(xué) 考試科目:統(tǒng)計(jì)思想綜述 課程代碼:123201 考題卷號(hào):10 一、 (20分)在2008年8月北京舉辦的第29屆奧林匹克運(yùn)動(dòng)會(huì)上,獲得金牌總數(shù)前三名的國(guó)家及獎(jiǎng)牌數(shù)如下。要描述這一數(shù)據(jù),可以使用的圖形有哪些?說(shuō)明它們?cè)诿枋鲞@一數(shù)據(jù)中的用途。 排名 國(guó)家 金 銀 銅 總 1 中國(guó) 51 21 28 100 2 美國(guó) 36 38 36 110 3 俄羅斯 23 21 28 72 列出適合展示上述數(shù)據(jù)的圖形并說(shuō)明這些圖形的用途。 解:(1)、直方圖或者條形圖:能夠直觀的表明各個(gè)國(guó)家在金、銀、銅牌上的獎(jiǎng)牌數(shù)量。 如果以國(guó)家為橫坐標(biāo),以獎(jiǎng)牌數(shù)為縱坐標(biāo),能夠直觀的比較不同國(guó)家或得獎(jiǎng)牌總數(shù)的情況; 如果以獎(jiǎng)牌種類為橫坐標(biāo),以國(guó)家為縱坐標(biāo),能夠直觀的看到每個(gè)國(guó)家獲得各種獎(jiǎng)牌的情況; (2)、餅圖或者環(huán)形圖:能夠清楚的比較各個(gè)國(guó)家獲得金、銀、銅獎(jiǎng)牌的比例。 二、 (20分)某企業(yè)生產(chǎn)的產(chǎn)品需用紙箱進(jìn)行包裝,按規(guī)定供應(yīng)商提供的紙箱用紙的厚度不應(yīng)低于5毫米。已知用紙的厚度服從正態(tài)分布,一直穩(wěn)定在0.5毫米。企業(yè)從某供應(yīng)商提供的紙箱中隨機(jī)抽查了100個(gè)樣品,得樣本平均厚度毫米。 (1) 在的顯著顯著性水平上,是否可以接受該批紙箱?該檢驗(yàn)中會(huì)犯哪類錯(cuò)誤?該錯(cuò)誤的含義是什么? (2) 抽查的100個(gè)樣本的平均厚度為多少時(shí)可以接收這批紙箱?此時(shí)可能會(huì)犯哪類?該錯(cuò)誤的含義是什么? (注:,) 解:(1)、由題可知,紙箱的厚度服從, , n=100, 建立假設(shè):: : <, 則在時(shí),拒絕原假設(shè)。 在該類檢驗(yàn)中犯了第一類錯(cuò)誤,即原假設(shè)正確,但實(shí)際上卻拒絕了原假設(shè)的錯(cuò)誤。 (2)、當(dāng)時(shí),解得,即當(dāng)紙箱的厚度在4.902毫米與5.098毫米之間時(shí),可以接受原假設(shè),即可以接受這些紙箱。 此時(shí),可能犯第二類錯(cuò)誤,即原假設(shè)錯(cuò)誤,但是實(shí)際上卻接受了原假設(shè)的錯(cuò)誤。 三、(20分)簡(jiǎn)要說(shuō)明分布在統(tǒng)計(jì)中的的應(yīng)用。 解:分布常應(yīng)用于假設(shè)檢驗(yàn)及置信區(qū)間的計(jì)算中,由卡方分布延伸出來(lái)皮爾森卡方檢定常用于: (1)樣本某性質(zhì)的比例分布與總體理論分布的擬合優(yōu)度;(2)同一總體的兩個(gè)隨機(jī)變量是否獨(dú)立;(3)二或多個(gè)總體同一屬性的同素性檢定即,獨(dú)立性檢驗(yàn)、同質(zhì)性檢驗(yàn)、適合性檢驗(yàn)等。 4、 (20分)在多元線性回歸分析中,如果某個(gè)回歸系數(shù)的檢驗(yàn)不顯著,是否就意味著這個(gè)自變量與因變量之間的線性回歸不顯著?為什么?當(dāng)出現(xiàn)這種情況時(shí)應(yīng)如何處理? 解:(1)、不是。因?yàn)樵诙嘣€性回歸模型中,如果多個(gè)自變量之間存在較強(qiáng)的相關(guān)性,或者因?yàn)閿?shù)據(jù)收集的基礎(chǔ)不夠?qū)?,造成多個(gè)自變量之間存在相關(guān)性時(shí),此時(shí)在進(jìn)行單個(gè)變量的t檢驗(yàn)時(shí),有可能會(huì)通不過(guò)檢驗(yàn),即該多元線性回歸模型存在多重共線性。 (2)、當(dāng)模型檢驗(yàn)不顯著時(shí),需要進(jìn)行判別(1、系數(shù)估計(jì)值的符號(hào)是否不對(duì)2、是否存在某些重要的自變量t值低,而R方不低3、是否出現(xiàn)當(dāng)一不太重要的解釋變量被刪除后,回歸結(jié)果顯著變化)、檢驗(yàn)(相關(guān)性檢驗(yàn))模型中是否出現(xiàn)多重共線性,需要通過(guò):1、增加數(shù)據(jù);2、對(duì)模型施加某些約束條件
- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
32 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 人民大學(xué) 統(tǒng)計(jì)學(xué) 在職 題庫(kù) 統(tǒng)計(jì) 綜述 答案
鏈接地址:http://kudomayuko.com/p-1547844.html