spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義

上傳人：燈火****19 文檔編號(hào)：21651182 上傳時(shí)間：2021-05-06 格式：DOCX 頁數(shù)：32 大?。?66.35KB

收藏版權(quán)申訴舉報(bào) 下載

spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義_第1頁

第1頁 / 共32頁

spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義_第2頁

第2頁 / 共32頁

spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義_第3頁

第3頁 / 共32頁

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義》由會(huì)員分享，可在線閱讀，更多相關(guān)《spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義（32頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、 spss 數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義判讀要觀察某一屬性的一組數(shù)據(jù)是否符合正態(tài)分布，可以有兩種方法（目前我知道這兩種，并且這兩種方法只是直觀觀察，不是定量的正態(tài)分布檢驗(yàn)）： 1：在 spss 里的基本統(tǒng)計(jì)分析功能里的頻數(shù)統(tǒng)計(jì)功能里有對(duì)某個(gè)變量各個(gè)觀測(cè)值的頻數(shù)直方圖中可以選擇繪制正態(tài)曲線。具體如下： Analyze-----Descriptive S tatistics-----Frequencies ，打開頻數(shù)統(tǒng)計(jì)對(duì)話框，在 Statistics 里可以選擇獲得各種描述性的統(tǒng)計(jì)量，如：均值、方差、分位數(shù)、峰度、標(biāo)準(zhǔn)差等各種描述性統(tǒng)

2、計(jì)量。在 Charts 里可以選擇顯示的圖形類型，其中 Histograms 選項(xiàng)為柱狀圖也就是我們說的直方圖，同時(shí)可以選擇是否繪制該組數(shù)據(jù)的正態(tài)曲線（ With nor ma curve ），這樣我們可以直觀觀察該組數(shù)據(jù)是否大致符合正態(tài)分布。如下圖：從上圖中可以看出，該組數(shù)據(jù)基本符合正態(tài)分布。 2 ：正態(tài)分布的 Q-Q 圖：在 spss 里的基本統(tǒng)計(jì)

3、分析功能里的探索性分析里面可以通過觀察數(shù)據(jù)的 q-q 圖來判斷數(shù)據(jù)是否服從正態(tài)分布。具體步驟如下： Analyze-----Descriptive Statistics-----Explore 打開對(duì)話框，選擇 Plots 選項(xiàng)，選擇 Normality plots with tests 選項(xiàng)，可以繪制該組數(shù)據(jù)的 q-q 圖。圖的橫坐標(biāo)為改變量的觀測(cè)值，縱坐標(biāo)為分位數(shù)。若該組數(shù)據(jù)服從正態(tài)分布，則圖中的點(diǎn)應(yīng)該靠近圖中直線。縱坐標(biāo)為分位數(shù)，是根據(jù)分布函數(shù)公式 F(x)=i/n+1 得出的 .i 為把一組數(shù)從小到大排序后第 i 個(gè)數(shù)據(jù)的位置， n 為樣本容

4、量。若該數(shù)組服從正態(tài)分布則其 q-q 圖應(yīng) 該與理論的 q-q 圖（也就是圖中的直線）基本符合。對(duì)于理論的標(biāo)準(zhǔn)正態(tài)分布，其 q-q 圖為 y=x 直線。非標(biāo)準(zhǔn)正態(tài)分布的斜率為樣本標(biāo)準(zhǔn)差，截距為樣本均值。如下圖：如何在 spss中進(jìn)行正態(tài)分布檢驗(yàn) 1(轉(zhuǎn) )(2009-07-22 11:11:57) 標(biāo)簽：雜談

5、一、圖示法 1、 P-P 圖以樣本的累計(jì)頻率作為橫坐標(biāo)，以安裝正態(tài)分布計(jì)算的相應(yīng)累計(jì)概率作為縱坐標(biāo)，把樣本值表現(xiàn)為直角坐標(biāo)系中的散點(diǎn)。如果資料服從整體分布，則樣本點(diǎn)應(yīng)圍繞第一象限的對(duì)角線分布。 2、 Q-Q 圖以樣本的分位數(shù)作為橫坐標(biāo)，以按照正態(tài)分布計(jì)算的相應(yīng)分位點(diǎn)作為縱坐標(biāo)，把樣本表現(xiàn)為指教坐標(biāo)系的散點(diǎn)。如果資料服從正態(tài)分布，則樣本點(diǎn)應(yīng)該呈一條圍繞第一象限對(duì)角線的直線。以上兩種方法以 Q-Q 圖為佳，效率較高。 3、直方圖判斷方法：是否以鐘形分布，同時(shí)可以選擇輸出正態(tài)性曲線。 4、箱式圖判斷方法：觀測(cè)離群值和

6、中位數(shù)。 5、莖葉圖類似與直方圖，但實(shí)質(zhì)不同。二、計(jì)算法 1、偏度系數(shù)（ Skewness）和峰度系數(shù)（ Kurtosis）算公式： g1 表示偏度， g2 表示峰度，通算 g1 和 g2 及其準(zhǔn) σ g1 及 σg2 然后作 U 。兩種同得出 U0.05 的，才可以料服從正分布。由公式可，部分文獻(xiàn)中所的“偏度和峰度都接近 0??可以 ??近似服從正分布” 并不。 2、非參數(shù)

7、方法非參數(shù) 方法包括 Kolmogorov-Smirnov （ D ）和 Shapiro- Wilk （ W 檢驗(yàn) ）。 SAS中定：當(dāng) 本含量 n ≤ 2000 時(shí) ，果以 Shapiro – Wilk （W 檢驗(yàn) ）準(zhǔn) ，當(dāng) 本含量 n >2000 時(shí) ，果以 Kolmogorov – Smirnov（ D 檢驗(yàn) ）準(zhǔn)。 SPSS中定：（1）如果指定的是非整數(shù) 重，在加本大小位于 3 和 50 之，算 Shapiro-Wilk 量。于無重或整數(shù) 重，在加本大小位于 3 和 5000

8、之，算量。由此可，部分 SPSS教材里面關(guān)于“ Shapiro – Wilk 適用于本量 3-50 之的數(shù)據(jù)”的法是在是理解片面，人子弟。（2）本 Kolmogorov-Smirnov 可用于量（例如 income）是否正分布。于此兩種，如果 P 大于 0.05，表明料服從正分布。三、 SPSS操作示例 SPSS中有很多操作可以進(jìn)行正態(tài)檢驗(yàn)，在此只介紹最主要和最全面最方便的操作： 1、工具欄 --分析—描述性統(tǒng)計(jì)—探索性

9、 2、選擇要分析的變量，選入因變量框內(nèi)，然后點(diǎn)選圖表，設(shè)置輸出莖葉圖和直方圖，選擇輸出正態(tài)性檢驗(yàn)圖表，注意顯示（ Display）要選擇雙項(xiàng)（ Both）。 3、 Output 結(jié)果（1）Descriptives：描述中有峰度系數(shù)和偏度系數(shù)，根據(jù)上述判斷標(biāo)準(zhǔn)，數(shù)據(jù)不符合正態(tài)分布。 Sk =0，Ku=0 時(shí)，分

10、布呈正態(tài)， Sk>0時(shí)，分布呈正偏態(tài)， Sk<0時(shí)，分布呈負(fù)偏態(tài)，時(shí)， Ku>0曲線比較陡峭， Ku<0時(shí)曲線比較平坦。由此可判斷本數(shù)據(jù)分布為正偏態(tài)（朝左偏），較陡峭。（2）Tests of Normality：D 檢驗(yàn)和 W 檢驗(yàn)均顯示數(shù)據(jù)不服從正態(tài)分布，當(dāng)然在此，數(shù)據(jù)樣本量為 1000，應(yīng)以 W 檢驗(yàn)為準(zhǔn)。（3）直方圖

11、直方圖驗(yàn)證了上述檢驗(yàn)結(jié)果。（4）此外還有莖葉圖、 P-P圖、 Q-Q 圖、箱式圖等輸出結(jié)果，不再贅述。結(jié)果同樣驗(yàn)證數(shù)據(jù)不符合正態(tài)分布。 spss判斷兩組數(shù)據(jù)的相關(guān)性（已使用） (2009-07-22 13:07:34) 標(biāo)簽：雜談兩組體重?cái)?shù)據(jù)：先要為數(shù)據(jù)分組 2.0 3000.0 2.0 3700.0 2.0 2900.0 2.0 3200.0 2.0 2

12、950.0 2.0 3100.0 2.0 700.0 2.0 3200.0 2.0 2500.0 2.0 3650.0 2.0 3450.0 2.0 4600.0 2.0 2700.0 2.0 2500.0 2.0 3150.0 2.0 3500.0 2.0 3800.0 2.0 2800.0 2.0 2400.0 2.0 3600.0 2.0 3200.0 2.0 1770.0 2.0 1450.0 2.0 1700.0 2.0 3250.0 2.

13、0 2700.0 2.0 3000.0 2.0 2250.0 2.0 2150.0 2.0 2450.0 2.0 1600.0 2.0 3100.0 2.0 4050.0 2.0 4250.0 2.0 2900.0 2.0 3250.0 2.0 3750.0 2.0 3500.0 2.0 4100.0 2.0 3100.0 2.0 2400.0 2.0 3250.0 2.0 2600.0 2.0 3100.0 2.0 3400.0 1.0 2400.0 1.0 2100

14、.0 1.0 3000.0 1.0 2600.0 1.0 4000.0 1.0 2200.0 1.0 1400.0 1.0 3000.0 1.0 3200.0 1.0 3600.0 1.0 2850.0 1.0 2850.0 1.0 3300.0 1.0 3500.0 1.0 3900.0 1.0 3250.0 1.0 3800.0 1.0 2800.0 1.0 3500.0 1.0 2650.0 1.0 2350.0 1.0 1400.0 1.0

15、2900.0 1.0 2550.0 1.0 2850.0 1.0 3300.0 1.0 2250.0 1.0 2500.0 使用命令： spss 的 t 檢驗(yàn)：菜單 Analyze->Compare Means->Independent-Samples T Test 運(yùn)行結(jié)果：經(jīng)方差齊性檢驗(yàn)： F= 0.393 P=0.532 ，即兩方差齊。（因?yàn)?p 大于 0.05 ）所以選用 t 檢驗(yàn)的第一行方差齊情況下的 t 檢驗(yàn)的結(jié)果：就是選用方差假設(shè)奇的結(jié)果所以， t=0.6

16、44 , p=0.522, 沒有顯著性差異。（因?yàn)?p < 0.05 表示差異有顯著性）。均值相差： 113.30159 解釋：使用 compare means 里的 independent smaples T test, 果里的 Levene\s Test for Equality of Variances 就是方差性的檢驗(yàn) , 如果 P 值大于 0.05 是方差 , 量 F= S1^2/S^2 ~ F(n1-1,n2-1) , 著水平一般 0.05,0.01, 原假 H0:方差相等。

17、方差分析 (Anaylsis of Variance, ANOVA) 要求各方差整，不一般，如果各人數(shù)相若，就算未能通方差整，也不大。 One-Way ANOVA 方中，點(diǎn) Options ?( ? ) 按扭，勾 Homogeneity-of-variance 即可。它會(huì) 生 Levene 、Cochran C 、Bartlett-Box F 等及其著性水平 P ，若 P 值<于 0.05 ，便拒方差整的假。一提， Cochran 和 B

18、artlett 定非正性相當(dāng)敏感，若出「拒方差整」的果，或因原因而做成。 Statistics 菜 ->Compare Means->Independent-samples T Test.. 再看看果中 p 的大小是否 <.05 ，若然即達(dá) 著水平。 SPSS學(xué)習(xí)筆記描述樣本數(shù)據(jù) 一般的，一組數(shù)據(jù)拿出來，需要先有一個(gè)整體認(rèn)識(shí)。除了我們平時(shí)最常用的集中趨勢(shì)外，還需要一些離散趨勢(shì)的數(shù)據(jù)。這方面 EXCEL就能一次性的給全了數(shù)據(jù)，但對(duì)于 SPSS，就需要用多個(gè)工具了，感覺上

19、表格方面不如 EXCEL好用。個(gè)人感覺，通過描述需要了解整體數(shù)據(jù)的集中趨勢(shì)和離散趨勢(shì)，再借用各種圖觀察數(shù)據(jù)的分布形態(tài)。對(duì)于 SPSS提供的 OLAP cubes（在線分析處理表）， Case Summary（觀察值摘要分析表）， Descriptives （描述統(tǒng)計(jì)）不太常用，反喜歡用 Frequencies （頻率分析）， Basic Table （基本報(bào)表）， Crosstabs （列聯(lián)表）這三個(gè)，另外再配合其它圖來觀察。這個(gè)可以根據(jù)個(gè)人喜好來選擇。一．使用頻率分析（ Frequencies ）觀察數(shù)值的分布。頻率分布圖與分析數(shù)據(jù)結(jié)合起來，可以更清楚的看到數(shù)據(jù)分

20、布的整體情況。以自帶文件 Trends chapter 13.sav 為例，選擇 Analyze->Descriptive Statistics->Frequencies ，把 hstarts 選入 Variables ，取消在 Display Frequency table 前的勾，在 Chart 里面 histogram ，在 Statistics 選項(xiàng)中如圖 1 圖 1 分別選好均數(shù) (Mean)，中位數(shù) (Median) ，眾數(shù) (Mode)，總數(shù) (S

21、um)，標(biāo)準(zhǔn)差 (Std. deviation) ，方差 (Variance) ，范圍 (range) ，最小值 (Minimum) ，最大值(Maximum)，偏度系數(shù) (Skewness) ，峰度系數(shù) (Kutosis) ，按 Continue 返回，再按 OK，出現(xiàn)結(jié)果如圖 2 圖 2 表中，中位數(shù)與平均數(shù)接近，與眾數(shù)相差不大，分布良好。標(biāo)準(zhǔn)差大，即數(shù)據(jù)間的變化差異還還小。峰度和偏度

22、都接近 0，則數(shù)據(jù)基本接近于正態(tài)分布。下面圖 3 的頻率分布圖就更直觀的觀察到這樣的情況圖 3 二．采用各種圖直觀觀察數(shù)據(jù)分布情況，如采用柱型圖觀察歸類的比例等。同樣以自帶文件 Trends chapter 13.sav 為例，我們可以觀察一下各年的數(shù)據(jù)總和的對(duì)比： 1．選擇 Graph->Bar->Simple ，在“ Data in chart a

23、re ”一項(xiàng)選擇 Summaryof groups of cases ，然后按 Define ，出現(xiàn)圖 4，圖 4 2．選擇 Bars Represent->Other statistic(e.g. mean) ，把 hstarts 一項(xiàng)選入 Variable Statistic 里面，把 YEAR,Periodic 鍵，出現(xiàn)圖 5：一項(xiàng)選入 Category Axis 項(xiàng)中，并按 Change 圖 5

24、 3．在 Statistic 選項(xiàng)中選 Sum of values 一項(xiàng)，按 Continue 返回，按 OK即可出現(xiàn)圖 6：圖 6 從圖中可以非常直觀的看出 1965 年 -1975 年間，每年的總體數(shù)量對(duì)比和各數(shù)值多少。三．通過列聯(lián)表來觀察，數(shù)據(jù)的交錯(cuò)關(guān)系。以軟件自帶的文件 University of Florida graduate salaries.

25、sav 來說明 1、選擇 Tables->Basic Table ，在彈出對(duì)話框中，選擇欄， College 到 Down ，Gender 到 Across 欄，如圖 7 Graduate 到 Summaries 圖 7 2、選擇 Statistics 按鍵，選取 Count 和 laye

26、r% 到 Cell Statistics 一欄，并按 Continue 鍵，如圖 8 圖 8 三、選擇 Layout 按鍵，選擇 Summary Variable Labels->In separate labels （匯總的標(biāo)簽，如本例的 Graduate ，放在表外）， Statistics Labels->Across top （數(shù)據(jù)的標(biāo)簽橫放在頂部

27、，如本例的 Count 和 Layer%），并在 Label groups with value labels only 前選擇打勾 ( 表示只需要具體的標(biāo)簽名就可以，不需要匯總名，如本例 Gender 和 College) ，如圖 9 圖

28、 9 四、選擇 Total 按鍵，在 Totals over each group variable 出表會(huì)有增加匯總一欄，如圖 10 一項(xiàng)前選勾，則輸圖 10 提示，需要什么表格形式可以根據(jù)要求來調(diào)整，但對(duì)輸出按鍵都需要熟悉，多嘗試幾次就可以看出不同的區(qū)別。圖 11 為輸出的表格

29、圖 11 重要提示：如果結(jié)果變成變量的匯總（ SUM），則先選擇 Data->Weight Cases ，把 Graduate 的選項(xiàng)先選入 Weight Cases by 內(nèi)，再選回 Do not weight Cases ，按 OK即可。對(duì)于其他帶有編號(hào)的一項(xiàng)都可以這樣做。這一點(diǎn)不知為何，本人屢次試過總需要這樣調(diào)整。參考圖 12

30、圖 12 幾種常用的統(tǒng)計(jì)方法應(yīng)用一般來說，最最常用的統(tǒng)計(jì)分析有假設(shè)檢驗(yàn)和回歸分析，在 SPSS中也有很好的對(duì)應(yīng)工具來做這些分析，但對(duì)其基本思路和要求都必須了解，這樣才能更靈活的發(fā)揮。下面抄錄《 EXCEL在市場(chǎng)調(diào)查中的應(yīng)用》一書中關(guān)于這方面的內(nèi)容： 1．假設(shè)檢驗(yàn) 目的：是用來判斷樣本與樣本，樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。基本思想：小概率反證法思想。即 P<0.01 或 P<0.0

31、5 在一次試驗(yàn)中基本不會(huì)生發(fā)。反證法思想是先提出假設(shè) （檢驗(yàn)假設(shè) H0），再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立的可能性大小，如果可能性小，則認(rèn)為假設(shè)不成立，否則，還不能認(rèn)為假設(shè)不成立。方法： t 檢驗(yàn)， u 檢驗(yàn)，秩和檢驗(yàn)，卡方檢驗(yàn) 應(yīng)用條件： A、各組資料具有可比性 B、具正態(tài)分布 C、方差齊性（即先作 F 檢驗(yàn)，如 F0.1，具方差齊性） 2．方差分析目的：又稱為變異系數(shù)分析或 F 檢驗(yàn)。用于推斷兩組或多組資料的總體平均數(shù)是否相同，檢驗(yàn)兩個(gè)或多個(gè)樣本平均數(shù)的差異是否具有統(tǒng)計(jì)意義 ( 也可認(rèn)為是檢驗(yàn) 多個(gè)總體均值是否有顯著性

32、差異注 1，這樣可能更簡(jiǎn)單一點(diǎn) ) 。基本思想：用組內(nèi)均方去除組間均方的商，即 F 值，與 1 比較，若 F 值接近 1，則說明各驗(yàn)均數(shù)間的差異沒有統(tǒng)計(jì)學(xué)意義，否則表示有統(tǒng)計(jì)學(xué)意義。應(yīng)用條件： A、各組資料具有可比性 B、具正態(tài)分布 C、方差齊性（即 F 檢驗(yàn)）提示，在應(yīng)用 SPSS中，只要死死的記住一個(gè)顯著系數(shù) 0.05 就可以應(yīng)用（如果是雙尾系數(shù)需要除以 2），一般的大于 0.05 接受原假設(shè)，小于 0.05 則拒絕。簡(jiǎn)單的說，一般結(jié)果拒絕就是說樣本有差異，樣本相對(duì)獨(dú)立，都是表示同一種意思，讀這方面書的時(shí)候，希望不要讓這些名詞混

33、亂了思路。 SPSS的方差檢驗(yàn)中，需要注意下面問題：方差檢驗(yàn)中， Post Hoc 鍵有 LSD的選項(xiàng)：當(dāng)方差分析 F 檢驗(yàn)否定了原假設(shè)，即認(rèn)為至少有兩個(gè)總體的均值存在顯著性差異時(shí)，須進(jìn)一步確定是哪兩個(gè)或哪幾個(gè)均值顯著地不同，則需要進(jìn)行多重比較來檢驗(yàn) 。LSD即是一種多因變量的三個(gè)或三個(gè)以上水平下均值之間進(jìn)行的兩兩比較檢驗(yàn)。 2 Independent Samples 檢驗(yàn)中的 Mann-Whitney U檢驗(yàn)與 K Independent Samples 中的 Kruskal-Walllis （克魯斯卡爾—瓦里斯） H 檢驗(yàn)法思想類似，常用來作為非參數(shù)檢驗(yàn)。 2

34、 Related Samples 非參數(shù)檢驗(yàn)中，一般有 Sign 普通符號(hào)檢驗(yàn)法和 Wilcoxon 威爾科克森符號(hào)秩檢驗(yàn)法。前者用于研究的問題只有兩個(gè)可能的結(jié)果：“是”或“非”，并且二者遵從二項(xiàng)分布；后者是普通符號(hào)檢驗(yàn)法的改進(jìn)，除了可以檢驗(yàn)是非外，還可以了解差異的大小。 K Related Samples 非參數(shù)檢驗(yàn)中，主要有 Friedman 秩和檢驗(yàn)與 Cochran Q 檢驗(yàn)二種選擇，前者是對(duì)多個(gè)樣本是否來自同一總體的檢驗(yàn)，而后者是用于只分為“成功”和“失敗”兩種結(jié)果的定類尺度測(cè)量的數(shù)據(jù)。附錄： SPSS假設(shè)檢驗(yàn)方法使用對(duì)照表

35、圖 13 其中相關(guān)、配對(duì)或有交互作用可以理解為 EXCEL的重復(fù)，獨(dú)立或無交互作用可以理解為 EXCEL中的無重復(fù)。圖 13 表大部分參考《數(shù)據(jù)分析與 SPSS應(yīng)用》一書，特別說明 3．回歸分析目的：研究一個(gè)變量 Y 與其它若干變量 X 之間的一種數(shù)學(xué)工具。它是一組試驗(yàn)或觀測(cè)數(shù)據(jù)的基礎(chǔ)上，尋找被隨機(jī)性掩蓋的變量之間的依存關(guān)系。 A．直線回歸方程 Yc=a bX B．回歸關(guān)系的檢驗(yàn)：求回歸方程在總體中是否成立，即是否樣本代表的

36、總體也有直線回歸關(guān)系。 a. 方差分析：基本思想是將總變異分解為 SS回歸和 SS乘余，然后利用 F 檢驗(yàn)來判斷方程是否成立。 b. t 檢驗(yàn)：基本思想是利用樣本回歸系數(shù) b 與總體平均數(shù)回歸系數(shù)進(jìn)行比較來判斷回歸方程是否成立。下面摘錄《數(shù)據(jù)分析與 SPSS應(yīng)用》一書關(guān)于相關(guān)回歸和時(shí)間序列分析一些概念解釋。數(shù)據(jù)變量間主要存在二類關(guān)系：一類是函數(shù)關(guān)系，一類是相關(guān)關(guān)系。前者是變量間有確定關(guān)系，即一個(gè)變量的值能夠在其他變量取值確定的情況下，按某種函數(shù)關(guān)系唯一確定；后者是變量間雖然具有的聯(lián)系，并非確定關(guān)系，如價(jià)格與銷量量，價(jià)格高了，銷售

37、量可能會(huì)上去，但無法確定銷售量是多少。通過散點(diǎn)圖來觀察，如果點(diǎn)都集中在一條直線附近，是線性相關(guān)，如果在一條曲線附近，則為非線性相關(guān)。如果一個(gè)變量因另一個(gè)變量的增加而增加，減少而減少，則二個(gè)變量間存在正相關(guān)關(guān)系，反之則為負(fù)相關(guān)關(guān)系。極端的相關(guān)是完全相關(guān)和零相關(guān)。如某地區(qū)購買自行車多少與購買大蒜多少無關(guān)，是為零相關(guān)。按我的理解，相關(guān)分析就是推斷變量與變量之間關(guān)系的密切程度，回歸就是在相關(guān)的基礎(chǔ)上，找出變量間的擬合模型，從而進(jìn)一步推測(cè)出未來的趨勢(shì)和變量。而時(shí)間序列則是以時(shí)間的作為觀察的序列，來推斷變量間的關(guān)系的一種模型。以自帶文件 Trends c

38、hapter 13.sav 為例，說明一下如何應(yīng)用這三種分析工具。1．相關(guān) 打開 Trends chapter 13.sav 文件，可以看到，這個(gè)文件的數(shù)據(jù)是以時(shí)間來排序的，在每個(gè)值前增加一行序列號(hào)變量，如圖 14 圖 14 一個(gè)時(shí)間序列的影響因素有四種變動(dòng)： A長(zhǎng)期趨勢(shì)（ Secular Trend）， B 季節(jié)變動(dòng)（ Seasonal Variatio

39、n ）， C循環(huán)變動(dòng)（ Cyclical Variation ）， D 不規(guī)則變動(dòng)（ Irregular Variation ）。我們可以觀察一下這些數(shù)據(jù)是否存在某種關(guān)系，打開 Graphs->Sequence，如圖 15 圖 15 把 hstarts 選入 Variables 項(xiàng)，把 No.選入 Time Axis Lables ，然后按 OK，出現(xiàn)圖 16：

40、圖 16 從圖可以看出，數(shù)據(jù)總是在一個(gè)周期內(nèi)反復(fù)在上下波動(dòng)，雖然高低的位置不一樣，但這種波動(dòng)顯然是隨著時(shí)間的不同而變化。因此可以察看，因變量與時(shí)間的關(guān)系如何。選擇 Data->Define Dates ，出現(xiàn)圖 17

41、圖 17 在 Year 一欄填入 1965，Month 一欄填入 1，表示數(shù)據(jù)從 1965 年 1 月開始計(jì)算。選擇 Analyze->Correlate->Bivariate ，出現(xiàn)圖 18 圖 18 把 hstarts ，Year 和 Month 都選入 Varibales 選項(xiàng)， Correlation Coe

42、fficients 選擇 Pearson 和 Spearman（其實(shí)只需要選 Spearman就可以，這里只是試一下，作為比較）。注：相關(guān)檢驗(yàn)中有 Pearson（皮爾森）相關(guān)系數(shù)和 Spearman（斯皮爾曼）等級(jí)相關(guān)，前者也稱皮爾森相關(guān)系數(shù)，是對(duì)兩個(gè)定距變量關(guān)系的刻畫；后者是用來考察兩個(gè)變量中至少有一個(gè)定序變量時(shí)的相關(guān)關(guān)系。 Zero-order Correlations （零階偏聽偏相關(guān)系數(shù)）是按 Pearson 簡(jiǎn)單相關(guān)系數(shù)公式計(jì)算得到的相關(guān)系數(shù)。在皮爾森系數(shù) r 是對(duì)兩個(gè)定距變量關(guān)系的刻畫 : 若 - 1≤r ≤1， |r| 越大，表明兩個(gè)變量之間

43、的相關(guān)程度越強(qiáng)。若 0

44、tandard deviations Cross-product deviations and covariances ，注意，這二個(gè)選擇是 Pearson 才有的，如果開始只選擇 Spearman，則此二項(xiàng)不能選。返回后，按 OK如圖 20：圖 20 從圖 20 看到 Year 的 Pearson 系數(shù)為 0.219 ，Sig 值為 0.012 ，小于 P

45、值 0.05 ，與 Hstarts 顯著相關(guān)， Month 的 Pearson 系數(shù)為 0.058 ，Sig 值為 0.506 ，大于 P 值 0.05 ，則與 Hstarts 不顯著相關(guān)。從下圖 21 的 Spearman也同樣得到相同的結(jié)論。圖 21 2．回歸試建立回歸模型，看能否形成各變量間的關(guān)系式。選擇 Analyze->Regression->Curve Estima

46、tion ，出現(xiàn)圖 22 圖 22 把 hatarts 選入 Dependents 選項(xiàng)，Independent 選擇 Time，Models 選擇（Linear ）線性回歸，（Quadratic ）二次曲線回歸，（Cubic ）三次曲線回歸，（ Exponential ）指數(shù)回歸，選擇 Include constant in equation 表示方程式有常數(shù)項(xiàng)， Pl

47、ot models 則表示用圖表示，然后按 OK，出現(xiàn)圖 23 圖 23 線性方程： Y=70.43 0.135X 二次曲線方程： Y=64.171 0.415X-0.02X 2 2 3 三次曲線方程： Y=87.68-1.667X 0.037X ( 0X ) 指數(shù)曲線方程： Y=68.229xe0.002 從 Sig 值判斷，都小于 0.05 ，都接受回歸成立，這樣，只能從 R擬合度和 F 值較大來

48、判斷三次曲線方程的擬合程度比較高。注意，如果方程成立的話，想要增加預(yù)測(cè)，則可以在 Save 選項(xiàng)中選擇 Predicted Values 一項(xiàng)，如果還想預(yù)測(cè)未來的數(shù)值，則可以在原表上增加若干行（如 1 行），然后選擇 Predict Cases 下面 Predict through ，在 Year 填入 1976，在 Month 填入 1，這樣就表示預(yù)測(cè)值到 1976 年的一月。如圖 24 所示。

49、圖 24 注意，在 Independent 選擇 Time 和把 ID 選入結(jié)果一樣，則因?yàn)?ID 是以時(shí)間為序來排，所以結(jié)果一樣。 3．時(shí)間序列因?yàn)?R 的似合度分別為 0.05 ， 0.064 ，0.199 和 0.039 ，都比較低，方程的效果不太好，如果要預(yù)測(cè)數(shù)值還是選擇時(shí)間序列比較合適，因?yàn)閺膭偛?Sequence的圖也可以觀察到，數(shù)據(jù)是以后的時(shí)間來波動(dòng)的變化關(guān)系。選擇 Analyze->Time Series->Exponential Smoothing ，出現(xiàn)圖 25

50、圖 25 把 hstarts 選入 Variables 選項(xiàng)，并在 Model 選擇 Winters （注意，三種不同的模型的選擇：簡(jiǎn)單指數(shù)平滑適用于不包含長(zhǎng)期趨勢(shì)和季節(jié)成分的數(shù)據(jù)； Holt 方法適合于包含長(zhǎng)期趨勢(shì)但不包含季節(jié)成分的數(shù)據(jù)； Winters 方法適合于包含季節(jié)成分（以及長(zhǎng)期趨勢(shì)）的數(shù)據(jù)。 EXCEL中只有簡(jiǎn)單的指數(shù)回歸，與這里的絕不相同，從這里也可以看到專業(yè)分析軟件的優(yōu)勢(shì)更具體更仔細(xì)），又按

51、Save 鍵，如圖 26 圖 26 Predict Case 選項(xiàng)中選擇 Predict through ，并在 Year 欄填入 1976， month 填入 6，這樣就可以得到 1976 年 1-6 月份的預(yù)測(cè)值（注意，此處與上面的回歸不同，不需要增加 6 個(gè) ID ，不然結(jié)果會(huì)顯示有缺失值）。返回，按 Parameters 鍵，如圖 27

52、圖 27 分別把 Alpha（截距項(xiàng)的平滑系數(shù)）， Gamma（趨勢(shì)項(xiàng)的平滑系數(shù)）和 Delta （季節(jié)指數(shù)的平滑系數(shù)），設(shè)為從 0 到 1 之間以步長(zhǎng) 0.05 搜索最優(yōu)的參數(shù)值，其它選項(xiàng)采用默認(rèn)值。返回按 OK，出現(xiàn)結(jié)果如圖 28：圖 28 從圖可看到平滑指數(shù)分別是 Alpha ＝0.75 ，Gamma=0， Delta=0 ，而更重要的是，可以直接得到預(yù)測(cè)值，

53、如圖 29：圖 29 除了 Fit 一項(xiàng)的預(yù)測(cè)外，可以得到 1976 年 1-6 月的預(yù)測(cè)結(jié)果。同時(shí)，可以通過 FIT 1 的預(yù)測(cè)情況與上面三次曲線回歸方程比較，采用平均絕對(duì)誤差、均方根誤差和平均絕對(duì)百分誤差的結(jié)果選擇更佳的答案。與 EXCEL表現(xiàn)的比較和補(bǔ)充這一點(diǎn)是針對(duì)像我這樣開始只懂得用 EXCEL的人來說。從個(gè)人的體會(huì)來說，二種軟件有一定相似，操作都簡(jiǎn)便，同時(shí)又有一些可以互補(bǔ)的地方。一、圖型的表

54、現(xiàn)力是 SPSS的主要優(yōu)點(diǎn)之一應(yīng)該說， EXCEL的圖型表現(xiàn)主要是簡(jiǎn)便，對(duì)許多的人來說基本夠用，但對(duì)于科學(xué)的表現(xiàn)， SPSS就更為詳細(xì)和準(zhǔn)確，這一點(diǎn)據(jù)說在所有統(tǒng)計(jì)軟件中都突出。因?yàn)榇蠖嗟臅锩娑颊劦剑@里從略。二、通過 SPSS檢驗(yàn)方差齊性和數(shù)據(jù)分布假設(shè)檢驗(yàn)中，采用的 t 檢驗(yàn)和方差檢驗(yàn)都需要滿足二個(gè)要求，即 1．樣本方差齊性 2．樣本總體呈正態(tài)分布在 EXCEL中，提供了 F 檢驗(yàn)來檢驗(yàn)方差齊性問題。也就是可以先通過 F 檢驗(yàn)確定方差齊性與否來選擇下一步用哪個(gè) T 檢驗(yàn)或方差檢驗(yàn)分析工具。但只要數(shù)據(jù)多于二組則無從下手；通過描述統(tǒng)計(jì)大約能從峰度

55、和偏度來了解樣本的分布（實(shí)際工作中，只要分布單峰且近似對(duì)稱分布，也可應(yīng)用注 2），但要具體確定樣本的分布也有難度。這二個(gè)問題在 SPSS就可以解決。 A、用 SPSS檢驗(yàn)方差齊性同樣以 University of Florida graduate salaries.sav 文件作為例子來檢驗(yàn)性別數(shù)據(jù)是否方差齊性 a. 選擇 Analyze->Descriptive Statistics->Explore ，再選擇 Dependent List->Graduate ，F(xiàn)actor List->Gender ， Display->Both ，如圖 30

56、圖 30 b. 點(diǎn)擊 Plot 按鍵，在對(duì)話框里選擇 Boxplots->None ，Spread vs.Level with Levene Test->Untransformed ，在 Descriptive 選擇中取消 Stem-and-leaf 一項(xiàng)，如圖 31 圖 31 然后，按 OK鍵，結(jié)果如圖 32 顯示：圖 3

57、2 圖 32 中可以看出 , 顯著值 sig 都大于 0.05 ，因此不能拒絕 H0 方差齊性的假設(shè)，即數(shù)據(jù)的方差齊性。提示，在 SPSS中，應(yīng)用 t 檢驗(yàn)是不需要單獨(dú)檢驗(yàn)方差齊性問題。結(jié)果中就有 Levene 檢驗(yàn)的結(jié)果，從中就可以選擇方差分別作為相等與不等假設(shè)時(shí)的結(jié)果，如圖 33 圖 33 而在方差檢驗(yàn)中， Option 的按鍵有一個(gè) Homogeneity of Variance test 的按鍵，選擇后，輸出就有方差齊性的檢

58、驗(yàn)結(jié)果。 B、用 SPSS檢驗(yàn)樣本總體的分布。以軟件自帶文件 World 95 for Missing Values.sav 作為例子檢驗(yàn)出生率的分布是否服從正態(tài) a. 選擇 Data->Weight Cases ，并把 Birth rate per 1000 people 選入 Weight cases by 的選項(xiàng)，如圖 34

59、圖 34 b. 選擇 Analyze->Nonparametric Tests-> 1 sample K-S，把 Birth rate per 1000 people 選入 test Variable List 選項(xiàng)， Test distribution 選 Normal，如圖 35

60、圖 35 c. 按 OK可以看到結(jié)果如圖 20，兩側(cè)檢驗(yàn)率為 0，則表示拒絕接受 Ho（數(shù)據(jù)整體服從正態(tài)分布）的假設(shè)，數(shù)據(jù)分布不服從正態(tài)分布。圖 36 提示，除了正態(tài)（ Normal）外，還可以檢驗(yàn)其它分布，只要在圖中選項(xiàng)中選擇 Uniform （均勻分布）， Poisson （泊松分布）， Exponential （指數(shù)分布）即可。當(dāng)然，如果樣本過大，可

61、能 SPSS也會(huì)拒絕運(yùn)算。三、感覺在數(shù)據(jù)和表格處理上， EXCEL要強(qiáng)一點(diǎn)。像圖 11 中，想把男性和女性的個(gè)數(shù)和個(gè)數(shù)百分比各自合為一列，結(jié)果不能做到。又如在運(yùn)算方面， EXCEL就能直接在單元格上操作，而 SPSS則要下拉菜單，不但麻煩，而且觀察和調(diào)整的效果也不如 EXCEL理想。四、作為專業(yè)的統(tǒng)計(jì)軟件， SPSS感覺比 EXCEL更豐富，也更準(zhǔn)確， EXCEL也有自身方便性的優(yōu)點(diǎn)。可以根據(jù)個(gè)人喜歡來選擇。最后用毛炳寰先生的勸導(dǎo)來結(jié)束這篇東西： 1．用自己熟悉，有把握的方法來做分析 2．仔細(xì)處理初級(jí)數(shù)據(jù)，所謂“ Garbage in ， garbage out ”。 3．引用的時(shí)候不需要全部都羅列出來，同時(shí)也不用刻意的去搞清楚每一項(xiàng)表示的內(nèi)容。（對(duì)這最后一個(gè)，本人有點(diǎn)保留，但也確實(shí)在這個(gè)探索過程令我沮喪，覺得還是忠言）

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

spss_數(shù)據(jù)正態(tài)分布檢驗(yàn)方法及意義

最新文檔

相關(guān)資源

相關(guān)搜索