高級統(tǒng)計學(xué)與SPSS應(yīng)用全套ppt課件



《高級統(tǒng)計學(xué)與SPSS應(yīng)用全套ppt課件》由會員分享,可在線閱讀,更多相關(guān)《高級統(tǒng)計學(xué)與SPSS應(yīng)用全套ppt課件(168頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,*,,,,,,,,,,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,,,,,,,,,,,,,,,,,,,,,,,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,,,*,,,,,,,,,,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,,,*,高級統(tǒng)計學(xué)與,SPSS,應(yīng)用,高級統(tǒng)計學(xué)與SPSS應(yīng)用,第一章,統(tǒng)計學(xué)概述,,統(tǒng)計是歷史久遠的人類社會必不可缺的一種社會實踐活動,它是對客觀事物的數(shù)量方面進行核算和分析,,,是人們對客觀事物的數(shù)量表現(xiàn)、數(shù)量關(guān)系和數(shù)量變化進行描述和分析的一種計量活
2、動,。,,統(tǒng)計學(xué)則研究人們可以采用哪些方法從數(shù)量方面去認識世界和解釋世界。統(tǒng)計學(xué)不僅僅是工具和形而下的,它已經(jīng)成為一種具有普遍意義的思想方法、思維方式。,第一章 統(tǒng)計學(xué)概述 統(tǒng)計是歷史久遠的人類社會必不,一、,概率,論,的發(fā)展,過程,不確定性是概率存在和發(fā)展的前提,但在,遠古,年代,這種不確定性更多地成了神的領(lǐng)地,人類的禁區(qū),。,古希臘人已經(jīng)知道用抽簽決定一些爭端,。,一、概率論的發(fā)展過程不確定性是概率存在和發(fā)展的前提,但在遠古,賭博,與,概率,論的關(guān)系,從,15,世紀末開始,賭博逐漸盛行,到,16,世紀初,有些意大利數(shù)學(xué)家已經(jīng)開始著手探討賭博中出現(xiàn)各種情況的機遇或勝率,即用計算出
3、現(xiàn)某一特定結(jié)果的情況與可分解成的總情況之比來計算,這種算法后來演變成了概率的古典定義。,賭博與概率論的關(guān)系,據(jù)說在,1654,年,巴黎一個名叫梅雷的賭徒要求當時著名的數(shù)學(xué)家帕斯卡解決一個賭博中產(chǎn)生的實際問題:兩個技藝相當?shù)馁€手約定,每贏一場為贏一點,誰先贏得三點就算全贏。如果當兩人都沒有能贏得三點而需要中斷賭博時,問賭本應(yīng)當如何攤派才算公平。,,據(jù)說在1654年,巴黎一個名叫梅雷的賭徒要求當時著名的數(shù)學(xué)家,1713,年,在,J·,伯努利去世后的,8,年,他的著作《推測術(shù)》問世,書中提出了伯努利大數(shù)定律,這使得概率統(tǒng)計的理論和應(yīng)用取得了突破性進展。,客觀概率和主觀概率的提出不僅僅是數(shù)學(xué)計算的處理
4、,也引起人們對概率哲學(xué)意義的思考。這,“,標志著概率概念漫長的形成過程的終結(jié)與數(shù)學(xué)概率論的開端,”,。,1713年,在J·伯努利去世后的8年,他的著作《推測術(shù)》問世,概率論的理論正式發(fā)展起來,莫阿弗爾提出中心極限定理為處理觀測誤差提供了理論基礎(chǔ);,貝葉斯的貝氏統(tǒng)計理論運用概率來解決從特殊推斷一般的問題,。,拉普拉斯《概率分析理論》問世,概率論從,17,世紀到,19,世紀初的經(jīng)典時期被劃上了一個完整的句號,。,概率論的理論正式發(fā)展起來,二、概率論與統(tǒng)計的結(jié)合,近代的概率思想帶來了人類思想上的一次飛躍,但是這次飛躍嚴格來說并不是由概率直接完成的,統(tǒng)計學(xué)和她的聯(lián)姻才是促成,19,世紀以來人類在認識論
5、、方法論上飛躍的主角。,,二、概率論與統(tǒng)計的結(jié)合近代的概率思想帶來了人類思想上的一次飛,統(tǒng)計學(xué)和概率學(xué)在早期幾乎無太多關(guān)聯(lián),。,統(tǒng)計的出現(xiàn),可能遠在人類文明的初期就已經(jīng)開始,人口、兵力等統(tǒng)計數(shù)字就已經(jīng)為部落或城邦的首領(lǐng)所關(guān)注。,統(tǒng)計成為一種學(xué)問則直到十七世紀的德國,出現(xiàn)。,著名學(xué)者康令已經(jīng)開始從人口比率、文化水平等統(tǒng)計數(shù)字中分析德國國家形勢。,統(tǒng)計學(xué)和概率學(xué)在早期幾乎無太多關(guān)聯(lián)。,同一時代的英國學(xué)者,J·,格龍?zhí)貜亩ㄆ诠嫉膫惗鼐用竦乃劳龉珗笾邪l(fā)現(xiàn),充分大量的觀察可使事物發(fā)展中非本質(zhì)的偶然因素的影響互相抵消或削弱,從而顯示出整個現(xiàn)象穩(wěn)定的、一般的特征。,W·.,配第開啟了用數(shù)學(xué)方法描述社會現(xiàn)象
6、的先河,從而創(chuàng)立了,“,政治算術(shù)學(xué)派,”,,,“,威廉,·.,配第,——,政治經(jīng)濟學(xué)之父,在某種程度上也是統(tǒng)計學(xué)的創(chuàng)始人,”,(,馬克思,語),同一時代的英國學(xué)者J·格龍?zhí)貜亩ㄆ诠嫉膫惗鼐用竦乃劳龉珗笾?伯努利大數(shù)定律使得,概率論與統(tǒng)計,有了結(jié)合的基礎(chǔ),。,法國的,P·.,拉普拉斯發(fā)現(xiàn):,“,概率的數(shù)理公式可以當作以大量觀察而又易有錯誤為基礎(chǔ)的各項科學(xué)所要的輔助科學(xué),”,。,大數(shù)學(xué)家高斯,的,分布曲線讓概率與統(tǒng)計的結(jié)合邁出了重要的一步。,,伯努利大數(shù)定律使得概率論與統(tǒng)計有了結(jié)合的基礎(chǔ)。,概率論和統(tǒng)計學(xué)在自然科學(xué)和社會科學(xué)中都出現(xiàn)了交集,這個交集帶來的效應(yīng)是爆炸性的,。,概率統(tǒng)計已經(jīng)成為動力學(xué)
7、、系統(tǒng)論、協(xié)同學(xué)的重要組成部分,是心理學(xué)等社會科學(xué)研究中的重要方法,而其對大量微觀粒子的描述也使醫(yī)學(xué)成像、粒子成像得以廣泛地在社會上得以應(yīng)用。,概率論和統(tǒng)計學(xué)在自然科學(xué)和社會科學(xué)中都出現(xiàn)了交集,這個交集帶,三、,統(tǒng)計學(xué)的哲學(xué)基礎(chǔ),1.,必然性與偶然性的辯證統(tǒng)一,,統(tǒng)計學(xué)的基礎(chǔ)是隨機性原則,,統(tǒng)計研究的總體現(xiàn)象的數(shù)量狀況,,,是由各種各樣因素影響的結(jié)果,,,一類是普遍起作用的主要因素,;,另一類是偶然起作用的次要因素。這兩類因素錯綜交織在一起,,,以某種偶然的形式表現(xiàn)出來,,,而將必然存在的實質(zhì)卻隱蔽起來。,三、統(tǒng)計學(xué)的哲學(xué)基礎(chǔ)1.必然性與偶然性的辯證統(tǒng)一,2.,量變與質(zhì)變的辯證統(tǒng)一,一個完整的
8、統(tǒng)計調(diào)查,,,首先,是對被調(diào)查的對象及其性質(zhì)要進行質(zhì)的界定,,,然后科學(xué)地設(shè)計統(tǒng)計對象的各個指標以及怎樣量化,,,其實質(zhì)就是對事物從質(zhì)變到量變的開始。再次,,,就是對搜集上來的眾多數(shù)據(jù)如何進行甄別與整理,,,是完成量變到質(zhì)變的必要階段。最后,,,對,數(shù)據(jù)進行質(zhì)與量的辯證分析,,,并同時提出統(tǒng)計分析報告和有關(guān)的政策咨詢意見。,2.量變與質(zhì)變的辯證統(tǒng)一,3.,分析與綜合的辯證統(tǒng)一,可,用統(tǒng)計方法進行定性分析、定量分析、因素分析、結(jié)構(gòu)分析、比較分析、比例分析、分類分析,,,先將客體分解為若干個主要因素然后又將其結(jié)合起來考察其綜合作用等等。,3.分析與綜合的辯證統(tǒng)一,第二章 統(tǒng)計學(xué)知識簡要回顧,一、
9、簡化一個變量的分布,,定類層次、定序?qū)哟?、定距層?,1.,集中趨勢測量法,定類:眾值,Mo,,定序:中位值,Md,定距:均值,,第二章 統(tǒng)計學(xué)知識簡要回顧一、簡化一個變量的分布,2.,離散測量法,定類:離異比率,v,(,非眾數(shù)數(shù)目與總個案數(shù)目之比),,定序:四分位差,Q,定距:標準差,S,,,2.離散測量法,,二、簡化兩個變量的分布,1.,簡化相關(guān)與消減誤差,相關(guān)的含義 正相關(guān) 負相關(guān),消減誤差比例,,PRE=,(,E,1,-,E,2,),/E,1,,2.,相關(guān)測量法,Pearson,積矩相關(guān):定矩,Spearman,等級,相關(guān)、,Kendall,等級,相關(guān) 定序、等級,Kappa,
10、一致性,相關(guān),K,系數(shù) 類別,,,二、簡化兩個變量的分布1.簡化相關(guān)與消減誤差,三、抽樣與統(tǒng)計推論,1.,抽樣的意義與過程,,最終要說明總體,,A,界定總體,(,全部研究對象的范圍,時間地點人物),,B,搜集全部個案名單,,C,決定樣本大?。ǔ闃诱`差、研究成本),,D,設(shè)計抽樣方法,選取樣本個案,,E,評估樣本之正誤(尋找容易獲得的指標進行評估),,三、抽樣與統(tǒng)計推論1.抽樣的意義與過程,抽樣分布,,以樣本的數(shù)值推斷總體情況,只是一種“可能”,不是“必然”。因此需要考慮統(tǒng)計推論發(fā)生錯誤的可能性。,抽樣分布是根據(jù)概率的原則成立的理論分布,顯示由總體中不斷抽取樣本時,各個可能出現(xiàn)的樣本統(tǒng)計
11、值的分布情況。,,抽樣分布,例:均值抽樣分布,,n,次抽樣獲得,n,個均值,M,,其分布為正態(tài)分布(,n,﹥,30,),抽樣分布的均值就是總體的均值,抽樣分布的標準差為標準誤差。,SE=S/ S,為總體標準差(樣本的標準差),,N,為樣本大小。,有,90%,的樣本均值在,M±1.65(SE),范圍。,有,95%,的樣本均值在,M±1.96(SE),范圍。,有,98%,的樣本均值在,M±2.33(SE),范圍。,有,99%,的樣本均值在,M±2.58(SE),范圍。,對于統(tǒng)計推論的意義:,假設(shè)總體的均值為,M,,用隨機方法抽取一個樣本,可以推斷,這個樣本的均值在,M±1.96(SE
12、),兩值之間的可能性很大(,95%,),在兩值之外的可能性很小(,5%,)。如果計算出的樣本均值是在兩值之外,就要懷疑假設(shè)的正確性了。,,,例:均值抽樣分布,2,、參數(shù)估計,以樣本的統(tǒng)計值估計總體的參數(shù)值,例:均值的間距估計,間距的大小取決于要求的可信程度(可信度、置信水平))是多少。在樣本大小相同的情況下,可信度越大,間距越大。這個間距為“可信間距”。,如果要求的可信度為,95%,,則可信間距為:,,±1.96(SE),,即,±1.96,(,S/,),,為樣本的均值,,SE,為標準誤差,,S,樣本的標準差,,N,為隨機樣本的大小。,M,是總體的均值,處在可信間距中。,,2、參數(shù)估計,3.,假
13、設(shè)檢驗,,A,研究假設(shè),H,1,:在研究之初進行的假設(shè),主要針對總體情況。運用隨機樣本資料推論總體的時候,不直接檢驗研究假設(shè)。,,虛無假設(shè),H,0,:,與研究假設(shè)相對立的假設(shè),用來進行檢驗。,因為不能由隨機樣本直接判斷研究假設(shè)是否正確,有可能是由抽樣誤差引起的,因此必須想法排除抽樣誤差的可能性。其邏輯是,成立相對立的,H,0,,根據(jù),H,0,成立抽樣分布,求出,H,0,是正確的可能性。如果,H,0,是對的可能性很小,就可以排除抽樣誤差的說法,則,H,1,可能是對的。,,,3.假設(shè)檢驗,B,否定域與顯著度,,在分析資料之前,先決定在什么情況下會否定虛無假設(shè)。這樣的一個預(yù)先規(guī)定范圍,就是否定域,C
14、R,。也就是抽樣分布內(nèi)一端或者兩端的小區(qū)域。如果樣本統(tǒng)計值屬于此區(qū)域范圍內(nèi),就否定虛無假設(shè)。,,否定域的大小取決于研究的需要,在抽樣之前決定。,,顯著度,p,表示否定域在整個抽樣分布中所占比例,也就是樣本的統(tǒng)計值落在否定域內(nèi)的機會,。,B 否定域與顯著度,C,、一端檢驗與二端檢驗,,否定域在抽樣分布的一端,就是一端檢驗,在兩端就是二端檢驗。,,在顯著度相同的情況下,二端檢驗比一端檢驗更難否定虛無假設(shè)。,,主要取決于研究假設(shè)的方向。,D,、檢驗假設(shè)的步驟,,研究假設(shè) 虛無假設(shè),,選擇檢驗統(tǒng)計法,列舉其條件(如正態(tài)分布、隨機抽樣、定距測量),,成立抽樣分布,,決定顯著度 求出否定域,,根
15、據(jù)樣本資料計算檢驗值,進行決策。,,C、一端檢驗與二端檢驗,4.,主要檢驗方法,定類-定類 定類-定序,,X,2,檢驗法,(,卡方檢驗,),定序-定序,,Z,檢驗法,定類-定距 定序-定距 定距-定距,,F,檢驗法(方差分析之一:),4. 主要檢驗方法定類-定類 定類-定序,方差分析,目的: 分析控制變量的不同水平是否對觀察變量產(chǎn)生顯著影響。,主要是分析在眾多的影響因素中哪些因素起到關(guān)鍵性的影響。,能夠人為控制的變量稱為控制變量,不能夠人為控制的變量稱為隨機變量,受控制因素和隨機因素影響的事物,為觀察變量。,例如:影響農(nóng)業(yè)產(chǎn)量的因素有肥料、種子、氣候、土地等等。,單因素方差分析
16、 測試一個控制變量的不同水平是否對觀察結(jié)果造成顯著影響。,,方差分析目的: 分析控制變量的不同水平是否對觀察變量產(chǎn)生,基本思路:研究觀察變量在一個控制變量中的若干不同水平下,其各個總體在分步上是否存在顯著差異。方差分析的前提是不同水平下的各總體應(yīng)服從方差相同的正態(tài)分布,因此,方差分析問題就轉(zhuǎn)換成了研究不同水平下的各總體的均值是否有顯著差異。,單因素方差分析將觀察變量總的變差平方和,記為,SST,,分解為兩個部分:一部分為由控制變量引起的變差,記為,SSA,,另一部分是由隨機變量引起的變差,記為,SSE,。,,SST,=,SSA,+,SSE,SSA,也叫組間離差平方和,是各水平組均值與總均
17、值離差的平方和,反映了控制變量的影響,SSE,也叫組內(nèi)離差平方和,是每個數(shù)據(jù)與本水平組平均值離差的平方和,反映了數(shù)據(jù)抽樣誤差的大小程度。,,,,基本思路:研究觀察變量在一個控制變量中的若干不同水平下,其各,零假設(shè)(虛無假設(shè)):不同水平下,各總體均值無顯著差異。,采用,F,檢驗。,F,=平均組間平方和/平均組內(nèi)平方和。服從(,K,-,1,,,N,-,K,)個自由度。,如果相伴的概率值小于或者等于顯著度水平,拒絕零假設(shè),認為控制變量不同水平下各總體的均值有顯著差異。如果大于顯著度水平,不能拒絕零假設(shè),可以認為控制變量不同水平?jīng)]有給觀察變量帶來顯著影響。,零假設(shè)(虛無假設(shè)):不同水平下,各總體均值無
18、顯著差異。,第三章 詳析分析與凈相關(guān)系數(shù),引入第三類變量詳細分析兩個變量(,X,與,Y,)之間的關(guān)系。,基本方法:統(tǒng)計控制 控制第三類變量,即依據(jù)第三類變量的值,將樣本個案重新分組,在每組中分析,X,與,Y,的關(guān)系,并與未控制第三類變量時,X,與,Y,的關(guān)系進行比較。,第三章 詳析分析與凈相關(guān)系數(shù)引入第三類變量詳細分析兩個變量,統(tǒng)計控制,,X,Y,(W=1),(W=2),X,X,Y,Y,,R,為,X,與,Y,的關(guān)系,R1,為在,W1,的情況下,X,與,Y,的關(guān)系,R2,為在,W2,的情況下,X,與,Y,的關(guān)系,統(tǒng)計控制XY(W=1)(W=2)XXYYR為X與Y的關(guān)系R1,年齡與出外旅游
19、的關(guān)系,,年齡與出外旅游的關(guān)系,引入教育因素(第三類變量)后分組,引入教育因素(第三類變量)后分組,(一)詳析分析的類型,1,.因果分析 判斷,X,與,Y,之間是否可能存在因果關(guān)系引入第三個變量,W,,看是否由于,W,影響到,X,,又影響到,Y,,從而使得,X,和,Y,發(fā)生關(guān)系。,控制,W,,,X,變化時,,Y,也起了變化,說明,X,與,Y,的關(guān)系不是由,W,引起的,,X,與,Y,的因果關(guān)系可能是真實的。相反,控制,W,后,,X,變化,,Y,不變,則,X,與,Y,的關(guān)系是虛假的。,主要方法是進行統(tǒng)計控制。,(一)詳析分析的類型1.因果分析 判斷X與Y之間是否可能存,R,1,=,R,2,=,
20、0,虛假關(guān)系,W,X,Y,R1=R2=0 虛假關(guān)系WXY,R,1,=,R,2,=,R,真實關(guān)系,X,Y,W,R1=R2=R 真實關(guān)系XYW,R,1,≠0 R,2,≠0 R,1,<,R R,2,<,R,部分真實關(guān)系,W,X,Y,R1≠0 R2≠0 R1<R R2<R 部分,2,.闡明分析 驗證,X,是否通過某些因素來影響,Y,的。即說明為什么,X,影響,Y,。,,,,,其作用就是用事實來驗證,X,是通過某些因素(如,T,變量)對,Y,產(chǎn)生影響的。,X,Y,T,2.闡明分析 驗證X是否通過某些因素來影響Y的。即說明為,R,1,=,R,2,=,0,完全闡明,R
21、,1,=,R,2,=,R,不能闡明,R,1,≠0 R,2,≠0 R,1,<,R R,2,<,R,部分闡明,R1=R2=0 完全闡明,例:調(diào)查,300,名婦女(,35,-,45,歲),其教育水平(,X,)越高,子女數(shù)目(,Y,)越少,,G,=-,0.70,,如何解釋?,解釋,1,:教育程度越高的婦女越晚婚,因而生的子女少。,引進“結(jié)婚年齡”作為中介變量(,T,)分表,發(fā)現(xiàn):,晚婚組中的,X,與,Y,的相關(guān)系數(shù),G,=-,0.71,,早婚組中的,X,與,Y,的相關(guān)系數(shù),G,=-,0.68,,這就表明結(jié)婚年齡不具有解釋性!,例:調(diào)查300名婦女(35-45歲),其教育水平(X)越高,
22、,解釋,2,:重男輕女的觀點可能有影響,控制“重男輕女”(,T,)后,在“重男輕女”組中,G,=-,0.45,;在“不重男輕女”組中,G,=-,0.5,表明:教育水平較低的婦女生的子女較多,部分是由于重男輕女觀點的影響,。,教育,生育,重男輕女,解釋2:重男輕女的觀點可能有影響教育生育重男輕女,解釋,3,:社會意識的影響,社會意識分為高、中、低,分組后,,G,高=-,0.18,,,G,中=-,0.20,G,低=-,0.33,,表明社會意識的影響較大,解釋3:社會意識的影響,3,.條件分析,,X,與,Y,之間的關(guān)系是否因為條件的變化而發(fā)生變化。,依據(jù)條件變項,C,,將樣本分組,在每組中(即不同的
23、條件下)分析,X,與,Y,的關(guān)系。,如果每組中,X,與,Y,的關(guān)系大體相同,則表示,X,與,Y,的關(guān)系具有普遍性。,如果,X,與,Y,在不同的組中有不同的關(guān)系,則表明,X,與,Y,的關(guān)系具有條件性。,3.條件分析 X與Y之間的關(guān)系是否因為條件的變化而發(fā)生變化,曲解分析,例:調(diào)查,400,名成年人,教育水平(,X,)與社區(qū)活動參與(,Y,)的關(guān)系,G,=-,0.16,,將樣本分為男女兩組后,分別為,G,男=,0.26,G,女,=0.40,,可見原來的負相關(guān)是有問題的,,,曲解了實際情況,.,主要原因在與樣本分布上存在問題,.,曲解分析,(二)凈相關(guān)系數(shù)(偏相關(guān)系數(shù)),,以一個統(tǒng)計值來綜合和簡化
24、所有的分組表的結(jié)果,然后與原表結(jié)果相比,這就是凈相關(guān)測量統(tǒng)計法。,R,代表原關(guān)系的強弱,,R,P,代表凈關(guān)系。,在因果分析中,,R,P,=,0,表示虛假關(guān)系,,R,P,=,R,表示可能真實,,R,P,≠0 R,P, 25、與,Y,的相關(guān)性,也是,X,對,Y,的影響力。,,R,x1,,、,R,y1,分別表示因素,1,對,X,和,Y,的影響力。,,R,xy,-(,R,x1,),(R,y1,),表示從,X,對,Y,的總影響力中去除因素,1,所造成的影響之后的凈影響力。,R,xy·1,具有消減誤差比例的意義。,Rxy指沒有排除其他因素時,X與Y的相關(guān)性,也是X對Y的影,例:,100,戶農(nóng)村居民從事非農(nóng)產(chǎn)業(yè)的程度(,Y,),有些高,有些低,為什么?一個解釋是與人均占有土地面積(,X,)相關(guān)。樣本調(diào)查統(tǒng)計的結(jié)果表明:,R,yx,=,-,0.83,引進地理位置,即與城市的距離(因素,1,)后,分別計算兩兩相關(guān):,R,x1,= 26、0.70 R,y1,=,-,0.48,計算凈相關(guān)系數(shù):,R,xy·1,=,-,0.72,分析:與,R,yx,相比,相關(guān)性減少,但仍維持原有反比關(guān)系,說明部分是由離城遠近引起的。,,R,xy,2,=0.69 ,R,xy·1,2,=0.59,例:100戶農(nóng)村居民從事非農(nóng)產(chǎn)業(yè)的程度(Y),有些高,有些低,如控制兩個或者兩個以上的第三類變量,則:,,,,,依此類推,,Rxy,叫做零階相關(guān),,Rxy·1,叫做第一階相關(guān),,Rxy·12,為第二階相關(guān)。,如控制兩個或者兩個以上的第三類變量,則: 依此類推,Rxy,凈相關(guān)的檢驗,如果是隨機樣本,用,F,檢驗法檢驗。,凈相關(guān)的檢驗,在上例中, 27、,R,p,= R,xy·1,=,-,0.72,,,N=100 K,=,1,研究假設(shè),H1,:,R,xy·1,≠0,虛無假設(shè),H,0,:,R,xy·1,=,0,,,如果要求的顯著度是,0.01,,則否定域為,F≥6.85,,因此否定虛無假設(shè)。說明在控制了離城遠近之后,,X,與,Y,仍然有顯著的關(guān)系,其顯著度大于,0.01,,,在上例中,Rp= Rxy·1= -0.72,N=100 K,第四章 復(fù)相關(guān)系數(shù),考察多個定距自變量對一個定距因變量的相關(guān)程度。使用復(fù)相關(guān)系數(shù),R,y·12,…,來代表多個自變量(,X1,、,X2,、,X3…,)對,Y,的共同影響力。,R,y·12,…,取值在,0—1, 28、之間,,R,y·12,…,2,稱為決定系數(shù),具有消減誤差比例的意義。,1,-,R,y·12,…,2,稱為疏離系數(shù),即剩余誤差。問題:為什么,R,y·12,…,沒有正負之分?,第四章 復(fù)相關(guān)系數(shù)考察多個定距自變量對一個定距因變量的相關(guān),基本原理:考察,X,1,、,X,2,對,Y,的共同影響力,首先引進,X,1,解釋,Y,,消減的誤差比例為,R,y1,2,,,然后引進,X,2,來解釋,Y,,但是考慮到,X,2,與,Y,之間的關(guān)系可能受到,X,1,的影響(即,X,1,→X,2,→Y,),所以要控制,X,1,的影響,也就是在,X,2,對,Y,的影響中消除掉,X,1,對,X,2,的影響,所得到的就是, 29、X,2,對,Y,的消減誤差比例,R,y(2·1),,2,,。這樣,,X,1,與,X,2,對,Y,的共同影響力就是:,,R,y·12,2,=,R,y1,2,+,R,y(2·1),,2,基本原理:考察X1、X2對Y的共同影響力,首先引進X1解釋Y,,根據(jù)統(tǒng)計學(xué)家的推算,得簡化公式:,,,根據(jù)統(tǒng)計學(xué)家的推算,得簡化公式:,,按上例:從事非農(nóng)產(chǎn)業(yè)的程度(,Y,),人均占有土地面積(,X,1,),,,與城市的距離(,X,2,)。,R,y1,=,-,0.83,;,R,12,=0.70,;,R,y2,=,-,0.48,R,y·12,2,=,0.71,,表明用人均占有土地面積和與城市的距離可以消減,71,%的 30、誤差,說明共同影響力是很強的。,1,-,R,y·12,2,,=,0.29,為疏離系數(shù),表明還有,29,%的誤差需要引進其他變量來解釋。,按上例:從事非農(nóng)產(chǎn)業(yè)的程度(Y),人均占有土地面積(X1),,,復(fù)相關(guān)系數(shù)的修正:考慮到樣本越小,抽樣錯誤越大,自變量越多,衡量錯誤越大的問題,對于小樣本和多變量采用系數(shù)修正的方法,使其更為準確:,,,若以,R,2,=,0.71,,,N,=,25,,,K,=,2,進行修正,得到,R,e,2,為,0.69,。,,復(fù)相關(guān)系數(shù)的修正:考慮到樣本越小,抽樣錯誤越大,自變量越多,,,如果是隨機樣本,采用,F,檢驗:,H1,:,R≠0 H0,:,R,=,0,,,如果 31、是隨機樣本,采用F檢驗:H1:R≠0 H0:R=0,第五章 多因回歸分析,,用多個自變量來預(yù)測一個因變量的數(shù)值,一般要求各個自變量都是定距變量。在多因回歸中,各個自變量相互控制,即消除彼此的可能影響,從而可以比較出各自的相對效果,即對解釋或者預(yù)測,Y,所減少的誤差比例。,第五章 多因回歸分析 用多個自變量來預(yù)測一個因變量的數(shù)值,,多因直線回歸方程:,Y=b1X1+b2X2+b3X3+……+bkXk+a,其中,,b,為凈回歸系數(shù),代表控制其他變量后相應(yīng)的,X,對,Y,的影響力。,b1=by(1·23……k),標準化后為:,Y,/=,B1X1,/+,B2X2,/+,……,+,BkXk,/ 32、,B,為標準凈回歸系數(shù),代表,X,對,Y,的相對效果。它與復(fù)相關(guān)系數(shù)是相通的:,,R,y·123,…… k2,=,B1,(,Ry1,)+,B2,(,Ry2,)+,……,+,Bk(Ryk),其中,,B1,(,Ry1,)表示全部已解釋的方差中有多少是由,X,貢獻的,以此也被稱為決定系數(shù)。,多因直線回歸方程:Y=b1X1+b2X2+b3X3+……+b,如何計算,B,及,b,值?在只有兩個自變量的情況下:,,,,,,,如何計算B及b值?在只有兩個自變量的情況下:,,,統(tǒng)計推論:,F,檢驗,兩個問題:,1,、互動效應(yīng),2,、非直線關(guān)系,注意觀察散點圖,是否線性關(guān)系?自變量變換法,統(tǒng)計推論:F檢驗,第六章 33、 多元方差分析,,,方差分析(,Analysis of Variance, ANOVA,),是,20,世紀,20,年代由英國統(tǒng)計學(xué)家費雪(,Ronald Aylmer Fisher,)首先提出的。它是直接對多個總體的均值是否相等進行檢驗,這樣不但可以減少工作量,而且可以增加檢驗的穩(wěn)定性。,第六章 多元方差分析 方差分析(Analys,第一節(jié) 方差分析概述,一、方差分析中的常用術(shù)語,,【,例,】,某公司采用四種方式推銷其產(chǎn)品。為檢驗不同方式推銷產(chǎn)品的效果,隨機抽樣得下表:,表,,某公司產(chǎn)品銷售方式所對應(yīng)的銷售量,,第一節(jié) 方差分析概述一、方差分析中的常用術(shù)語【例】某公司采,1 34、.,因素(,Factor,),因素是指所要研究的變量,它可能對因變量產(chǎn)生影響。,單因素方差分析 多因素方差分析,2.,水平(,Level,),水平指因素的具體表現(xiàn),3.,單元(,Cell,),單元指因素水平之間的組合。,4.,元素(,Element,),元素指用于測量因變量的最小單位。,5.,均衡(,Balance,),如果一個試驗設(shè)計中任一因素各水平在所有單元格中出現(xiàn)的次數(shù)相同,且每個單元格內(nèi)的元素數(shù)相同,則稱該試驗是為均衡,否則,就被稱為不均衡。,6.,交互作用(,Interaction,),如果一個因素的效應(yīng)大小在另一個因素不同水平下明顯不同,則稱為兩因素間存在交互作用 35、。,,1. 因素(Factor),二、方差分析的基本思想,要看不同推銷方式的效果,其實就歸結(jié)為一個檢驗問題,設(shè),U,i,為第,i,種推銷方式,i,(,i=1,2,3,4,)的平均銷售量,即檢驗原假設(shè),H,0,:U,1,=U,2,=U,3,=U,4,是否為真。從數(shù)值上觀察,四個均值都不相等,方式二的銷售量明顯較大。然而,我們并不能簡單地根據(jù)這種第一印象來否定原假設(shè),而應(yīng)該分析,U,1,、,U,2,、,U,3,、,U,4,之間差異的原因。,系統(tǒng)性差異,:,由不同水平造成的差異,隨機性差異 :隨機因素造成的差異,總體差異,即水平之間的方差 ,包括系統(tǒng)性差異和隨機性差異,水平內(nèi)部的方差 :隨機性差異, 36、目的是比較水平之間的方差與水平內(nèi)部的方差??床町愂欠褡銐虼?,從而確定水平之間是否存在顯著性差異。,二、方差分析的基本思想 要看不同推銷方式的效果,其實就歸結(jié),三、方差分析的基本假定,首先是各樣本的獨立性,即各組觀察數(shù)據(jù),是從相互獨立的總體中抽取的,只有是獨立的隨機樣本,才能保證變異的可加性;其次要求所有觀察值都是從正態(tài)總體中抽取,且方差相等。在實際應(yīng)用中能夠嚴格滿足這些假定條件的客觀現(xiàn)象是很少的,在社會經(jīng)濟現(xiàn)象中更是如此。但一般應(yīng)近似地符合上述要求。,三、方差分析的基本假定 首先是各樣本的獨立性,即各組,在上述假設(shè)條件成立的情況下,數(shù)理統(tǒng)計證明,水平之間的方差(也稱為組間方差)與水平 37、內(nèi)部的方差(也稱組內(nèi)方差)之間的比值是一個服從,F,分布的統(tǒng)計量,我們可以通過對這個統(tǒng)計量的檢驗做出拒絕或不能拒絕原假設(shè)的決策。,F =,水平間方差,/,水平內(nèi)方差,=,組間方差,/,組內(nèi)方差,在上述假設(shè)條件成立的情況下,數(shù)理統(tǒng)計證明,水平之間的方差(也,第二節(jié) 單因素方差分析,一、單因素方差分析的數(shù)據(jù)結(jié)構(gòu),在單因素方差分析中,若因素,A,共有,r,個水平,對均衡試驗而言,每個水平的樣本容量為,k,,則共有,k,r,個觀察值,對不均衡試驗,各水平中的樣本容量可以是不同的,設(shè)第,i,個樣本的容量是,n,i,,則觀測值的總個數(shù)為。,,第二節(jié) 單因素方差分析一、單因素方差分析的數(shù)據(jù)結(jié)構(gòu),單因素方差 38、分析的數(shù)據(jù)結(jié)構(gòu),,,,,,,,,,,,,,,,單因素方差分析的數(shù)據(jù)結(jié)構(gòu),二、單因素方差分析的步驟,(一)建立假設(shè),,要比較四種推銷方式對應(yīng)的銷售量是否存在差異,那么第一種推銷方式中的某個觀察值就等于該種方式的平均水平再加上一個隨機誤差。如果四種方式均值都相同,則它就等于總體均值再加上一個隨機誤差,實際上就變成了同一個變量分布中的某一點。所以虛無假設(shè)和研究假設(shè)是:,,,即推銷方式對銷售量影響不顯著,,不全等,即推銷方式對銷售量有顯著影響,二、單因素方差分析的步驟(一)建立假設(shè) 要比較四種推銷,(二)構(gòu)造檢驗,F,統(tǒng)計量,1.,水平的均值,我們令,X‘,i,為第,i,(或 )水平的樣本均 39、值,則,,,當各水平的的觀察值個數(shù)均相等的時候,公式變?yōu)椋?,(二)構(gòu)造檢驗F統(tǒng)計量1. 水平的均值當各水平的的觀察值個數(shù),2.,全部觀察值的總均值,我們令 為全部觀察值的總均值,則,,,當各水平的的觀察值個數(shù)均相等的時候,公式變?yōu)椋?,,對上例而言,各水平的的觀察值個數(shù)都相等,即,k=5,。,,,,2. 全部觀察值的總均值,3.,離差平方和,在單因素方差分析中,離差平方和有三個:,(,1,)總離差平方和(,Sum of Squares for Total,,簡稱,SST,),就是全部方差,,計算公式為:,,,總離差平方和反映全部觀察值的離散狀況,是全部觀察值與總平均值的離差平方和。,,( 40、,2,)誤差項離差平方和(,Sum of Squares for Error,,簡稱,SSE,),計算公式為:,,,誤差項離差平方和又稱為組內(nèi)離差平方和,它反映了水平內(nèi)部觀察值的離散情況,即隨機因素產(chǎn)生的影響。,3. 離差平方和,(,3,)水平項離差平方和(,Sum of Squares for Factor A,,簡稱,SSA,)。計算公式為:,,水平項離差平方和又稱組間離差平方和,是各組平均值與總平均值的離差平方和。它既包括隨機誤差,也包括系統(tǒng)誤差。,,由于各樣本的獨立性,使得變差具有可分解性,即總離差平方和等于誤差項離差平方和加上水平項離差平方和,用公式表達為,SST = SSE + S 41、SA,(3)水平項離差平方和(Sum of Squares for,對例子而言,計算結(jié)果見表,單因素方差分析計算表,,,對例子而言,計算結(jié)果見表,4.,均方和(,Mean Square,),各離差平方和的大小與觀察值的多少有關(guān),為了消除觀察值多少對離差平方和大小的影響,需要將其平均,這就是均方和。計算方法是用離差平方和除以相應(yīng)的自由度,df,,見表所示,表中,,4. 均方和(Mean Square),5.,構(gòu)造檢驗統(tǒng)計量,F,F=,組間方差,/,組內(nèi)方差,= MSA / MSE,計算結(jié)果見表,單因素方差分析計算表,,5. 構(gòu)造檢驗統(tǒng)計量F,(三)判斷與結(jié)論,在假設(shè)條件成立時,,F,統(tǒng)計量服從第 42、一自由度,df,1,為,r-1,、第二自由度,df,2,為,n-r,,的,F,分布。將統(tǒng)計量,F,與給定的顯著性水平,α,的臨界值,比較,可以作出拒絕或不能拒絕原假設(shè),的判斷,見圖,,(三)判斷與結(jié)論比較,可以作出拒絕或不能拒絕原假設(shè)的判斷,見,,若,F≥Fa,,則拒絕原假設(shè),H,0,,表明均值之間的差異顯著,因素,A,對觀察值有顯著影響;,,若,F 43、式對銷售量有影響。,若F≥Fa,則拒絕原假設(shè)H0,表明均值之間的,二、方差分析中的多重比較,方差分析可以對多個均值是否相等進行檢驗,這是其長處。當拒絕,H,0,時,表示各均值不全等,但具體哪一個或哪幾個均值與其他均值顯著不同,或者哪幾個均值仍然可能認為是相等的,方差分析就不能給我們答案了,如果要進一步分析,可以采用多重比較的方法。,多重比較是通過對總體均值之間的兩兩比較來進一步檢驗到底哪些均值之間存在差異,二、方差分析中的多重比較,第三節(jié) 雙因素方差分析,,一、雙因素方差分析的種類,在現(xiàn)實中,常常會遇到兩個因素同時影響結(jié)果的情況。這就需要檢驗究竟一個因素起作用,還是兩個因素都起作用,或者兩個因 44、素的影響都不顯著。,雙因素方差分析有兩種類型:一種是無交互作用的雙因素方差分析,它假定因素,A,和因素,B,的效應(yīng)之間是相互獨立的,不存在相互關(guān)系;,另一種是有交互作用的方差分析,它假定,A,、,B,兩個因素不是獨立的,而是相互起作用的,兩個因素同時起作用的結(jié)果不是兩個因素分別作用的簡單相加,兩者的結(jié)合會產(chǎn)生一個新的效應(yīng)。這種效應(yīng)的最典型的例子是,耕地深度和施肥量都會影響產(chǎn)量,但同時深耕和適當?shù)氖┓士赡苁巩a(chǎn)量成倍增加,這時,耕地深度和施肥量就存在交互作用。兩個因素結(jié)合后就會產(chǎn)生出一個新的效應(yīng),屬于有交互作用的方差分析問題。,,第三節(jié) 雙因素方差分析 一、雙因素方差分析的種類,二、無交互作用的雙 45、因素方差分析,(一)數(shù)據(jù)結(jié)構(gòu),設(shè)兩個因素分別是,A,和,B,。因素,A,共有,r,個水平,因素,B,共有,s,個水平,無交互作用的雙因素方差分析的數(shù)據(jù)結(jié)構(gòu)如表,無交互作用雙因素方差分析的數(shù)據(jù)結(jié)構(gòu),,,,,,,,二、無交互作用的雙因素方差分析無交互作用雙因素方差分析的數(shù)據(jù),(二)分析步驟,1.,假設(shè),對因素,A,:,;,對因素,B,:,不全相等,不全相等。,(二)分析步驟1.假設(shè)對因素A:;對因素B:不全相等不全相等,2.,構(gòu)造檢驗統(tǒng)計量,(,1,)水平的均值,,,(,2,)總均值,,2. 構(gòu)造檢驗統(tǒng)計量,(,3,)離差平方和的分解,雙因素方差分析同樣要對總離差平方和,SST,進行分解,,SST 46、,分解為三部分:,SSA,、,SSB,和,SSE,,以分別反映因素,A,的組間差異、因素,B,的組間差異和隨機誤差(即組內(nèi)差異)的離散狀況。,它們的計算公式分別為,,,,,(3)離差平方和的分解,(,4,)構(gòu)造檢驗統(tǒng)計量,由離差平方和與自由度可以計算出均方和,從而計算出,F,檢驗值,如表,無交互作用的雙方差分析表,(4)構(gòu)造檢驗統(tǒng)計量無交互作用的雙方差分析表,檢驗因素,A,的影響是否顯著,采用下面的統(tǒng)計量:,,為檢驗因素,B,的影響是否顯著,采用下面的統(tǒng)計量,,檢驗因素A的影響是否顯著,采用下面的統(tǒng)計量: 為檢驗因素B的,3.,判斷與結(jié)論,,根據(jù)給定的顯著性水平,α,在,F,分布表中查找相應(yīng)的 47、臨界值,Fa,,將統(tǒng)計量,F,與,Fa,進行比較,作出拒絕或不能拒絕原假設(shè),H0,的決策。,若,F,A,≥Fa,,則拒絕原假設(shè),H,01,,表明均值之間有顯著差異,即因素,A,對觀察值有顯著影響;,若,F,A, 48、統(tǒng)計量,(,1,)水平的均值,,,,(,2,)總均值,,三、有交互作用的雙因素方差分析構(gòu)造檢驗統(tǒng)計量(2)總均值,(,3,)離差平方和的分解,與無交互作用的雙因素方差分析不同,總離差平方和,SST,將被分解為四個部分:,SSA,、,SSB,、,SSAB,和,SSE,,以分別反映因素,A,的組間差異、因素,B,的組間差異、因素,AB,的交互效應(yīng)和隨機誤差的離散狀況。,它們的計算公式分別為:,,,,(3)離差平方和的分解,為檢驗因素,A,的影響是否顯著,采用下面的統(tǒng)計量:,,,為檢驗因素,B,的影響是否顯著,采用下面的統(tǒng)計量:,,為檢驗因素,A,、,B,交互效應(yīng)的影響是否顯著,采用下面的統(tǒng)計量,: 49、,為檢驗因素A的影響是否顯著,采用下面的統(tǒng)計量: 為檢驗因素B,第七章 判別分析,,在科學(xué)研究中,我們往往需要根據(jù)一些指標對某一研究對象的歸屬作出判斷,如根據(jù)國民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費水平等多個指標來判斷一個國家的經(jīng)濟發(fā)展程度所屬的類型;根據(jù)勞動生產(chǎn)率、利潤總額等指標來判斷一個企業(yè)屬于哪一級別,等等。這些問題可通過判別分析來解決。,第七章 判別分析 在科學(xué)研究中,我們往往需要根據(jù),一、基本思想,,判別分析是在已知研究對象用某種方法已分成若干類的情況下,確定新的觀察數(shù)據(jù)屬于已知類別中的哪一類的分析方法。,判別分析方法在處理問題時,通常要給出一個衡量新樣本與已知組別接近程度的描 50、述指標,即判別函數(shù),同時也指定一種判別規(guī)則,用以判定新樣本的歸屬,判別規(guī)則可以是統(tǒng)計性的,決定新樣本所屬類別時用到數(shù)理統(tǒng)計的顯著檢驗,也可用確定性的,決定樣本歸屬時,只考慮判別函數(shù)值的大小。,一、基本思想 判別分析是在已知研究對象用某種方法已,二、基本方法,,判別分析用統(tǒng)計模型的語言來描述就是,設(shè)有,2,個類,G,1,、,G,2,,希望建立一個準則,對給定的任意一個樣本,x,,依據(jù)這個準則就能判別它是來自哪一類別,而且要求其錯判率最小。常見的判別分析方法有距離判別、費雪判別及貝葉斯判別。,二、基本方法 判別分析用統(tǒng)計模型的語言來描述就是,,(一)距離判別,,,距離判別法的基 51、本思想是,先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,然后計算待判樣本與各類的距離,與哪一類距離最近,就判待判樣本,x,屬于哪一類。,,,(一)距離判別 距離判別法的基本思想是,先根據(jù)已知分,計算距離時常用的是馬氏距離,D(x,G,1,),、,D(x,G,2,),,根據(jù)基本思想,可得距離判別法的判別函數(shù)為:,W,(x),=D(x,G,2,)-D(x,G,1,),判別準則為:,,,,計算距離時常用的是馬氏距離D(x,G1)、D(x,G2),根,(二)費雪,(Fisher),判別,,費雪判別法的基本思想是通過將多維數(shù)據(jù)投影至某個方向上,投影的原則是將總體與總體之間盡可能分開,然后再選擇合適的 52、判別規(guī)則,將待判的樣本進行分類判別。,所謂的投影實際上是利用方差分析的思想構(gòu)造出一個或幾個超平面,使得兩組間的差別最大,每組內(nèi)的差別最小。,(二)費雪(Fisher)判別 費雪判別法的基本思想,,設(shè)有兩個總體,G,1,和,G,2,,從第一個總體中抽取,n,1,個樣本,從第二個總體中抽取,n,2,個樣本,每個樣本有,p,個指標,,G,1,的均值 ,,G,2,的均值為 ,兩個總體的協(xié)方差矩陣都等于 ,其估計值為 ,可以證明費雪判別函數(shù)為:,,,(,證明略,),,將兩類均值及待判樣本,x,的各項指標代入判別函數(shù)可求得三個函數(shù)值,y,1,,,y,2,,,y,,一般將, 53、y,1,,,y,2,的加權(quán)平均值,,y,0,=,作為判別臨界值,其判別準則是,:,,,,,,,,,,設(shè)有兩個總體G1和G2,從第一個總體中抽取n1個,三、判別效果的評價,,進行判別分析時,總體之間的差異必須顯著,如總體之間的差異很小,用判別分析進行判別意義不大,所以在進行判別分析之前,往往需要用方差分析法來檢驗各總體差異的顯著性。然而,即使總體之間的差異是顯著的,用我們所介紹的方法進行判別,仍有可能會錯判,所以在得到判別函數(shù)后,應(yīng)該先對判別效果進行檢驗。,,進行判別效果檢驗比較好的方法是,每次從已知類別的樣本中剔除一個樣本點,用剩余的樣本建立判別函數(shù),然后用這一判別函數(shù)去判別被剔除的樣本;依此 54、類推,直到所有已知類別的樣本都被判別過。記下所有被錯判的樣本,計算出每個總體中的錯判率和總的錯判率,根據(jù)錯判率的大小來衡量判別效果。,三、判別效果的評價 進行判別分析時,總體之間的差異,四、基本步驟與應(yīng)用實例,(一)基本步驟,1.,計算判別函數(shù);,2.,檢驗判別效果;,3.,根據(jù)判別函數(shù)對待判樣本進行判別所屬類別;,四、基本步驟與應(yīng)用實例(一)基本步驟,(,二,),應(yīng)用實例,13,個地區(qū)按經(jīng)濟效益已分為兩大類,若又取得三個地區(qū)的資料,試對其進行判別分析。,,(二)應(yīng)用實例,本例采用,距離判別法,,第一組樣本單位數(shù)為,2,,第二組樣本單位數(shù)為,11,。,馬氏距離的計算公式為:,,1., 55、計算各組樣本均值,,,,計算結(jié)果整理為:,,,,,,,本例采用距離判別法,第一組樣本單位數(shù)為2,第二組樣本單位數(shù)為,2.,計算樣本總協(xié)方差矩陣及其逆矩陣:,樣本總協(xié)方差矩陣為:,,,逆矩陣為:,,2. 計算樣本總協(xié)方差矩陣及其逆矩陣:逆矩陣為:,3.,計算待判樣本在兩個組的馬氏距離,(,判別函數(shù),),并按判別準則給予判別。,,結(jié)論:三個待判樣本點的工業(yè)經(jīng)濟效益全部被判斷歸屬于第二組。,3.計算待判樣本在兩個組的馬氏距離(判別函數(shù))并按判別準則給,,第八章 主成分分析,,,在許多實際問題中,我們經(jīng)常用多個變量來刻畫某一事物,但由于這些變量之間往往具有相關(guān)性,很多變量帶有重復(fù)信息,這樣就給分析問題 56、帶來了很多不便,同時也使分析結(jié)論不具有真實性和可靠性,因此,人們希望尋找到少量幾個綜合變量來代替原來較多的變量,使這幾個綜合變量能較全面地反映原來多項變量的信息,同時相互之間不相關(guān)。主成分分析正是滿足上述要求的一種處理多變量問題的方法。,,第八章 主成分分析 在許多實際問題中,我們經(jīng),一、基本思想,,主成分分析就是設(shè)法將原來的,p,個指標重新組合成一組相互無關(guān)的新指標的過程。通常數(shù)學(xué)上的處理就是將原來的,p,個指標做線性組合。,,為了能更清晰的解釋主成分的基本思想,我們從用兩個指標來衡量,n,個樣本點的二維空間入手。,,一、基本思想 主成分分析就是設(shè)法將原來的p個指標重新組 57、,,在二維空間,,n,個樣本點的變量信息若用離差平方和來表示,則變量的信息總量為總方差,,,對于每個變量的離差平方和,它們的取值可能出現(xiàn)各種情況:,(1),如果離差平方和 和 之間相差懸殊,如取值之比為,10,:,1,,說明變量,x,1,在方差總信息量中占較重要的地位,可剔除變量,x,2,達到降維的目的。,,,,,,,,,在二維空間,n個樣本點的變量信息若用離差平方和來表示,(2),如果 和 數(shù)值相差不大,說明兩個指標在方差總信息量中的比重相當,統(tǒng)計分析時,兩個指標都不可放棄,此時可對,x,1 58、,,、,x,2,作適當?shù)淖兞刻鎿Q,通過某方法尋找到兩個新的變量,y,1,、,y,2,(,必須是原變量,x,1,、,x,2,的線性組合,),,使新變量滿足:,,,,上式說明新變量,y,繼承了原變量,x,的全部信息,并且要求,和,數(shù)值比例相差較大,這時僅用,y,1,來分析原問題就可以了,變量的個數(shù)從,2,變?yōu)榱?1,。此時的,y,1,方差最大,包含的信息最多。,y,1,稱之為第一主成分,,y,2,稱為第二主成分。,,,,,(2)如果 和,,推而廣之,第一主成分,y,1,的方差達到最大,其方差越大,表示其所包含的信息越多。如果第一主成分還不能反映原指標的全部信息,再考慮選取第 59、二主成分,y,2,,,y,2,在剩余的線性組合中方差最大,并且與,y,1,不相關(guān),如若第一、第二主成分仍然不能反映原變量的全部信息,再考慮選取第三主成分,y,3,,,y,3,在剩余的線性組合中方差最大,并且與,y,1,,、,y,2,不相關(guān),依此可求出全部,p,個主成分,它們的方差是依次遞減的。在實際工作中,在不損失較多信息的情況下,通常選取前幾個主成分來進行分析,達到簡化數(shù)據(jù)結(jié)構(gòu)的目的。,推而廣之,第一主成分y1的方差達到最大,其方差,二、基本步驟與應(yīng)用實例,,(一)基本步驟,(,1,)對原變量的樣本數(shù)據(jù)矩陣進行標準化變換,(,2,)求標準化數(shù)據(jù)矩陣的相關(guān)系數(shù)矩陣,R,(,3,)求,R,的特征 60、根及相應(yīng)的特征向量和貢獻率等,(,4,)確定主成分的個數(shù),(,5,)解釋主成分的實際意義和作用,二、基本步驟與應(yīng)用實例,(二)應(yīng)用實例,,我國,2006,年各地區(qū)全部國有及規(guī)模以上非國有工業(yè)企業(yè)主要經(jīng)濟效益指標見表,對各地區(qū)經(jīng)濟效益作出分析。,,(二)應(yīng)用實例,【,解,】,計算過程如下:,1.,將數(shù)據(jù)標準化,并求相關(guān)矩陣,R,【解】計算過程如下:,得相關(guān)系數(shù)矩陣為:,,2.,求,R,的特征根及相應(yīng)的單位正交特征向量和貢獻率,由,R,的特征方程 求得,R,的單位特征根,λ,為:,,,,再由齊次線性方程組,求得特征向量,U,,將具體結(jié)果整理為下表:,,得相關(guān)系數(shù)矩陣 61、為:2. 求R的特征根及相應(yīng)的單位正交特征向量,貢獻率,3.,確定主成分的個數(shù),q,,按 的原則,取三個主成分就能夠?qū)I(yè)企業(yè)經(jīng)濟效益進行分析,且這三個主成分的累計方差貢獻率達到,89%,主成分的表達式為:,,貢獻率3. 確定主成分的個數(shù)q按,4.,主成分的經(jīng)濟意義,,第一主成分,y,1,中,,zx,1,(工業(yè)增加值率)、,zx,5,(工業(yè)成本費用利潤率)系數(shù)較大,,y,1,的含義是在綜合其它變量所反映信息的基礎(chǔ)上,突出地反映了企業(yè)產(chǎn)出的情況。,,第二主成分,y,2,中,,zx,2,(總資產(chǎn)貢獻率)、,zx,4,(,流動資產(chǎn)周轉(zhuǎn)次數(shù),),的系數(shù)最大 62、,在,0.5,以上,說明,y,2,在綜合其它變量信息的基礎(chǔ)上,突出地反映了企業(yè)投入資產(chǎn)情況。,,第三主成分,y,3,中,,zx,3,(,資產(chǎn)負債率,),的系數(shù)最大,為,0.965,,說明,y,3,在綜合其它變量信息的基礎(chǔ)上,突出地反映了工業(yè)企業(yè)經(jīng)營風險的大小。,4. 主成分的經(jīng)濟意義,第九章 因子分析,研究從變量群中提取共性因子的統(tǒng)計技術(shù)。,最早由英國心理學(xué)家,C.E.,斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績之間存在著一定的相關(guān)性,一科成績好的學(xué)生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績。,因子分析,(Factor Analysi 63、s),可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子,可減少變量的數(shù)目,還可檢驗變量間關(guān)系的假設(shè)。近年來,因子分析的理論方法廣泛地應(yīng)用于心理學(xué)、醫(yī)學(xué)、經(jīng)濟學(xué)等領(lǐng)域。,第九章 因子分析 研究從變量群中提取共性,一、基本思想,,因子分析的主要目的是用來描述隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量 。,,因子分析的基本思想是通過對變量相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能夠控制所有變量的少數(shù)幾個潛在隨機變量去描述多個顯在隨機變量之間的相關(guān)關(guān)系,.,換句話說,因子分析是把每個可觀測的原始變量分解為兩部分因素,一部分是由所有變量共同具有少 64、數(shù)幾個公共因子構(gòu)成的,另一部分是每個原始變量獨自具有的,即特殊因子部分,對于所研究的問題就可試圖用最少個數(shù)的不可觀測的公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一變量。,一、基本思想 因子分析的主要目的是用來描述隱藏在一,例,1,:為了解學(xué)生的學(xué)習(xí)能力,觀測了,n,個學(xué)生,p,個科目的成績用,X,1,,X,2,,…,X,p,表示科目(例如代數(shù)、幾何、語文、英語,,……,)可以認為各科目有兩部分組成:,X,i,=a,i,F +ε,i,i = 1,......, p,其,F,是對所有的,X,i,都起作用的公共因子,它表示智能高低的因子;系數(shù),a,i,稱為因子載荷,表示第,i,各科 65、目在智能高低上的體現(xiàn);,ε,i,是科目變量特有的特殊因子,描述原始變量。這就是一個最簡單的因子模型。,例1:為了解學(xué)生的學(xué)習(xí)能力,觀測了n個學(xué)生p個科目的成績用X,例,2,:調(diào)查青年對婚姻家庭的態(tài)度,抽取,n,個青年回答了,p=50,個問題的答卷,這些問題可歸納為如下的幾個方面:如對相貌的重視,對孩子的觀點、對老人的態(tài)度等(公共因子)。,,例,3,:考察人體的五項生理指標:收縮壓(,X,1,),、舒張壓(,X,2,),、心跳間隔(,X,3,),、呼吸間隔(,X,4,),和舌下溫度(,X,5,),。從生理學(xué)知識,這五項指標是受植物神經(jīng)支配的,植物神經(jīng)又分為交感神經(jīng)和副交感神經(jīng),因此這五項指標也可 66、以用因子分析模型去處理。,,例2:調(diào)查青年對婚姻家庭的態(tài)度,抽取n個青年回答了p=50個,例,4,:在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有,24,個指標構(gòu)成的評價體系,評價百貨商場的,24,個方面的優(yōu)劣。但消費者主要關(guān)心的是三個方面,即商店的環(huán)境、商店的服務(wù)和商品的價格。,,因子分析方法可以通過,24,個變量,找出反映商店環(huán)境、商店服務(wù)水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:,X,i,=α,i1,F,1,+α,i2,F,2,+α,i3,F,3,+ε,i,i,,=1, ……,24,,稱,F,1,,、,F,2,、,F,3,是不可觀測的潛在因子。,24,個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,ε,i,,稱為特殊因子。,,例4:在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24,二、數(shù)學(xué)模型,(一)符號與假定,設(shè)有,n,個樣本,每個樣本觀測,p,個變量,記:,,原始變量矩陣為,X,: ,公共因子變量矩陣為,,,F,: ,特殊因子矩陣為,E,:,,,,二、數(shù)學(xué)模型(一
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 踏春尋趣 樂享時光——春季旅游踏春出游活動
- 清明假期至安全不缺席風起正清明安全需守護
- 全國黨員教育培訓(xùn)工作規(guī)劃
- XX中小學(xué)公共衛(wèi)生培訓(xùn)樹立文明衛(wèi)生意識養(yǎng)成良好衛(wèi)生習(xí)慣
- 小學(xué)生常見傳染病預(yù)防知識培訓(xùn)傳染病的預(yù)防措施
- 3月18日全國愛肝日中西醫(yī)結(jié)合逆轉(zhuǎn)肝硬化
- 肝病健康宣教守護您的肝臟健康如何預(yù)防肝炎
- 垃圾分類小課堂教育綠色小衛(wèi)士分類大行動
- 中小學(xué)班主任經(jīng)驗交流從勝任到優(yōu)秀身為世范為人師表 立責于心履責于行
- 教師數(shù)字化轉(zhuǎn)型理解與感悟教師數(shù)字化轉(zhuǎn)型的策略與建議
- 團建小游戲團建破冰小游戲團隊協(xié)作破冰游戲多人互動
- 教師使用deepseek使用攻略讓備課效能提升
- 辦公室會議紀要培訓(xùn)會議內(nèi)容會議整理公文攥寫
- 黨員要注重培塑忠誠奮斗奉獻的人格力量
- 橙色卡通風兒童春季趣味運動會