社會(huì)科學(xué)研究方法(全套課件)
社會(huì)科學(xué)研究方法(全套課件),社會(huì)科學(xué),研究,鉆研,方法,法子,全套,課件
回歸分析,,一、什么是計(jì)量經(jīng)濟(jì)學(xué),計(jì)量經(jīng)濟(jì)學(xué)是以經(jīng)濟(jì)理論和經(jīng)濟(jì)數(shù)據(jù)的事實(shí)為依據(jù),運(yùn)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法,通過(guò)建立數(shù)學(xué)模型來(lái)研究經(jīng)濟(jì)數(shù)量關(guān)系和規(guī)律的一門(mén)經(jīng)濟(jì)學(xué)科。,理論:經(jīng)濟(jì)理論,即所研究對(duì)象的經(jīng)濟(jì)行為理論 ——計(jì)量經(jīng)濟(jì)研究的基礎(chǔ) 數(shù)據(jù):對(duì)所研究對(duì)象及相關(guān)現(xiàn)象觀測(cè)得到的信息 ——計(jì)量經(jīng)濟(jì)研究的原料或依據(jù) 方法:模型方法與計(jì)算方法 ——計(jì)量經(jīng)濟(jì)研究的工具與手段,三個(gè)要素,變量間的關(guān)系,①不線性相關(guān)并不意味著不相關(guān); ②有相關(guān)關(guān)系并不意味著一定有因果關(guān)系; ③回歸分析/相關(guān)分析研究一個(gè)變量對(duì)另一個(gè)(些)變量的統(tǒng)計(jì)依賴(lài)關(guān)系,但它們并不意味著一定有因果關(guān)系。 ④相關(guān)分析對(duì)稱(chēng)地對(duì)待任何(兩個(gè))變量,兩個(gè)變量都被看作是隨機(jī)的。回歸分析對(duì)變量的處理方法存在不對(duì)稱(chēng)性,即區(qū)分應(yīng)變量(被解釋變量)和自變量(解釋變量):前者是隨機(jī)變量,后者不是。,回歸分析(regression analysis)是研究一個(gè)變量關(guān)于另一個(gè)(些)變量的具體依賴(lài)關(guān)系的計(jì)算方法和理論。 其用意:在于通過(guò)后者的已知或設(shè)定值,去估計(jì)和(或)預(yù)測(cè)前者的(總體)均值。 這里:前一個(gè)變量被稱(chēng)為被解釋變量(Explained Variable)或應(yīng)變量(Dependent Variable),后一個(gè)(些)變量被稱(chēng)為解釋變量(Explanatory Variable)或自變量(Independent Variable)。,二、回歸分析,回歸分析構(gòu)成計(jì)量經(jīng)濟(jì)學(xué)的方法論基礎(chǔ),其主要內(nèi)容包括: (1)根據(jù)樣本觀察值對(duì)經(jīng)濟(jì)計(jì)量模型參數(shù)進(jìn)行估計(jì),求得回歸方程; (2)對(duì)回歸方程、參數(shù)估計(jì)值進(jìn)行顯著性檢驗(yàn); (3)利用回歸方程進(jìn)行分析、評(píng)價(jià)及預(yù)測(cè)。,由于變量間關(guān)系的隨機(jī)性,回歸分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當(dāng)解釋變量取某個(gè)確定值時(shí),與之統(tǒng)計(jì)相關(guān)的被解釋變量所有可能出現(xiàn)的對(duì)應(yīng)值的平均值。,例1:一個(gè)假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費(fèi)支出Y與每月家庭可支配收入X的關(guān)系。 即如果知道了家庭的月收入,能否預(yù)測(cè)該社區(qū)家庭的平均月消費(fèi)支出水平。,1、總體回歸函數(shù),為達(dá)到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費(fèi)支出。,(1)由于不確定因素的影響,對(duì)同一收入水平X,不同家庭的消費(fèi)支出不完全相同;,(2)但由于調(diào)查的完備性,給定收入水平X的消費(fèi)支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布(Conditional distribution)是已知的,如: P(Y=561|X=800)=1/4。,因此,給定收入X的值Xi,可得消費(fèi)支出Y的條件均值(conditional mean)或條件期望(conditional expectation): E(Y|X=Xi) 該例中:E(Y | X=800)=605,描出散點(diǎn)圖發(fā)現(xiàn):隨著收入的增加,消費(fèi)“平均地說(shuō)”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱(chēng)為總體回歸線。,,回歸函數(shù)(PRF)說(shuō)明被解釋變量Y的平均狀態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。,總體回歸函數(shù)(population regression function, PRF),2、隨機(jī)擾動(dòng)項(xiàng),總體回歸函數(shù)說(shuō)明在給定的收入水平Xi下,該社區(qū)家庭平均的消費(fèi)支出水平。 但對(duì)某一個(gè)別的家庭,其消費(fèi)支出可能與該平均水平有偏差。,稱(chēng)?i為觀察值Yi圍繞它的期望值E(Y|Xi)的離差(deviation),是一個(gè)不可觀測(cè)的隨機(jī)變量,又稱(chēng)為隨機(jī)干擾項(xiàng)(stochastic disturbance)或隨機(jī)誤差項(xiàng)(stochastic error)。,記,,個(gè)別家庭的消費(fèi)支出為:,(1)該收入水平下所有家庭的平均消費(fèi)支出E(Y|Xi),稱(chēng)為系統(tǒng)性(systematic)或確定性(deterministic)部分。 (2)其他隨機(jī)或非確定性(nonsystematic)部分?i。,(*),隨機(jī)誤差項(xiàng)主要包括下列因素的影響,1)在解釋變量中被忽略的因素的影響; 2)變量觀測(cè)值的觀測(cè)誤差的影響; 3)模型關(guān)系的設(shè)定誤差的影響; 4)其它隨機(jī)因素的影響。,3、樣本回歸函數(shù)(SRF),問(wèn)題:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?,問(wèn):能否從該樣本估計(jì)總體回歸函數(shù)PRF?,在例1的總體中有如下一個(gè)樣本,,總體的信息往往無(wú)法掌握,現(xiàn)實(shí)的情況只能是在一次觀測(cè)中得到總體的一個(gè)樣本。,樣本的散點(diǎn)圖(scatter diagram):,樣本散點(diǎn)圖近似于一條直線,畫(huà)一條直線以盡好地?cái)M合該散點(diǎn)圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱(chēng)為樣本回歸線(sample regression lines)。,,記樣本回歸線的函數(shù)形式為:,稱(chēng)為樣本回歸函數(shù)(sample regression function,SRF)。,這里將樣本回歸線看成總體回歸線的近似替代,則,注意:,三、回歸估計(jì),,Y為被解釋變量,X為解釋變量,?0與?1為待估參數(shù), ?為隨機(jī)干擾項(xiàng),i=1,2,…,n,一元線性回歸模型:只有一個(gè)解釋變量,1、線性回歸模型的基本假設(shè),假設(shè)1、解釋變量X是確定性變量,不是隨機(jī)變量; 假設(shè)2、隨機(jī)誤差項(xiàng)?具有零均值、同方差和不序列相關(guān)性: E(?i)=0 i=1,2, …,n Var (?i)=??2 i=1,2, …,n Cov(?i, ?j)=0 i≠j i,j= 1,2, …,n 假設(shè)3、隨機(jī)誤差項(xiàng)?與解釋變量X之間不相關(guān): Cov(Xi, ?i)=0 i=1,2, …,n 假設(shè)4、?服從零均值、同方差、零協(xié)方差的正態(tài)分布 ?i~N(0, ??2 ) i=1,2, …,n,經(jīng)典假設(shè)或高斯(Gauss)假設(shè),2、估計(jì)參數(shù)的最小二乘法,1. 最小二乘法——使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來(lái)求得 a和b的方法,即:,,,,,,,,殘差(Residual):e,,a 和 b 的計(jì)算公式,根據(jù)最小平方法的原則,利用微分求解極值(最優(yōu)值)的原理,可得求解 a 和 b 的標(biāo)準(zhǔn)方程組如下:,例子,四、回歸估計(jì)的檢驗(yàn),可決系數(shù)的檢驗(yàn) 回歸系數(shù)的T檢驗(yàn) F檢驗(yàn) 計(jì)量經(jīng)濟(jì)學(xué)其他檢驗(yàn):異方差、多重共線性等,1、判定系數(shù),對(duì)一個(gè)具體的觀測(cè)值來(lái)說(shuō),變差的大小可以通過(guò)該實(shí)際觀測(cè)值與其均值之差來(lái)表示。,變差來(lái)源于兩個(gè)方面: 1、由于自變量 x 的取值不用造成的; 2、除 x 以外的其他因素(包括 x 對(duì) y 的非線性影響、測(cè)量誤差等)的影響。,(一)變差或離差,離差的分解圖,a + b x,2) 兩端平方后求和有:,1)從圖上看有:總變差=回歸變差+剩余變差,記為: SST = SSR + SSE 或 Lyy =U+Q,(SST-Sum of squares of total ) 反映因變量的 n 個(gè)觀察值與其均值的總離差,總離差平方和SST,(SSR-Sum of squares of regression ) 反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說(shuō),是由于x與y之間的線性關(guān)系引起的y的取值變化。,回歸平方和SSR,(SSE- Sum of squares of errors ) 反映除 x 以外的其他因素對(duì) y 取值的影響。,殘差平方和SSE,(二)判定系數(shù)(決定系數(shù)r 2 ),判定系數(shù)=回歸平方和占總離差平方和的比例,對(duì)于一元回歸,判定系數(shù)=相關(guān)系數(shù)的平方,即r2=(r)2 反映回歸直線的擬合程度,衡量變量之間的相關(guān)程度。 取值范圍在 [ 0 , 1 ] 之間。 r2 ?1,說(shuō)明回歸方程擬合效果越好; r2?0,說(shuō)明回歸方程擬合得越差。,調(diào)整的可決系數(shù)(adjusted coefficient of determination),在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,所以調(diào)整的思路是:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個(gè)數(shù)對(duì)擬合優(yōu)度的影響:,其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。,,,,,,當(dāng) SSR = SST 時(shí),為完全的擬合,殘差平方和為 0 ,判定系數(shù)為 1 。,,,,,當(dāng) SSE= SST 時(shí),為最差的擬合,殘差平方和最大 ,判定系數(shù)為 0 。,2、變量的顯著性檢驗(yàn),回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個(gè)顯著性的影響因素。 在一元線性模型中,就是要判斷X是否對(duì)Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。,變量的顯著性檢驗(yàn)所應(yīng)用的方法是數(shù)理統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)。 計(jì)量經(jīng)計(jì)學(xué)中,主要是針對(duì)變量的參數(shù)真值是否為零來(lái)進(jìn)行顯著性檢驗(yàn)的。,檢驗(yàn)步驟:,(1)對(duì)總體參數(shù)提出假設(shè) H0: ?1=0, H1:?1?0,(2)以原假設(shè)H0構(gòu)造t統(tǒng)計(jì)量,并由樣本計(jì)算其值,(3)給定顯著性水平?,查t分布表,得臨界值t ?/2(n-2),(4) 比較,判斷 若 |t| t ?/2(n-2),則拒絕H0 ,接受H1 ; 若 |t|? t ?/2(n-2),則拒絕H1 ,接受H0 ;,3、方程的顯著性檢驗(yàn)(F檢驗(yàn)),方程的顯著性檢驗(yàn),旨在對(duì)模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立作出推斷。,即檢驗(yàn)?zāi)P?Yi=?0+?1X1i+?2X2i+ ? +?kXki+?i i=1,2, ?,n 中的參數(shù)?j是否顯著不為0。,可提出如下原假設(shè)與備擇假設(shè):,H0: ?0=?1=?2= ? =?k=0 H1: ?j不全為0,根據(jù)數(shù)理統(tǒng)計(jì)學(xué)中的知識(shí),在原假設(shè)H0成立的條件下,統(tǒng)計(jì)量,服從自由度為(k , n-k-1)的F分布,給定顯著性水平?,可得到臨界值F?(k,n-k-1),由樣本求出統(tǒng)計(jì)量F的數(shù)值,通過(guò) F? F?(k,n-k-1) 或 F?F?(k,n-k-1) 來(lái)拒絕或接受原假設(shè)H0,以判定原方程總體上的線性關(guān)系是否顯著成立。,3、計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn),多重共線性 異方差 自相關(guān),引子:發(fā)展農(nóng)業(yè)和建筑業(yè)會(huì)減少財(cái)政收入嗎?,為了分析各主要因素對(duì)財(cái)政收入的影響,建立財(cái)政收 入模型: 其中: CS財(cái)政收入(億元) ; NZ農(nóng)業(yè)增加值(億元); GZ工業(yè)增加值(億元); JZZ建筑業(yè)增加值(億元); TPOP總?cè)丝?萬(wàn)人); CUM最終消費(fèi)(億元); SZM受災(zāi)面積(萬(wàn)公頃) 數(shù)據(jù)樣本時(shí)期1978年-2003年(資料來(lái)源:《中國(guó)統(tǒng)計(jì)年鑒2004》,中國(guó)統(tǒng)計(jì)出版社2004年版) 采用普通最小二乘法得到以下估計(jì)結(jié)果,,財(cái)政收入模型的EViews估計(jì)結(jié)果,,,,,,,,,●可決系數(shù)為0.995,校正的可決系數(shù)為0.993,模型擬合很好。模型對(duì)財(cái)政收入的解釋程度高達(dá)99.5%。 ●F統(tǒng)計(jì)量為632.10,說(shuō)明0.05水平下回歸方程整體上顯著。 ● t 檢驗(yàn)結(jié)果表明,除了工業(yè)增加值和總?cè)丝谝酝?,其他因素?duì)財(cái)政收入的影響均不顯著。 ●農(nóng)業(yè)增加值和建筑業(yè)增加值的回歸系數(shù)是負(fù)數(shù)。 農(nóng)業(yè)和建筑業(yè)的發(fā)展反而會(huì)使財(cái)政收入減少嗎?! 這樣的異常結(jié)果顯然與理論分析和實(shí)踐經(jīng)驗(yàn)不相符。 若模型設(shè)定和數(shù)據(jù)真實(shí)性沒(méi)問(wèn)題,問(wèn)題出在哪里呢?,模型估計(jì)與檢驗(yàn)結(jié)果分析,一、多重共線性的概念,對(duì)于模型 Yi=?0+?1X1i+?2X2i+?+?kXki+?i i=1,2,…,n 其基本假設(shè)之一是解釋變量是互相獨(dú)立的。,如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了相關(guān)性,則稱(chēng)為多重共線性(Multicollinearity)。,多重共線性檢驗(yàn)的任務(wù)是: (1)檢驗(yàn)多重共線性是否存在; (2)估計(jì)多重共線性的范圍,即判斷哪些變量之間存在共線性。,多重共線性表現(xiàn)為解釋變量之間具有相關(guān)關(guān)系,所以用于多重共線性的檢驗(yàn)方法主要是統(tǒng)計(jì)方法:如判定系數(shù)檢驗(yàn)法、逐步回歸檢驗(yàn)法等。,二、多重共線性的檢驗(yàn),1、檢驗(yàn)多重共線性(程度),(1)若 在OLS法下:R2與F值較大,但t檢驗(yàn)值較小,說(shuō)明各解釋變量對(duì)Y的聯(lián)合線性作用顯著,但各解釋變量間存在共線性而使得它們對(duì)Y的獨(dú)立作用不能分辨,故t檢驗(yàn)不顯著。 是多重共線性的典型特征,,(2)相關(guān)系數(shù)檢驗(yàn)法:解釋變量有高度的兩兩相關(guān)。 判定標(biāo)準(zhǔn)0.8 是多重共線性的充分而非必要條件。因此 在兩個(gè)解釋變量條件下可靠,超過(guò)兩個(gè)解釋變量時(shí)不準(zhǔn)確。,,(3) 判定系數(shù)檢驗(yàn)法(輔助回歸法) 使模型中每一個(gè)解釋變量分別以其余解釋變量為解釋變量進(jìn)行回歸,并計(jì)算相應(yīng)的擬合優(yōu)度。 如果某一種回歸 Xji=?1X1i+?2X2i+??LXLi 的判定系數(shù)較大,說(shuō)明Xj與其他X間存在共線性。,在模型中排除某一個(gè)解釋變量Xj,估計(jì)模型; 如果擬合優(yōu)度與包含Xj時(shí)十分接近,則說(shuō)明Xj與其它解釋變量之間存在共線性。,另一等價(jià)的檢驗(yàn)是:,(4)逐步回歸法,以Y為被解釋變量,逐個(gè)引入解釋變量,構(gòu)成回歸模型,進(jìn)行模型估計(jì)。 根據(jù)擬合優(yōu)度的變化決定新引入的變量是否獨(dú)立。 如果擬合優(yōu)度變化顯著,則說(shuō)明新引入的變量是一個(gè)獨(dú)立解釋變量; 如果擬合優(yōu)度變化很不顯著,則說(shuō)明新引入的變量與其它變量之間存在共線性關(guān)系。,(5)方差擴(kuò)大(膨脹)因子法,,經(jīng)驗(yàn)規(guī)則,●方差膨脹因子越大,表明解釋變量之間的多重共性越嚴(yán)重。反過(guò)來(lái),方差膨脹因子越接近于1,多重共線性越弱。 ●經(jīng)驗(yàn)表明,方差膨脹因子≥10時(shí),說(shuō)明解釋變量與其余解釋變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過(guò)度地影響最小二乘估計(jì)。,找出引起多重共線性的解釋變量,將它排除 以逐步回歸法得到最廣泛的應(yīng)用。 注意: 剩余解釋變量參數(shù)的經(jīng)濟(jì)含義和數(shù)值都發(fā)生了變化。若剔除了重要變量,可能引起模型的設(shè)定誤差。,如果模型被檢驗(yàn)證明存在多重共線性,則需要發(fā)展新的方法估計(jì)模型,最常用的方法有三類(lèi)。,四、克服多重共線性的方法,1、第一類(lèi)方法:排除引起共線性的變量,2、其他方法:增加樣本容量、合并指標(biāo)等或容忍,案例——中國(guó)糧食生產(chǎn)函數(shù),根據(jù)理論和經(jīng)驗(yàn)分析,影響糧食生產(chǎn)(Y)的主要因素有: 農(nóng)業(yè)化肥施用量(X1);糧食播種面積(X2) 成災(zāi)面積(X3); 農(nóng)業(yè)機(jī)械總動(dòng)力(X4); 農(nóng)業(yè)勞動(dòng)力(X5),已知中國(guó)糧食生產(chǎn)的相關(guān)數(shù)據(jù),建立中國(guó)糧食生產(chǎn)函數(shù): Y=?0+?1 X1 +?2 X2 +?3 X3 +?4 X4 +?4 X5 +?,1、用OLS法估計(jì)上述模型:,R2接近于1; 給定?=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19, 故認(rèn)為上述糧食生產(chǎn)的總體線性關(guān)系顯著成立。 但X4 、X5 的參數(shù)未通過(guò)t檢驗(yàn),且符號(hào)不正確,故解釋變量間可能存在多重共線性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、檢驗(yàn)簡(jiǎn)單相關(guān)系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關(guān)性。,列出X1,X2,X3,X4,X5的相關(guān)系數(shù)矩陣:,3、找出最簡(jiǎn)單的回歸形式,可見(jiàn),應(yīng)選第1個(gè)式子為初始的回歸模型。,分別作Y與X1,X2,X3,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4、逐步回歸,將其他解釋變量分別導(dǎo)入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5、結(jié)論,二、異方差,,對(duì)于模型,如果出現(xiàn),即對(duì)于不同的樣本點(diǎn),隨機(jī)誤差項(xiàng)的方差不再是常數(shù),而互不相同,則認(rèn)為出現(xiàn)了異方差性(Heteroskedasticity)。,一、異方差的概念,當(dāng)多元回歸的時(shí)候:,先ols 然后計(jì)算殘差,計(jì)算殘差平方 繪制散點(diǎn)圖:變量為殘差平方和自變量 根據(jù)圖形判斷是否有異方差 其他方法:white檢驗(yàn),三、自相關(guān),回歸方程殘差具有相關(guān)性 常用檢驗(yàn)方法:DW檢驗(yàn),DW檢驗(yàn)決策規(guī)則,,用坐標(biāo)圖更直觀表示DW檢驗(yàn)規(guī)則:,,異方差的解決 廣義差分法,,,
收藏