《心理測量學第三章和第四章.ppt》由會員分享,可在線閱讀,更多相關《心理測量學第三章和第四章.ppt(68頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第三章經(jīng)典測驗理論的基本假設,主講:許瑩電郵:,2020/7/3,2,第一節(jié)心理特質(zhì)及其可測性假設,2020/7/3,3,一、心理特質(zhì)的含義,內(nèi)涵表現(xiàn)在一個人身上所特有的相對穩(wěn)定的行為方式為人的心理特質(zhì)(trait)。理解特質(zhì)是一組具有內(nèi)部相關的行為的概括,具有一定的抽象性,如善良、聰明。比較穩(wěn)定,對不同的刺激做相同的反應;,2020/7/3,4,,特質(zhì)是一個人身上比較穩(wěn)定的特點。一個人的精神面貌(人格)是由多種特質(zhì)分多個層次有機組合而成的。智力可以分語言和操作,語言可以分為詞匯和文法。特質(zhì)可以決定一個人對特定刺激的反應傾向,可以對人的行為進行某種預測。,2020/7/3,5,二、心理特質(zhì)的可
2、測性,Thorndike“凡客觀存在的事物都有其數(shù)量?!盡cCall“凡有數(shù)量的東西都可以測量。,2020/7/3,6,第二節(jié)測量誤差及其來源,2020/7/3,7,一、測量誤差的含義,定義在測量過程中由那些與測量目的無關的變化因素所產(chǎn)生的一種不準確或不一致的測量效應。理解測量誤差由那些與測量目的無關的變因所致測量誤差表現(xiàn)為不準確或不一致兩種方式。,2020/7/3,8,二、測量誤差的種類,系統(tǒng)誤差:由與測量目的無關的變因引起的一種恒定而有規(guī)律的效應(穩(wěn)定);隨機誤差:由與測量目的無關的、偶然因素引起、而又不易控制的誤差(不穩(wěn)定)。,2020/7/3,9,(一)測量工具(測驗內(nèi)部)引起的誤差題
3、目取樣(影響最大)指導語難度時限測驗復本不等值,三、測量誤差的來源,2020/7/3,10,(二)由測量對象引起的誤差(最復雜最難控制的誤差)測驗的經(jīng)驗練習因素應試動機測驗焦慮反應定勢生理因素,2020/7/3,11,,(三)由施測過程引起的誤差物理環(huán)境主試者方面意外干擾評分計分,2020/7/3,12,第三節(jié)真分數(shù)及其有關的假設,2020/7/3,13,一、真分數(shù)的含義,真分數(shù)(TrueScore):一個測量工具在沒有測量誤差時,所得到的純正值。操作定義:經(jīng)過無數(shù)次測量所得到的平均值。觀察分數(shù)(ObservedScore):實測分數(shù),2020/7/3,14,,某一物理測量數(shù)據(jù),,,,,(1)
4、實測重量=真實重量+誤差(2)誤差之和為零(3)實測重量的平均值=真實重量的平均值,2020/7/3,15,二、數(shù)學模型及其假設(一)CTT的數(shù)學模型經(jīng)典測驗理論假定,觀察分數(shù)(記為X)與真分數(shù)(T)之間是一種線性關系,并只相差一個隨機誤差(記為E)。即X=T+E(二)3個相關聯(lián)的假設公理1.若一個人的某種心理特質(zhì)可以用平行的測驗反復測量足夠多次,則其觀察分數(shù)的平均值會接近于真分數(shù)。即:E(X)=T或E(E)=02.真分數(shù)和誤差分數(shù)之間的相關為零。即:(T,E)=0,2020/7/3,16,,SX2,ST2,,,,3.各平行測驗上的誤差分數(shù)之間相關為零。即(E1,E2)=0,,SX2=ST2+
5、SE2ST2=SV2+SI2SX2=SV2+SI2+SE2,2020/7/3,17,第四章測量信度,2020/7/3,18,請列舉一些你所使用過或接觸過的量表,思考:量表的作用是什么?,2020/7/3,19,你如何解釋下述現(xiàn)象?,一個很聰明的孩子,測得智商是80分一個學習很好的學生,考試成績?yōu)?0分一個人緣很好的人,人際關系測量低于常模值,2020/7/3,20,量表幫助我們了解心理現(xiàn)象(心理特質(zhì)),就像尺子幫助我們測量身高。,思考:我們?nèi)绾沃牢覀冇卸喔??有兩個工具:尺子/秤,2020/7/3,21,尺子的數(shù)據(jù)與我們的目測更一致,而秤盤的數(shù)據(jù)則與我們的目測不一致。因此,尺子是測量身高的有效
6、工具效度。,什么材料的尺子?鋼鐵(熱脹冷縮)涉及到一致性的問題。信度,2020/7/3,22,,1.70=1.7?,2020/7/3,23,,量表是我們用來了解心理特質(zhì)的工具,但這個工具是有誤差的。誤差是不可避免的,但誤差要控制在一個許可的范圍內(nèi)。,2020/7/3,24,回顧,什么是誤差?誤差的種類有哪些?,2020/7/3,25,第一節(jié)信度概述一、什么是信度?信度(reliability)是指測量結果的穩(wěn)定性程度,也叫測量的可靠性。操作定義:指真實方差除以測量方差所得的商.注意:(1)信度指的是一組測驗分數(shù)或一系列測量的特性,而不是個人分數(shù)的特性;(2)真分數(shù)的變異數(shù)是不能直接測量的,因此
7、信度是一個理論上構想的概念,只能根據(jù)一組實得分數(shù)作出估計。,2020/7/3,26,三種等價的信度定義,定義一信度乃是一個被測團體真分數(shù)的變異數(shù)(方差)與實得分數(shù)的變異數(shù)(方差)之比。如果他們的比率是.87,說明了什么?,測量方差的87%屬于真實方差,2020/7/3,27,,2020/7/3,28,信度的定義二,信度乃是一個被測團體真分數(shù)與實得分數(shù)的相關系數(shù)的平方。rXX=P2TX思考:相關系數(shù)的平方?,2020/7/3,29,2020/7/3,30,信度的定義三,信度乃是一個測驗X與它的任意一個平行測驗X的相關系數(shù)。rXX=PXX,2020/7/3,31,A卷:你是一個喜歡熱鬧的人嗎?,1
8、=絕對是2=是3=不一定4=不是5=絕對不是,2020/7/3,32,B卷:你是一個喜歡安靜的人嗎?,1=絕對是2=是3=不一定4=不是5=絕對不是,2020/7/3,33,二、信度系數(shù)與信度指數(shù),信度指數(shù):相關系數(shù)信度系數(shù):相關系數(shù)的平方注意:(1)信度系數(shù)有多種。(2)同一種信度系數(shù)也會因樣本、測查時間不同而有多個。(3)信度系數(shù)只是對測量分數(shù)一致性的估計,但并沒有指出不一致的原因。(4)獲得較高的信度只是測驗有效的必要條件。,2020/7/3,34,三、信度的作用,1信度是測量過程中所存在的隨機誤差大小的反映2信度可以用來解釋個人測驗分數(shù)的意義SE=Sx1rxx真分數(shù)的置信區(qū)間(95%)
9、=X1.96SE3信度可以幫助進行不同測驗分數(shù)的比較,,,2020/7/3,35,,注意:信度參照的是測驗分數(shù)或測量值,而非測驗本身。測驗由題目組成,而這些題目本身并不能提供信度的估計值。估計信度前必須先進行施測和計分。,2020/7/3,36,第二節(jié)信度的估計方法,一、重測信度(穩(wěn)定系數(shù))1含義和計算同一量表,同一被試群體,在不同時間,兩次施測,求其相關。皮爾遜積差相關系數(shù)2使用的前提條件所測量的心理特質(zhì)必須是穩(wěn)定的;(人格測驗)練習和遺忘的效果基本上相互抵消;在兩次施測的間隔時期內(nèi),被試在所要測查的心理特質(zhì)方面沒有獲得更多的學習和訓練。,2020/7/3,37,3.實質(zhì):表示測驗結果的穩(wěn)定
10、性。故稱之為穩(wěn)定性系數(shù)(CoefficientofStability)4.形式:施測適當時間再施測,2020/7/3,38,,5.時間間隔的把握一個校區(qū)每年都對學生進行IQ測驗,而另一個校區(qū)則兩年一次。第一個校區(qū)的老師可能認為IQ測驗的分數(shù)在一年中會保持穩(wěn)定,所以有必要進行再測,因為學生在一年后的回答可能不一致。第二個校區(qū)的老師則認為在一年中分數(shù)并沒有明顯的波動,那么施測的頻率沒有必要高于兩年一次。哪種結果正確呢?取決于第一年和第二年成績的相關。通常來說,大約為0.80或0.90,且保持相對穩(wěn)定(Bayley,1949)所以,頻率沒必要高于兩年一次。,2020/7/3,39,,間隔時間越長,穩(wěn)
11、定性系數(shù)越低。適宜時間間隔依照測驗目的、性質(zhì)及被試特點而定。幾分鐘至幾年。年幼兒童,間隔要??;年長群體,間隔可大。智力測驗的間隔不能太短,成就測驗的間隔不能太長。一般間隔時間不超過六個月。(即不能讓被試記住上一次測驗的內(nèi)容,又不能讓其特質(zhì)發(fā)生變化,或?qū)λ鶎W知識產(chǎn)生遺忘)適用于速度測驗和人格測驗,而不適用于難度測驗.,2020/7/3,40,注意:同樣一個量表,隨著第二次測量的時間不同,它可以有不同的重測信度,在報告重測信度時,要說明兩次施測的間隔,以及在此期間內(nèi)被試的有關經(jīng)歷。在中國修訂韋氏兒童智力量表手冊(C-WISC)中,就曾對重測信度的計算報告了被試情況(6-16歲城市兒童151名,農(nóng)村
12、兒童74名且各年齡兒童分配較均勻),并報告了兩次測驗的間隔(2-7周)及兩次的相關系數(shù)(城市:0.59-0.86,農(nóng)村:0.56-0.81)。,2020/7/3,41,,二、復本信度1含義和計算復本信度(Alternate-formreliability)是指兩個平行的測驗測量同一批被試所得結果的一致性程度。復本等值要符合下列條件:各份測驗測量的是同一種心理特性。各份測驗具有相同的內(nèi)容和形式。各份測驗的題目不應重復。各份測驗題目數(shù)量相等,難度和區(qū)分度大體相同。各份測驗的分數(shù)分布(平均數(shù)和標準差)大致相等。復本編好后,應再測一次,以確保各份測驗的等值。,2020/7/3,42,,2使用的前提條件
13、兩測驗真正平行;被試要有條件接受兩個測驗。(時間,經(jīng)費的限制)等值性系數(shù):同時連續(xù)施測,反映內(nèi)容變異。形式:復本A最短時間復本B穩(wěn)定性與等值性系數(shù):時間間隔施測,內(nèi)容變異重測信度誤差形式:復本A適當時間復本B,2020/7/3,43,3.缺點:,只能減少而不能完全排除練習和記憶的影響.對許多測驗來說,建立復本是相當困難的.4.誤差來源:測驗的兩種形式是否等值:測題取樣是否匹配,格式是否相同,內(nèi)容、題數(shù)、難度、平均數(shù)、標準差是否一致;被試方面情緒波動、動機變化等;測驗情景的變化;偶發(fā)因素的干擾。,2020/7/3,44,三、分半信度,1含義和計算分半信度(split-halfreliabilit
14、y)是指將一個測驗分成對等的兩半后,所有被試在這兩半上所得分數(shù)的一致性程度。計算分半信度先要對測驗分半。不同的分半法可能會得到不同的信度值。為了使兩半基本等值,可將項目按由易到難的順序排列編號,然后按奇數(shù)和偶數(shù)序號將項目分半。要注意使那些性質(zhì)相同、聯(lián)系緊密的項目分在相同的一半,否則會使信度值偏高,2020/7/3,45,分半信度(Split-HalfReliability),被試在兩半測驗上得分的相關系數(shù)只是半個測驗的信度,還必須用斯皮而曼布朗公式校正校正公式:斯皮爾曼-布朗公式rxx=2rhh/(1+rhh)但只能在兩半測驗分數(shù)的變異數(shù)(sa2、Sb2)相等時才能用。,2020/7/3,46
15、,,弗朗那根公式:rxx=21-(sa2+Sb2)/Sx2盧侖公式:rxx=1-Sd2/Sx22使用的前提條件,2020/7/3,47,例題:,100個題目,分半信度r.70,整個測驗的估計信度是多少?,2020/7/3,48,四、同質(zhì)性信度,1.含義同質(zhì)性指測驗的所有題目測量的是同一種心理特質(zhì),表現(xiàn)為各個題目得分之間有較高的相關,相關越高則同質(zhì)性越強。同質(zhì)性信度(homogeneityreliability),也叫內(nèi)部一致性系數(shù),是指測驗內(nèi)部所有題目間的一致性程度。2計算及適用范圍rxx=Krij/1+(K-1)rij,,,,,2020/7/3,49,KR20公式(僅適用于(0,1)記分的測
16、驗)rxx=K/(K-1)1-(piqi)/Sx2pi為答對第i題的人數(shù)的比例;qi為答錯第i題的人數(shù)的比例。K為題目數(shù),Sx2為測驗總分的變異。KR21公式(所有題目難度接近時才適用)rxx=K/(K-1)1-(Kpq)/Sx2,,,2020/7/3,50,克龍巴赫系數(shù)(可處理任何內(nèi)部一致性系數(shù)的計算問題)=K/(K-1)1-(Si2)/Sx2菏伊特信度:rxx=1-MS人題/MS人一般用于預測的測驗或?qū)W績測驗可不考慮同質(zhì)性。而驗證理論構想時必須考慮同質(zhì)性。因此,同質(zhì)性不但與信度有關,還與效度有關。,2020/7/3,51,五、評分者信度1含義和計算評分者信度(scorerreliabili
17、ty)是指多個評分者給同一批人的答卷進行評分的一致性程度。在心理測驗中,評分者信度的計算,通常是隨機抽取若干份試卷,由至少兩位受過訓練的評分者按計分規(guī)則分別判分,然后計算它們的相關。幾個評分者的評分越一致,評分者信度越高2人時:最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數(shù)的相關系數(shù)。這種相關系數(shù)的計算可以用積差相關方法,也可以采用斯皮爾曼等級相關方法。相關系數(shù),2020/7/3,52,多人時:肯德爾和諧系數(shù)W=12Ri2-(Ri)2/N/K2(N3-N)(K=320;N=37時,查W表檢驗)RI為第i個被試被評的水平等級之和若N7,用2檢驗。2=K(
18、N-1)W,df=N-1若評分中有相同等級時,需校正:W=12Ri2-(Ri)2/N/K2(N2-N)-K(n3-n)/12,2020/7/3,53,,一般要求在成對的受過訓練的評分者之間平均一致性達0.90以上,才認為評分是客觀的。,2020/7/3,54,各種信度系數(shù)相應誤差變異的來源,2020/7/3,55,估計信度的方法與測驗復本的數(shù)目以及施測次數(shù)的關系,2020/7/3,56,在一般情況下,間隔施測的副本信度最低,因為很多因素有機會影響到分數(shù)。相反,校正過的分半相關,因為影響的因素少,所得的信度估計為最高。,2020/7/3,57,假設對100個六年級學生以兩個月的時間間隔先后施測一
19、個創(chuàng)造力測驗的AB兩個復本,所得的等值性與穩(wěn)定性系數(shù)為0.70。我們還根據(jù)被試對每個復本的反應計算出分半信度為0.80(先計算每個復本的分半相關系數(shù)。將二者平均后再用斯皮爾曼-布朗公式校正)。同時,我們讓另一個評分者隨機抽取50份卷子另外評分,得到評分者信度為0.92。然后,我們對這三種方法所產(chǎn)生的誤差變異進行分析。,2020/7/3,58,一個假想測驗的誤差變異來源分析,2020/7/3,59,一個假想測驗的誤差變異來源分析,第三節(jié)提高測量信度的方法,,2020/7/3,61,一、影響測量信度的主要因素(2007心理學統(tǒng)考真題:),(一)被試方面1、單個被試:身心健康情況、應試動機、注意力、
20、耐心、求勝心、作答態(tài)度等會影響測量誤差,它們會影響被試心理特質(zhì)水平的穩(wěn)定性。2、被試團體:(1)被試團體同質(zhì)性越高(個體差異越?。孟嚓P系數(shù)(信度)就越低。(2)被試團體異質(zhì)性越高(個體差異越大),所得相關系數(shù)(信度)就越高。,2020/7/3,62,,不能認為當該測驗在一個團體中有較高的信度時,在另一個團體也具有較高的信度。當將測驗用于異質(zhì)性團體時,用下面的公式推算出新的信度系數(shù)。rnn=1-So2(1-roo)/Sn2roo為用于原團體的信度,rnn為用于異質(zhì)程度不同的團體的信度,Sn為異質(zhì)程度不同的團體的分數(shù)分布的標準差,So為原團體的的分數(shù)分布的標準差某測驗的被試為25年級的小學生
21、,已知信度是0.85,標準差為10,現(xiàn)欲知道僅用于4年級時信度是多少,4年級的標準差是5。(0.4),2020/7/3,63,(二)主試方面施測者:指導語、態(tài)度、期望等評分者:評分標準(三)施測情境考場是否安靜,光線和通風,設備,桌面,空間等(四)測量工具測驗內(nèi)容:試題取樣不當,內(nèi)部一致性低,題意模糊,信度則低。如:押題,2020/7/3,64,,測驗長度:測驗越長,信度越高。rkk=Krxx/1+(K-1)rxxK為改變后的測驗長度與原來長度之比,rxx為原測驗的信度,rkk為測驗長度增加為k倍后測驗的信度。測驗難度:過難或過易都會使個體間得分差異減小,降低信度。(五)兩次施測的間隔時間間隔
22、時間越短,信度越高;間隔時間越長,信度越低。,2020/7/3,65,二、提高測量信度的常用方法(一)適當增加測驗的長度1.新增項目必須與試卷中的原有項目同質(zhì)。2.新增項目的數(shù)量必須適度。(二)使測驗中所有試題的難度接近正態(tài)分布,并控制在中等水平(三)努力提高測驗試題的區(qū)分度(四)選取恰當?shù)谋辉噲F體,提高測驗在各同質(zhì)性較強的亞團體上的信度(五)主試者嚴格執(zhí)行施測規(guī)程,評分者嚴格按照標準給分,施測場地按測驗手冊的要求進行布置,減少無關因素的干擾,2020/7/3,66,三、信度的特殊問題1速度測驗的信度問題因為速度測驗的題目難度都很低,所以不能用奇偶分半求分半信度;可以將測驗分兩半來施測。因為幾
23、乎不可能把題目做完,所以同質(zhì)性信度不適用??梢杂弥販y信度和復本信度。2標準參照測驗的信度問題總體越同質(zhì),相關系數(shù)越低。用復本,通過人數(shù)的百分比差別越小,信度越高。,2020/7/3,67,3分測驗的信度除整個測驗的信度外,各個分測驗也應有信度,否則,從分測驗得分來做推論就會出問題。4差異的信度比較兩門課成績的差異,若兩門課的信度都不可靠時,二者的差別更不可靠。5行為改變(變遷)的測量,2020/7/3,68,四、信度好壞的判斷標準標準化能力或?qū)W績測驗:0.90人格測驗:0.80教師自編學績測驗:0.60五、測驗使用時的信度標準一般來說,當信度<0.70,測驗不能用于對個人作出評價與預測,而且不能作團體間比較;當0.70信度<0.85時,可用于團體比較;當信度0.85時,才能用來鑒別或預測個人成績。,