《統(tǒng)計學第六版賈俊平第9章》由會員分享,可在線閱讀,更多相關《統(tǒng)計學第六版賈俊平第9章(48頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,9-,*,精品教材,統(tǒng)計學,第 9 章 列聯(lián)分析,作者:中國人民大學統(tǒng)計學院,賈俊平,PowerPoint,統(tǒng)計學,第 9 章 列聯(lián)分析,9.1 分類數(shù)據(jù)與列聯(lián)表,9.2,擬合優(yōu)度,檢驗,9.3 獨立性檢驗,9.4 列聯(lián)表中的相關測量,9.3 列聯(lián)分析中應注意的問題,學習目標,1.解釋列聯(lián)表,進行,c,2,檢驗,擬合優(yōu)度檢驗,獨立性檢驗,3.,測度列聯(lián)表中的相關性,數(shù)據(jù)的類型與
2、列聯(lián)分析,數(shù) 據(jù),定量數(shù)據(jù),(數(shù)值型數(shù)據(jù),),定性數(shù)據(jù),(品質(zhì)數(shù)據(jù),),離散數(shù)據(jù),連續(xù)數(shù)據(jù),列聯(lián)分析,分類數(shù)據(jù),分類變量的結果表現(xiàn)為類別,例如:性別,(,男,女,),各類別用符號或數(shù)字代碼來測度,使用分類或順序尺度,你吸煙嗎?,1.是;2.否,你贊成還是反對這一改革方案?,1.贊成;2.反對,對分類數(shù)據(jù)的描述和分析通常使用列聯(lián)表,可使用,檢驗,9.1,分類數(shù)據(jù)與列聯(lián)表,分類數(shù)據(jù),列聯(lián)表的構造,列聯(lián)表的分布,列聯(lián)表的構造,列聯(lián)表,(,contingency table),由兩個以上的變量交叉分類的頻數(shù)分布表,行變量的類別用,r,表示,,r,i,表示第,i,個類別,列變量的類別用,c,表示,,c,
3、j,表示第,j,個類別,每種組合的觀察頻數(shù)用,f,ij,表示,表中,列出了,行變量和列變量的所有可能的組合,所以稱為列聯(lián)表,一個,r,行,c,列的列聯(lián)表稱為,r,c,列聯(lián)表,列聯(lián)表的結構,(2,2 列聯(lián)表,),列(,c,j,),合計,j,=1,j,=1,i,=1,f,11,f,12,f,11,+,f,12,i,=2,f,21,f,22,f,21,+,f,22,合計,f,11,+,f,21,f,12,+,f,22,n,列(,c,j,),行(,r,i,),列聯(lián)表的結構,(,r,c,列聯(lián)表的一般表示,),列(,c,j,),合計,j,=1,j,=,2,i,=1,f,11,f,12,r,1,i,=2,f
4、,21,f,22,r,2,:,:,:,:,:,合計,c,1,c,2,n,列,(,c,j,),行,(,r,i,),f,ij,表示第,i,行第,j,列的觀察頻數(shù),列聯(lián)表,(,例題分析,),一分公司,二分公司,三分公司,四分公司,合計,贊成該方案,68,75,57,79,279,反對該方案,32,75,33,31,141,合計,100,120,90,110,420,【例】,一個集團公司在四個不同的地區(qū)設有分公司,現(xiàn)該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個分公司共抽取420個樣本單位(人),了解職工對此項改革的看法,調(diào)查結果如下表,列聯(lián)表的分布,觀察值的分
5、布,邊緣分布,行邊緣分布,行觀察值的合計數(shù)的分布,例如,贊成改革方案的共有279人,反對改革方案的141人,列邊緣分布,列觀察值的合計數(shù)的分布,例如,四個分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人,條,件分布與條件頻數(shù),變量,X,條件下變量,Y,的分布,或在變量,Y,條件下變量,X,的分布,每個具體的觀察值稱為條件頻數(shù),觀察值的分布,(圖示),一分公司,二分公司,三分公司,四分公司,合計,贊成該方案,68,75,57,79,279,反對該方案,32,75,33,31,141,合計,100,120,90,110,420,行,邊緣分布,列邊緣分布,條件頻數(shù),百分比分布,(概念要
6、點),條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合對比,為在相同,的基數(shù)上進行比較,可以計算相應的百分比,稱為,百分比分布,行百分比:行的每一個觀察頻數(shù)除以相應的行合計數(shù)(,f,ij,/,r,i,),列百分比:列的每一個觀察頻數(shù)除以相應的列合計數(shù)(,f,ij,/,c,j,),總百分比:每一個觀察值除以觀察值的總個數(shù)(,f,ij,/,n,),百分比分布,(圖示),一分公司,二分公司,三分公司,四分公司,合計,贊成該方案,24.4%,26.9%,20.4%,28.3%,66.4%,68.0%,62.5%,63.35,71.8%,16.2%,17.8%,13.6%,18.8%,反對該方案,22.7%,31.9
7、%,23.4%,22.0%,33.6%,32.0%,37.5%,36.7%,28.2%,7.6%,10.7%,7.9%,7.4%,合計,23.8%,28.6%,21.4%,26.2%,100%,總,百分比,列,百分比,行,百分比,期望頻數(shù)的分布,假定行變量和列變量是獨立的,一個實際,頻數(shù),f,ij,的期望頻數(shù),e,ij,,,是總頻數(shù)的個數(shù),n,乘以該實際頻數(shù),f,ij,落入第,i,行 和第,j,列的概率,即,期望頻數(shù)的分布,(例題分析),由于觀察頻數(shù)的總數(shù)為,n,,,所以,f,11,的期望頻數(shù),e,11,應為,例如,第1行和第1列的實際,頻數(shù)為,f,11,它落在第1行的概率估計值為該行的頻數(shù)之
8、和,r,1,除以總頻數(shù)的個數(shù),n,,,即:,r,1,/,n,;,它落在,第1列,的概率的估計值為該列的頻數(shù)之和,c,1,除以總頻數(shù)的個數(shù),n,,,即:,c,1,/,n,。,根據(jù)概率的乘法公式,該頻數(shù)落在第1行和第1列的概率應為,期望頻數(shù)的分布,(例題分析),一分公司,二分公司,三分公司,四分公司,贊成該方案,實際頻數(shù),68,75,57,79,期望頻數(shù),66,80,60,73,反對該方案,實際頻數(shù),32,75,33,31,期望頻數(shù),34,40,30,37,9.2,擬合優(yōu)度,檢驗,一.,統(tǒng)計量,擬合優(yōu)度檢驗,統(tǒng)計量,統(tǒng)計量,用于檢驗列聯(lián)表中變量間擬合優(yōu)度和獨立性,用于,測定兩個分類變量之間的相關程
9、度,計算公式為,統(tǒng)計量,(例題分析),實際頻數(shù),(,f,ij,),期望頻數(shù),(,e,ij,),f,ij,-,e,ij,(,f,ij,-,e,ij,),2,(,f,ij,-,e,ij,),2,f,68,75,57,79,32,45,33,31,66,80,60,73,34,40,30,37,2,-5,-3,6,-2,5,3,-6,4,25,9,36,4,25,9,36,0.0606,0.3125,0.1500,0.4932,0.1176,0.6250,0.3000,0.9730,合計:3.0319,擬合優(yōu)度,檢驗,品質(zhì)數(shù)據(jù)的假設檢驗,品質(zhì)數(shù)據(jù),比例檢驗,獨立性檢驗,Z,檢驗,一個總體,檢驗,Z,
10、檢驗,檢驗,兩個以上總體,兩個總體,擬合優(yōu)度檢驗,(,goodness of fit test),檢驗多個比例是否相等,檢驗的步驟,提出假設,H,0,:,1,=,2,=,=,j,;H,1,:,1,2,j,不全相等,計算檢驗的統(tǒng)計量,進行決策,根據(jù)顯著性水平和自由度(,r,-1)(,c,-1),查出臨界值,2,若,2,2,,拒絕,H,0,;,若,2,2,,接受,H,0,擬合優(yōu)度檢驗,(例題分析),H,0,:,1,=,2,=,3,=,4,H,1,:,1,2,3,4,不全相等,=0.,1,df,=,(2-1)(4-1)=3,臨界值(,s):,統(tǒng)計量:,在,=,0.1的水平上不能拒絕,H,0,可以認為
11、四個分公司對改革方案的贊成比例是一致的,決策:,結論:,2,0,6.215,3.0319,=0.1,擬合優(yōu)度檢驗,(例題分析),【例】,為了提高市場占有率,,A,公司和,B,公司同時開展了廣告宣傳。在廣告宣傳戰(zhàn)之前,,A,公司的市場占有率為45%,,B,公司的市場占有率為40%,其他公司的市場占有率為15%。為了了解廣告戰(zhàn)之后,A、B,和其他公司的市場占有率是否發(fā)生變化,隨機抽取了200名消費者,其中102人表示準備購買,A,公司產(chǎn)品,82人表示準備購買,B,公司產(chǎn)品,另外16人表示準備購買其他公司產(chǎn)品。檢驗廣告戰(zhàn)前后各公司的市場占有率是否發(fā)生了變化,(,0.05),擬合優(yōu)度檢驗,(例題分析)
12、,H0,:,1,=0.45,2,=0.4,3,=,0.15,H1,:,原假設中至少有一個不成立,=0.,1,df,=,(2-1)(3-1)=2,臨界值(,s):,統(tǒng)計量:,在,=,0.05的水平上拒絕,H,0,可以認為廣告后各公司產(chǎn)品市場占有率發(fā)生顯著變化,決策:,結論:,2,0,8.18,5.99,=0.05,擬合優(yōu)度檢驗,(例題分析用,P,值檢驗),第1步:將觀察值輸入一列,將期望值輸入一列,第2步:選擇“函數(shù)”選項,第3步:在函數(shù)分類中選“統(tǒng)計”,在函數(shù)名中選,“,CHITEST”,,點擊“確定”,第4步:在對話框“,Actual_range,”,輸入觀察數(shù)據(jù)區(qū)域,在對話框“,Expec
13、ted_range,”,輸入期望數(shù)據(jù)區(qū)域,得到,P,值為0.016711,所以拒絕原假設,用,Excel,計算,p,值,9.3,獨立性檢驗,獨立性檢驗,(,test of independence),檢驗列聯(lián)表中的行變量與列變量之間是否獨立,檢驗的步驟為,提出假設,H,0,:,行變量與列變量獨立,H,1,:,行,變量與列變量不獨立,計算檢驗的統(tǒng)計量,進行決策,根據(jù)顯著性水平和自由度(,r,-1)(,c,-1),查出臨界值,2,若,2,2,,拒絕,H,0,;,若,2,2,9.448,拒絕,H,0,擬合優(yōu)度檢驗,(例題分析),H0,:,地區(qū)與原料等級之間獨立,H1,:,地區(qū)與原料等級之間不獨立,=
14、0.,05,df,=,(3-1)(3-1)=4,臨界值(,s):,統(tǒng)計量:,在,=,0.05的水平上拒絕,H,0,地區(qū)和原料等級之間存在依賴關系,決策:,結論:,2,0,19.82,9.488,=0.05,9.4,列聯(lián)表中的相關測量,一.,相關系數(shù),列聯(lián)相關系數(shù),V,相關系數(shù),列聯(lián)表中的相關測量,品質(zhì)相關,對品質(zhì)數(shù)據(jù),(分,類和順序數(shù)據(jù),),之間相關程度的測度,列聯(lián)表變量的相關屬于品質(zhì)相關,列聯(lián)表相關測量的統(tǒng)計量主要有,相關系數(shù),列聯(lián)相關系數(shù),V,相關系數(shù),相關系數(shù),(,correlation coefficient),測度22列聯(lián)表中數(shù)據(jù)相關程度,對于22 列聯(lián)表,,系數(shù)的值在01之間,相關
15、系數(shù),計算公式為,相關系數(shù),(原理分析),一個簡化的 22 列聯(lián)表,因素,Y,因素,X,合計,x,1,x,2,y,1,a,b,a,+,b,y,2,c,d,c,+,d,合計,a,+,c,b,+,d,n,相關系數(shù),(原理分析),列聯(lián)表中每個單元格的期望頻數(shù)分別為,將各期望頻數(shù)代入,的計算公式得,相關系數(shù),(原理分析),將,入,相關系數(shù)的計算公式得,ad,等于,bc,,,=0,,表明變量,X,與,Y,之間獨立,若,b,=0,,,c,=0,,或,a,=0,,,d,=0,,意味著各觀察頻數(shù)全部落在對角線上,此時,|,|,=1,表明變量,X,與,Y,之間完全相關,列聯(lián)表中變量的位置可以互換,,的符號沒有實
16、際意義,故取絕對值即可,列聯(lián),相關系數(shù),(,coefficient of contingency),用于測度大于22列聯(lián)表中數(shù)據(jù)的相關程度,計算公式為,C,的取值范圍是 0,C,1,C,=0,表明列聯(lián)表中的兩個變量獨立,C,的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)和列數(shù)的增大而增大,根據(jù)不同行和列的列聯(lián)表計算的列聯(lián)系數(shù)不便于比較,V,相關系數(shù),(,V correlation coefficient),計算公式為,V,的取值范圍是 0,V,1,V,=0,表明列聯(lián)表中的兩個變量獨立,V,=1,表明列聯(lián)表中的兩個變量完全相關,不同行和列的列聯(lián)表計算的列聯(lián)系數(shù)不便于比較,當列聯(lián)表中有一維為2,,min(,r,-1),(,c,-1)=1,此時,V,=,、,C,、,V,的比較,同一個列聯(lián)表,,、,C,、,V,的,結果會不同,不同的列聯(lián)表,,、,C,、,V,的結果也不同,在對不同列聯(lián)表變量之間的相關程度進行比較時,不同列聯(lián)表中的行與行、列與列的個數(shù)要相同,并且采用同一種系數(shù),列聯(lián)表中的相關測量,(例題分析,),【例】,一種原料來自三個不同地區(qū),原料質(zhì)量被分成三個不同等級。從這批原料中隨機抽取50