多重線性回歸與多元逐步回歸-統計學
單擊此處編輯母版標題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,,*,多重線性回歸,流行病與衛(wèi)生統計學系,內 容,多重線性回歸,,回歸分析中自變量的選擇,,多因素線性回歸的應用及注意事項,,,復 習,線性回歸分析是研究,一個變量,和,另外一些變量,間,線性關系,的統計分析方法。,在回歸分析中,最簡單的情形是模型中只包含兩個有,“,依存關系,”,的變量,,一個變量,(反應變量)隨,另一個變量,(自變量)的變化而變化,且呈直線變化趨勢,稱之為,簡單線性回歸。,,給定,X,的數值,,,Y,,的數值取在一個平均值,,(,?,y|x,),附近,,對應于不同的,X,值,,,Y,,的,平均值座落在一條直線上,,,----,回歸直線,.,,,?,y|x,,和,X,的關系可用一個線性方程描寫,.,簡單線性回歸方程,總體,,,,樣本,,,,“,Y hat,”,表示估計值,給定,x,時,y,的,總體均數,的,估計值,。,直線回歸方程的求解:最小二乘原理,Y,X,,,,,,,,,,,,,,,,,,,,,,,,,,,,回歸系數及其計算,找一條直線使殘差平方和最小,,,,,,利用微積分知識,,,容易得到,,,,,,,這條線一定過兩個點,和,線性回歸分析的前提條件,線性,(,L,inear),,反應變量,Y,與自變量,X,呈線性變化趨勢,,獨立,(,I,ndependent),,任意兩個觀察值相互獨立,一個個體的取值不受其他個體的影響,,給定,X,時,,Y,正態(tài)分布,(,N,ormal),,給定,X,取值時,,Y,的取值服從正態(tài)分布,,等方差,(,E,qual variance),,指對應于不同的,X,值,,Y,值的總體變異相同,直線回歸應用條件,LINE,示意圖,,,,,,回歸方程有統計學意義嗎,,建立樣本直線回歸方程,只是完成了統計分析中兩變量關系的統計描述,這種關系是否有統計學意義,還需要進一步進行假設檢驗。,,檢驗回歸模型是否成立:方差分析,,檢驗總體回歸系數,β,是否為零:,t,檢驗,例,1:,,某研究者研究大氣污染物一氧化氮(,NO,)的濃度(,ppm,)與汽車流量(千輛)、氣溫(℃)、空氣濕度(,%,)、風速(,m/s,)等因素的關系,結果見表,1,:,單位時間內過往的汽車數(千輛)、氣溫(℃)、空氣濕度(,%,)、風速(,m/s,)這四個因素是否都對空氣中一氧化氮(,NO,)的濃度(,ppm,)有影響?,,如何定量地描述這些因素對一氧化氮濃度的影響?,,哪個因素對一氧化氮濃度的影響最大?哪個因素的影響最小?,,如果利用這些影響因素去預測空氣中一氧化氮的濃度,如何預測?效果如何?,第一節(jié) 多重線性回歸,多重,線性回歸,(,multiple,linear regression),,因變量,:,一個,,,Y,,自變量,:,多個,,,X,1,,X,2,,X,3,,…,,,Xp,,方程:,,,概 念,多元,線性回歸,(,multi- variate,linear regression),,簡稱,多元,回歸,(,multi- variate,regression):,,因變量,:,多個,,,Y,1,,,Y,2 ,,…,,自變量,:,多個,, X1, X2, X3,,…,方程:,,多重線性回歸方程,多重線性回歸方程是簡單線性回歸方程的擴展,,,其中 表示當所有,自變量為,0,時反應變量,Y,的總體平均值,。 為變量,X,i,,,的,總體偏回歸系數,(,partial regression coefficient,),,表示當方程中其他自變量保持常量時,自變量,Xi,每增加(或減少)一個計量單位,,,反應變量,Y,平均變化 個單位。,,,,樣本回歸方程,,,,反應變量,Y,的總體平均值,的估計值。,b,0,的估計。,為常數項,又稱為截距,是總體參數,b,i,為自變量,X,i,,的偏回歸系數,,,是總體參數 的,估計值。,,如果要建立由車流量( )和風速( )預測一氧化氮濃度(,Y,)的線性回歸方程,模型可以寫成:,,,,,表示在車流量不變的情況下,風速每增加一個單位(,1m/s,),,,估計空氣中一氧化氮的濃度平均改變,個單位(,ppm,)。,表,13-1,,多重線性回歸分析數據格式,,前提條件(,LINE,),多重線性,回歸分析步驟,求回歸方程,-----,最小二乘原則,,假設檢驗,-----,檢驗回歸方程是否具有統計學意義,模型有意義的前提下,再分別對,各偏回歸系數,進行假設檢驗,。,,(3),變量選擇,-----,以盡量少的自變量,,,達到較好地解釋,Y,的目的,,,基本原理,:,,尋找一套適宜的偏回歸系數( ),建立多重線性回歸方程,使得反應變量的觀測值 與回歸方程的估計值,回歸系數的估計,求回歸方程,采用,最小二乘法,,(least squared method),來估計偏回歸系數,,之間的殘差平方和最小。,SPSS,實現方法:,Analyze---Regression---Linear---,,y,選入,Dependent,,x,1,、,x,2,、,X,3,...X,P,選入,Independent,,Method---,Enter,,Stepwise,,,Backward,,,,Forward,---ok,,當建立樣本回歸方程后,首先要考察這個回歸方程是否有意義?即在, , , , 中,,,是否至少存在一個自變量與,Y,的總體均數呈線性關系?,,回歸方程的效果如何?也即是這四個自變量能夠解釋反應變量的變異的百分比是多少?,,四個自變量是否都對反應變量有影響?即各個偏回歸系數( )所對應的總體偏回歸系數( )是否等于,0,?,考慮:,,,,,,,,回歸的目的,:,估計,,H,0,成立時,,,只能用,Y,的均數 來估計,,殘差,: ,,自由度,=,,H,1,成立時,,,給定 可以用 來估計,,殘差,:,,,自由度,=,,,殘差減少了,,統計推斷,這個回歸方程有統計學意義嗎,?,,,,,,,,,,,,,----,這是回歸模型的貢獻,,,自由度,=,,,方差分析的基本思想,總變異,:把反應變量的觀察值的離均差平方和記為 ,它反映了沒有利用自變量的信息時的觀察值的變異性,即沒有考慮車流量、氣溫、氣濕和風速等因素的情況下一氧化氮濃度的變異的大小,其自由度記為,(,n,為樣本量)。,,根據回歸方程計算得到的預測值 與實際觀察值,,之間的差異稱為殘差,記殘差的離均差平方和為,,,它反映了的變異中不能由回歸解釋的部分,其自由度記為,,,,,P,為自變量個數。,,,,把 與 之差記為回歸平方和 ,它反應了回歸模型的貢獻,即車流量、氣溫、氣濕和風速等因素對一氧化氮濃度的影響,,,其自由度記為 。,,,,,,,,,表,13-2,方差分析表,,表,13-3,,檢驗回歸方程整體意義的方差分析表,,,,,,變異來源,自由度,,,,,回歸,4,0.064,0.016,17.59,<.001,殘差,19,0.017,0.001,,,總,23,0.081,,,,,表中,值小于,0.001,,按照,0.05,的檢驗水準,可以拒絕,認為所建立的回歸方程是有意義的。用這四個自變量構,,成的回歸方程解釋空氣中一氧化氮濃度的變化是有意義的。,回歸模型好壞的評價,1)擬合的回歸方程在總體上有統計學意義,,2) 決定系數R,2,,R,2,=1-SS殘/SS總= SS模/SS總,,,,它表示在因變量y的總變異中可由回歸方程所解釋部分的比例。,,0<R,2,≤1, 越接近于1, 說明回歸方程效果越好。,32,復相關系數是隨方程中的變量個數增加而增加的,為了克服這一缺點,對它進行校正,,Adj R,2,=1-MS殘/MS總,,,0<AdjR,2,≤1, 越接近于1, 說明回歸方程效果越好。,,,33,調整的確定系數,(,adjusted R,2,, ),,,,3)剩余標準差或標準估計誤差(standard error of estimate)。,,它反映了應變量在扣除自變量的線性影響后的離散程度;,,剩余標準差越接近于0, 說明回歸方程效果越好。,,,,35,4)回歸系數估計值的正負號與專業(yè)上的含義相吻合,根據回歸方程計算的Y的預測值在專業(yè)上有意義。,36,確定系數,,或稱,決定系數,,以反映回歸方程的效果好壞。,,本例,,=,0.79,,說明利用車流量、氣溫、氣濕和風速等,,四個因素可以解釋一氧化氮濃度的約,80,%的變異,可以,,認為回歸的效果較好,。,復相關系數,,(coefficient of multiple correlation),又稱多重相關系數,,,,,回歸系數的假設檢驗,,由于存在抽樣誤差,即使總體偏回歸系數為零,也可能得到樣本偏回歸系數不為零的情形,因此需要對偏回歸系數進行假設檢驗,以推斷總體偏回歸系數是否為零,。,,,,檢驗統計量為,,其中, 是第 個偏回歸系數的標準誤,,車流量、氣溫、風速對一氧化氮濃度的影響有統計學意義( ),,但是氣濕的影響沒有統計學意義( )。,)。,,,標準偏回歸系數,Standardized partial regression coefficient,所有變量標準化后做回歸,,,所得系數稱為標準偏回歸系數,.,,注意:,,,一般回歸系數,有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保持不變時, 增加或減少一個單位時,Y,的平均變化量。 不能用各 來比較各 對 的影響大小。,,,標準化回歸系數,無單位,用來比較各自變量對應變量的影響大小, 越大, 對 的影響越大。,第二節(jié) 回歸分析中變量的選擇,并不是事先考慮的所有的自變量對反應變量的影響都有統計學意義。,,在許多研究中,多因素線性回歸分析的目的是建立一個預測效果最優(yōu)的回歸模型,需要對自變量進行篩選:,,將對反應變量沒有影響的自變量從模型中剔除,將對反應變量的作用有意義的自變量納入模型當中。,殘差平方和( )縮小或確定系數( )增大,,,,越小越好!,越大越好!,,然而,,,,只要增加自變量個數,,,這個量就會減小,!?,自變量篩選的統計學標準,殘差的均方( )縮小或調整確定系數( )增大,,,,,自變量篩選的統計學標準,AIC,統計量,AIC,值達到最小,該模型為最佳模型,,AIC,準則,自變量篩選的統計學標準,自變量篩選的方法,最優(yōu)子集回歸分析法:,,,p,個變量有,2,p,-,1,個方程,,逐步回歸分析:,,向前引入法,(,forward selection,),,向后剔除法,(,backward selection,),,逐步引入-剔除法,(,stepwise selection,),,,(一)最優(yōu)子集回歸法,求出所有自變量可能組合子集的回歸方程的模型(共有,2,p,-,1,個),按一定準則選擇最優(yōu)模型,常用的準則有:,,① 校正決定系數或殘差的均方(考慮了自變量的個數),,②,AIC(Akaike`s Information Criterion),準則;,AIC,越小越好,,最優(yōu)子集法的局限性,,,如果自變量個數為,4,,則所有的回歸有,2,4,-,1,=,15,個;當自變量數個數為,10,時,所有可能的回歸為,2,10,-,1,=,1023,個;,……,..,;當自變量數個數為,50,時,所有可能的回歸為,2,50,-,1≈10,15,個。,,,前進法(,forward selection,),,后退法(,backward elimination,),,逐步回歸法(,stepwise regression,)。,它們的共同特點是每一步只引入或剔除一個自變量。決定其取舍則基于對,偏回歸平方和,的,F,檢驗,它表示在原有回歸方程基礎上引入或剔除某一自變量后所增加或減少的那部分回歸平方和,.,(二)逐步回歸分析,(,1,)前進法,,自變量從無到有、從少到多,,將偏回歸平方和最大且能使回歸系數檢驗拒絕者入選為第一個自變量;規(guī)定一個界值,,,接著將余下的變量中偏回歸平方和最大并使檢驗拒絕者選為第二個自變量;,……,,如此不斷引入新的自變量,直到再不能拒絕時為止。,,局限性:只進不出,后續(xù)變量的引入可能會使先進入方程的自變量變得不重要。,(,2,)后退法,,先將全部自變量放入方程,然后逐步剔除,,首先對全部候選變量作總的回歸,每次剔除一個偏回歸平方和最小而使回歸系數的檢驗不能拒絕者。,,直到再不能剔除時為止 。,,,,局限性:只出不進,,自變量高度相關時,可能得不出正確的結果;開始時剔除的變量即使后來變得有顯著性也不能再進入方程 。,(,3,)逐步回歸法,,雙向篩選(實際應用最多):,在向前引入的每一步之后都要考慮從已引入方程的變量中剔除相形見絀者,,引入,有意義的變量(前進法),,剔除,無意義的變量(后退法),先規(guī)定兩個閾值,P,引入,和,P,剔除,(,P,引入,<,P,剔除,),,當候選變量中最大,P,值≤,P,引入,時,引入相應變量;已進入方程的變量最小,P,值≥,P,剔除,時,剔除相應變量。如此交替進行直到無引入和無剔除為止(計算復雜),,,,,,多重線性回歸的應用,(,1,)定量地建立一個反應變量與多個解釋變量之間的線性關系。例如,建立肺活量的大小與身高、體重、年齡和性別之間的線性關系。,,(,2,)篩選危險因素。例如,篩選高血壓的危險因素。,,(,3,)通過較易測量的變量估計不易測量的變量。例如,建立嬰兒體表面積關于身高、體重、月齡的多因素線性回歸方程,可以通過容易測量的身高、體重、月齡等變量估計不易測量的體表面積。,,(,4,)通過解釋變量預測反應變量。例如,通過風速、汽車流量、氣溫等指標預測空氣中一氧化氮的濃度。,,(,5,)通過反應變量控制解釋變量。例如,在氣溫、風速不變的情況下,通過控制汽車流量來實現空氣中一氧化氮濃度不超過一定的水平。,多重線性回歸的應用,多重線性回歸應用時的注意事項,,1,.樣本含量,,2,.方程“最優(yōu)”問題,,3,.關于逐步回歸,,4,.多重共線性,,5.,啞變量設定,,6.,變量間的交互作用,,7.,殘差分析,多重共線性是指在進行多元回歸分析時,自變量間存在較強的線性相關關系。共線關系的存在,可使得,估計系數方差,加大,系數估計不穩(wěn),結果分析困難。因此在多因素線性回歸分析時,特別是當回歸結果難以用專業(yè)知識解釋時,要進行,共線性診斷,,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。,,對于存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結果的影響。剔除某個造成共線性的自變量,重建回歸方程;合并自變量;采用逐步回歸方法。,,4,.多重共線性,,多重共線性的表現在實際應用中主要表現為:,,(,1,)模型擬合效果很好,但偏回歸系數幾乎都,無統計學意義,;,,(,2,)偏回歸系數估計值的,方差,很大;,,(,3,)偏回歸系數估計值,不穩(wěn)定,,隨著樣本含量的增減各偏回歸系數發(fā)生較大變化或當一個自變量被引入或剔除時其余變量偏回歸系數有很大變化;,,(,4,)偏回歸系數估計值的大小與符號可能與事先期望的不一致或,與經驗相悖,,結果難以解釋,,出現以上表現,提示存在多重共線性問題,應進行多重共線性診斷。,,方差膨脹因子,VIF,(2),容忍度(,tolerance,),,,以每個自變量作為應變量,對其他自變量進行回歸分析時得到的殘差比例,大小用,1-R,2,來表示,該指標越小,則說明該自變量被其余變量預測的越精確,共線性可能越嚴重。如果自變量的容忍度小于,0.1,,則可能存在共線性問題。,5,啞變量的設定,2,分類,可用一個(,0,,,1,)變量。如性別,,k,分類,,k-1,個(,0,,,1,)變量,如血型。,,多重線性回歸分析有時先將有序變量或無序多分類變量轉換成為多個二分類變量之后,才能將它們引入回歸模型。,,,將有序變量或無序多分類變量轉換成為多個二分類變量的過程常被稱為“啞元化(,dummying,)”,,,得到的多個二分類變量稱為“啞變量(,dummy variable,)”。,,,一般情況下,若某定性變量有,k,個水平,就需要引入,k-1,個二值的啞變量。,,血型是一個無序多分類變量,它的取,“,值,”,是,A,、,B,、,AB,、,O,四種,,,可以用,3,個二分類變量來描述。令,,,表,11-5,用二分類啞變量描述血型,,,,,,,,,血型,變量,,,,,,,,1,0,0,,0,1,0,,0,0,1,,0,0,0,,(,1,)無序多分類變量 定量,,數據格式,回歸方程,,建立回歸方程,,,b,1,,:,相當,A,型相對于,O,型的差別,,b,2,,:相當,B,型相對于,O,型的差別,,b,3,,:相當,AB,型相對于,O,型的差別,,,,(,2,)等級,,定量。,,,一般是將等級從弱到強轉換為 (或,,)如文化程度分為小學、中學、大學、大學以上四個等級。,,Y,為經濟收入。,,,,解釋:,b(b,1,),反映,X,(,X,1,),增加,1,個單位,,,增加,b,個單位(如:,500,元)。 表示中學文化者較小學文化者收入多,500,,,,大學較中學多,500,,余類推。,b,1,,,b,2,,,b,3,分別反映中學、大學、大學以上相對于小學文化程度者經濟收入差別的大小,,也可將,K,個等級轉換為,K-1,個(,0,,,1,)變量,,為了檢驗兩個自變量是否具有交互作用,,,,普遍的做法是在方程中加入它們的乘積項。,6.,變量間的交互作用,例,2,,某項研究調查了,3334,名有心臟疾患的婦女,了解血清高密度脂蛋白膽固醇(,HDL cholesterol,,,mg/dl,)與體質指數(,body mass index, BMI, kg/m2,)的關系,考慮到是否患糖尿病(,DIABETES,)也是影響,HDL,水平的因素,因此建立了一個以體質指數、是否患糖尿病為自變量,,HDL,為反應變量的線性回歸方程,結果如表,13-4,所示。,表,13-4,以體質指數、是否患糖尿病為自變量的線性回歸方程,,變量,b,SE,t,P,95%CI,,BMI,-0.391,0.017,-22.531,0.000,-0.426,-0.357,DIABETES,-4.783,0.092,-52.207,0.000,-4.962,-4.603,CONSTANT,67.551,0.363,185.847,0.000,66.839,68.264,F=2441.323, P<0.001; R,2,=0.594, adjR,2,=0.594, Root MSE=2.02,模型假定HDL的平均水平隨BMI的變化而變化的規(guī)律在糖尿病婦女和非糖尿病組之間,,是相同的,表現為相同的偏回歸系數 -0.391,,,在多重線性回歸模型中引入一個新的自變量(,DMBMI,),定義為,BMI,和,DIABETES,的乘積,這個乘積項描述的是兩個自變量與反應變量之間的關系。由于兩個自變量已經在模型中,乘積項就可以解釋為交互作用。,表,13-5,以體質指數、是否患糖尿病為自變量,包含交互作用項的線性回歸結果,,Variable,b,SE,t,P,95%CI,,DIABETES,-11.340,0.965,-11.755,<0.001,-13.231,-9.448,BMI,-0.735,0.053,-13.822,<0.001,-0.839,-0.631,DMBMI,0.278,0.041,6.828,<0.001,0.198,0.358,CONSTANT,75.544,1.225,61.672,<0.001,73.142,77.945,F=1665.379, P=0.000; R,2,=0.600, adjR,2,=0.600, Root MSE=2.01,,,所以,對于非糖尿病人,有,,,對于患糖尿病的婦女,有,,,,反映了患糖尿病的婦女,HDL,與,BMI,的關系,,反映了非糖尿病患者,HDL,與,BMI,的關系,刻畫了糖尿病組和非糖尿病組的婦女HDL與BMI回歸關系的差異。,,,7.,殘差分析,,殘差定義為( )。通常使用殘差圖,(residual plot),作為一種直觀有效的非正式檢查方法。繪制殘差與反應變量的預測值的散點圖考察模型是否滿足線性和方差齊性,.,,,如果散點隨機地分布在以為中心的、與橫軸平行的的帶狀區(qū)域內,如圖(,a,)所示,就可以認為基本滿足線性和等方差的假定條件。,,圖(,b,)、(,c,)的散點呈現曲線趨勢,提示資料不滿足線性的假定。,,圖(,d,)、(,e,)、(,f,)顯示殘差隨 的變化而變化,提示資料不滿足方差齊的前提條件。,,圖(,g,)、(,h,)顯示殘差不僅隨 的變化而變化,而且散點呈現曲線趨勢,提示資料不滿足線性和方差齊性的前提條件。,,,二、多元相關分析,(,multiple correlation analysis),,研究兩個變量之間的關系時,所求出的相關系數為簡單相關系數。當存在,3,個(或以上)變量時,且彼此間有聯系,就需要作多元相關分析,。,,,,,,,83,,(,1,)數據形式,,,設研究問題中有,p,個指標變量,x1,、,x2,、,…,、,xp,,,n,個觀察對象,其數據結構見表,1,。,,表,1,多元偏相關分析數據結構,,編號,X1 X2,…,. XP,,1 x11 x21,…,x1p,,2 x12 x22,…,x2p,,3 x13 x23,…,x3p,,,…,,…,,…,,…,,…,,,n x1n x2n,…,xnp,,,,84,(,2,)偏相關系數,,(,partial correlation coefficient),,,研究兩個變量之間的關系時,所求出的相關系數為簡單相關系數。當存在,3,個(或以上)變量時,當把其中兩個變量以外的其他變量對它們的影響都扣除掉(或平衡掉)以后,求得的相關系數為,偏相關系數。,,,,,,,85,,一般地,,,設有三個變量,X1 ,X2,和,X3 ,,扣除,X3,的線性效應后,X1,和,X2,的偏相關系數記為,r,12,3,,,扣除,X1,的線性效應后,X2,和,X3,的偏相關系數記為,r,23,1,,,…,,,其絕對值介于,0,與,1,之間,可正可負。,,計算公式為:,,,,,其中分別代表,3,個變量的下標。,,,86,[,例,1],隨機抽查測得,9,名少年的身高,,,體重和胸圍值見表,2,。試問身高與胸圍的相互關系怎樣,?,,,表,2 9,名少年的身高,,,體重和胸圍值,,例號 體重,X1,胸圍,X2,身高,x3,,,1 14.0 53.5 95.5,,2 13.0 52.0 92.0,,3 12.5 53.5 89.0,,4 53.5 82.0 168.0,,5 11.0 48.0 91.0,,6 11.5 47.0 91.0,,7 12.5 50.0 91.0,,8 55.0 83.0 156.0,,9 51.0 79.0 163.0,,,87,若用簡單相關:,,r23=0.98293, P=0.0001,,說明身高與胸圍呈高度正相關,身高是隨胸圍增加而增加的。,,88,,身高是隨胸圍增加而增加這一結果與實際是,相矛盾的。,,,理論上說,身高與胸圍無關的。,,造成這一矛盾的主要原因是在考慮胸圍與身高的關系時,,,忽略了體重這一因素的影響。,,如果需要真正表示這兩個變量的相關關系,,,那么在必須除去其它變量的影響下,,,計算它們的偏相關系數。,89,,如:扣除,X1,計算,X2,與,X3,之間的偏相關系數。,,,,,得到:,r23,1=-0.25559, P=0.5412,,,說明如果沒有體重的影響,,,即假如兩個人的體重相同,,,則其中身高者,,,相對較瘦,(,胸圍小,),,身矮者,,,相對較胖,(,胸圍大,),。,,,P,值說明身高與胸圍的關系無統計學意義, 這與實際情況相符合,.,,操作過程,:,,,Analyze---correlate---partial---X2,與,X3,選入,variables----X1,選入,controlling----OK,,90,