《統(tǒng)計(jì)學(xué)之虛擬變量》由會員分享,可在線閱讀,更多相關(guān)《統(tǒng)計(jì)學(xué)之虛擬變量(48頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,本資料來源,第七章 含有定性信息的多元回歸模型,-,虛擬變量,一、虛擬變量的基本含義,二、虛擬變量的引入,三、虛擬變量的設(shè)置原則,四、虛擬因變量的模型,-,二值選擇的線性概率模型,一、虛擬變量的基本含義,許多經(jīng)濟(jì)變量是,可以定量度量,的,,如:,商品需求量、價格、收入、產(chǎn)
2、量等。,但也有一些影響經(jīng)濟(jì)變量的因素,無法定量度量,,,如:,職業(yè)、性別對收入的影響,戰(zhàn)爭、自然災(zāi)害對,GDP,的影響,季節(jié)對某些產(chǎn)品(如冷飲)銷售的影響等等。,為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。,這種“量化”通常是通過引入“虛擬變量”來完成的。根據(jù)這些因素的屬性類型,構(gòu)造只取“,0”,或“,1”,的人工變量,通常稱為,虛擬變量,(,dummy variables,),記為,D,。,例如,,反映文化程度的虛擬變量可取為,:,1,,本科學(xué)歷,D=,0,,非本科學(xué)歷,一般地,在虛擬變量的設(shè)置中:,基礎(chǔ)類型、肯定類型取值為,1,;,比較類型,否定類型取值為,0
3、,。,概念:,同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析,(,analysis-of variance:ANOVA,),模型,。,一個以性別為虛擬變量考察企業(yè)職工薪金的模型:,其中:,Y,i,為企業(yè)職工的薪金,,X,i,為工齡,,D,i,=1,,若是男性,,D,i,=0,,若是女性。,二、虛擬變量的引入,虛擬變量做為解釋變量引入模型有兩種基本方式:,加法方式,和,乘法方式,。,上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。,在該模型中,如果仍假定,E(,i,)=0,,則,企業(yè)女職工的平均薪金為:,1.,加法方式,企業(yè)男職工的平均薪金為:,幾何意義:,假定,20,
4、,則兩個函數(shù)有相同的斜率,但有不同的截距。意即,男女職工平均薪金對工齡的變化率是一樣的,但兩者的平均薪金水平相差,2,。,可以通過傳統(tǒng)的回歸檢驗(yàn),,對,2,的統(tǒng)計(jì)顯著性進(jìn)行檢驗(yàn),以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。,0,2,又例,:在橫截面數(shù)據(jù)基礎(chǔ)上,考慮個人保健支出對個人收入和教育水平的回歸。,教育水平考慮三個層次:高中以下,,高中,,大學(xué)及其以上。,這時需要引入兩個虛擬變量:,模型可設(shè)定如下:,在,E(,i,)=0,的初始假定下,高中以下、高中、大學(xué)及其以上教育水平下個人保健支出的函數(shù):,高中以下:,高中:,大學(xué)及其以上:,假定,3,2,,其幾何意義:,還可將多個虛擬變量引入模
5、型中以考察多種“定性”因素的影響。,如,在上述職工薪金的例中,再引入代表學(xué)歷的虛擬變量,D,2,:,本科及以上學(xué)歷,本科以下學(xué)歷,職工薪金的回歸模型可設(shè)計(jì)為:,女職工本科以下學(xué)歷的平均薪金:,女職工本科以上學(xué)歷的平均薪金:,于是,不同性別、不同學(xué)歷職工的平均薪金分別為:,男職工本科以下學(xué)歷的平均薪金:,男職工本科以上學(xué)歷的平均薪金:,2.,乘法方式,加法方式引入虛擬變量,考察:,截距的不同。,許多情況下:往往是斜率就有變化,,或斜率、截距同時發(fā)生變化,。,斜率的變化可通過以乘法的方式引入虛擬變量來測度,。,例,:,根據(jù)消費(fèi)理論,消費(fèi)水平,C,主要取決于收入水平,Y,,但在一個較長的時期,人們的
6、消費(fèi)傾向會發(fā)生變化,尤其是在自然災(zāi)害、戰(zhàn)爭等反常年份,消費(fèi)傾向往往出現(xiàn)變化。這種消費(fèi)傾向的變化可通過在收入的系數(shù)中引入虛擬變量來考察。,如,設(shè),消費(fèi)模型可建立如下:,這里,虛擬變量,D,以與,X,相乘的方式引入了模型中,從而可用來考察消費(fèi)傾向的變化。,假定,E(,i,)=0,,,上述模型所表示的函數(shù)可化為:,正常年份:,反常年份:,當(dāng)截距與斜率發(fā)生變化時,則需要同時引入加法與乘法形式的虛擬變量,。,例,,,考察,1990,年前后的中國居民的總儲蓄,-,收入關(guān)系是否已發(fā)生變化。,表中給出了中國,19792001,年以城鄉(xiāng)儲蓄存款余額代表的居民儲蓄以及以,GNP,代表的居民收入的數(shù)據(jù)。,以,Y,為
7、儲蓄,,X,為收入,可令:,1990,年前:,Y,i,=,1,+,2,X,i,+,1i,i=1,2,n,1,1990,年后:,Y,i,=,1,+,2,X,i,+,2i,i=1,2,n,2,則有可能出現(xiàn)下述四種情況中的一種:,(1),1,=,1,,且,2,=,2,,即兩個回歸相同,稱為,重合回歸,(,Coincident Regressions,);,(2),1,1,但,2,=,2,,即兩個回歸的差異僅在其截距,稱為,平行回歸,(,Parallel Regressions,),;,(3),1,=,1,,但,2,2,,即兩個回歸的差異僅在其斜率,稱為,匯合回歸,(,Concurrent Regre
8、ssions,),;,(4),1,1,,且,2,2,,即兩個回歸完全不同,稱為,相異回歸,(,Dissimilar Regressions,)。,平行回歸,匯合回歸,相異回歸,可以運(yùn)用,鄒氏結(jié)構(gòu)變化的檢驗(yàn),。這一問題也可通過引入乘法形式的虛擬變量來解決。,將,n,1,與,n,2,次觀察值合并,并用以估計(jì)以下回歸:,D,i,為引入的虛擬變量:,于是有:,可分別表示,1990,年,后期,與,前期,的儲蓄函數(shù)。,在統(tǒng)計(jì)檢驗(yàn)中,如果,3,=0,的假設(shè)被拒絕,則說明兩個時期中儲蓄函數(shù)的截距不同,,如果,4,=0,的假設(shè)被拒絕,則說明兩個時期中儲蓄函數(shù)的斜率不同。,具體的回歸結(jié)果為:,(-6.11)(22
9、.89)(4.33)(-2.55),由,3,與,4,的,t,檢驗(yàn)可知:參數(shù)顯著地不等于,0,,強(qiáng)烈示出兩個時期的回歸是相異的,,儲蓄函數(shù)分別為:,1990,年前:,1990,年后:,=0.9836,鄒氏結(jié)構(gòu)變化的檢驗(yàn)和虛擬變量法的比較,鄒檢驗(yàn)只是告訴我們結(jié)構(gòu)是否已經(jīng)變化,而不能告訴我們當(dāng)有變化時候是因?yàn)橹皇切甭氏喈惢蛑皇墙鼐嘞喈?,或兩者均相異。但是虛擬變量法不僅告訴我們兩個回歸是否有差異,而且落實(shí)到差異的起因,由于截距或由于斜率或由于兩者。,我們只要做一個回歸,因?yàn)槠渌幕貧w可以方便地由它導(dǎo)出。,這個單一的回歸可以用來做各種假設(shè)檢驗(yàn)。,由于合并而增加了自由度,參數(shù)估計(jì)的相對精度也有所改進(jìn)。,3
10、.,臨界指標(biāo)的虛擬變量的引入(分段回歸),在經(jīng)濟(jì)發(fā)生轉(zhuǎn)折時期,可通過建立臨界指標(biāo)的虛擬變量模型來反映。,例如,,進(jìn)口消費(fèi)品數(shù)量,Y,主要取決于國民收入,X,的多少,中國在改革開放前后,,Y,對,X,的回歸關(guān)系明顯不同。,則進(jìn)口消費(fèi)品的回歸模型可建立如下:,這時,可以,t*=1979,年為轉(zhuǎn)折期,以,1979,年的國民收入,Xt*,為臨界值,設(shè)如下虛擬變量:,OLS,法得到該模型的回歸方程為:,則兩時期進(jìn)口消費(fèi)品函數(shù)分別為:,當(dāng),tt*=1979,年,,當(dāng),t,t*=1979,年,,三、虛擬變量的設(shè)置原則,虛擬變量的個數(shù)須按以下原則確定:,每一定性變量所需的虛擬變量個數(shù)要比該定性變量的類別數(shù)少,
11、1,,即如果有,m,個定性變量,只在模型中引入,m-1,個虛擬變量。,例,已知冷飲的銷售量,Y,除受,k,種定量變量,X,k,的影響外,還受春、夏、秋、冬四季變化的影響,要考察該四季的影響,只需引入三個虛擬變量即可:,則冷飲銷售量的模型為:,在上述模型中,若再引入第四個虛擬變量:,則冷飲銷售模型變量為:,其矩陣形式為:,如果只取六個觀測值,其中春季與夏季取了兩次,秋、冬各取到一次觀測值,則式中的:,顯然,,(,X,D,),中的第,1,列可表示成后,4,列的線性組合,從而,(,X,D,),不滿秩,參數(shù)無法唯一求出。,這就是所謂的“,虛擬變量陷阱,”,,應(yīng)避免。,四、虛擬因變量模型,-,二值選擇的
12、線性概率模型,演講完畢,謝謝觀看!,內(nèi)容總結(jié),本資料來源。但也有一些影響經(jīng)濟(jì)變量的因素?zé)o法定量度量,如:職業(yè)、性別對收入的影響,戰(zhàn)爭、自然災(zāi)害對GDP的影響,季節(jié)對某些產(chǎn)品(如冷飲)銷售的影響等等?;A(chǔ)類型、肯定類型取值為1。比較類型,否定類型取值為0。意即,男女職工平均薪金對工齡的變化率是一樣的,但兩者的平均薪金水平相差2。在E(i)=0 的初始假定下,高中以下、高中、大學(xué)及其以上教育水平下個人保健支出的函數(shù):。如在上述職工薪金的例中,再引入代表學(xué)歷的虛擬變量D2:。斜率的變化可通過以乘法的方式引入虛擬變量來測度。例:根據(jù)消費(fèi)理論,消費(fèi)水平C主要取決于收入水平Y(jié),但在一個較長的時期,人們的消費(fèi)傾向會發(fā)生變化,尤其是在自然災(zāi)害、戰(zhàn)爭等反常年份,消費(fèi)傾向往往出現(xiàn)變化。這種消費(fèi)傾向的變化可通過在收入的系數(shù)中引入虛擬變量來考察。這里,虛擬變量D以與X相乘的方式引入了模型中,從而可用來考察消費(fèi)傾向的變化。鄒氏結(jié)構(gòu)變化的檢驗(yàn)和虛擬變量法的比較。演講完畢,謝謝觀看,