醫(yī)學(xué)論文中的常見(jiàn)統(tǒng)計(jì)學(xué)錯(cuò)誤
單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,醫(yī)學(xué)論文中的常見(jiàn)統(tǒng)計(jì)學(xué)錯(cuò)誤,中國(guó)疾病預(yù)防控制中心,金水高,正確的統(tǒng)計(jì)學(xué)方法必須貫穿于從課題的統(tǒng)計(jì)設(shè)計(jì)到論文撰寫(xiě)的全過(guò)程。,不管是實(shí)驗(yàn)室研究、臨床研究還是現(xiàn)場(chǎng)調(diào)查,其數(shù)據(jù)的歸納整理,都要列成一定的標(biāo)準(zhǔn)格式,以便于進(jìn)行計(jì)算機(jī)的錄入及統(tǒng)計(jì)分析。,其基本要求為:,1.橫為記錄,縱為變量,2.對(duì)每個(gè)變量要起合適的變量名,3.對(duì)分類變量中用字符表示的取值在進(jìn)行計(jì)算機(jī)錄入時(shí)必須按照一定的規(guī)矩將其轉(zhuǎn)換為數(shù)值。,序號(hào),性別,年齡,職業(yè),治療,分組,收縮壓(mmHg),舒張壓(mmHg),心電圖,療效,001,男,23,工人,A,156,120,有效,002,男,32,農(nóng)民,B,132,89,顯效,表1高血壓患者治療周后的效果,序號(hào),ID,性別,年齡,民族,婚姻狀況,。,。,當(dāng)前吸煙狀況,吸煙量(支/日),。,001,1101,男,23,漢,未婚,。,。,不吸,。,00,1102,男,32,漢,已婚,。,。,吸,12,。,表2人,群危險(xiǎn)因素調(diào)查的數(shù)據(jù)格式,從統(tǒng)計(jì)學(xué)的角度,我們并不關(guān)心數(shù)據(jù)是來(lái)自臨床還是實(shí)驗(yàn)室還是現(xiàn)場(chǎng),我們首先關(guān)心的是:,數(shù)據(jù)中那些屬于研究者所關(guān)心的“產(chǎn)出”?即所謂的因變量反應(yīng)變量?這些往往是研究者的研究設(shè)計(jì)假設(shè)中的產(chǎn)出。,這些數(shù)據(jù)的屬性:是定性還是定量資料。,確定了所關(guān)心的研究產(chǎn)出后,其它的變量就都可以解釋為是這類變量的屬性。,研究者要做的工作是:,分析這些產(chǎn)出的基本情況,研究這些屬性是否對(duì)于他所關(guān)心的產(chǎn)出存在關(guān)聯(lián),或叫有影響。,這就是統(tǒng)計(jì)的幾件基本工作:,定水平,作比較,找關(guān)系。,一、計(jì)數(shù)資,料分析中的常見(jiàn)錯(cuò)誤舉例,率與構(gòu)成比,某研究想了解篩查與自查相比發(fā)現(xiàn)的肝癌病例分期是否存在差異,是否篩查更能發(fā)現(xiàn)早期肝癌病人。,一、計(jì)數(shù)資,料分析中的常見(jiàn)錯(cuò)誤舉例,率與構(gòu)成比(續(xù)),一、計(jì)數(shù)資,料分析中的錯(cuò)誤舉例,2.樣本量/,陽(yáng)性例數(shù)較少時(shí)的統(tǒng)計(jì)分析,某地區(qū)乙肝表面抗原陽(yáng)性率,5.04,178,3531,合計(jì),5.85,85,1453,15-,4.82,60,1245,10-,4.20,25,321,5-,5.75,5,87,4-,2.27,2,25,3-,4.26,4,56,2-,2.94,2,38,1-,陽(yáng)性率,(%),陽(yáng)性人數(shù),樣本人數(shù),年齡別,年齡組,樣本量,陽(yáng)性數(shù),陽(yáng)性率(%),1-,169,1,0.59,5-,292,7,2.40,10-,248,13,5.24,15-,130,11,8.46,某市乙肝表面抗原檢測(cè)結(jié)果,年齡組,東城,西城,南城,北城,1-,3.03,0.00,0.00,0.00,5-,0.00,7.14,4.76,3.08,10-,2.38,0.00,4.55,6.78,15-,0.00,18.18,9.52,0.00,某市各區(qū)的乙肝表面抗原陽(yáng)性率(%),一、計(jì)數(shù)資,料分析中的錯(cuò)誤舉例,3.一般的,2,檢驗(yàn),只能得到總的是否存在差異的結(jié)論。,月份,樣本量,陽(yáng)性人數(shù),陽(yáng)性率(,%,),3,1111,40,36.0,4,2491,53,21.3,5,1673,14,8.4,6,1463,8,5.5,7,623,2,3.2,8,521,8,15.4,9,136,1,7.4,某病不同月份檢出率,2,=58.16 P0.0000,一、計(jì)數(shù)資,料分析中的錯(cuò)誤舉例,類似這樣的錯(cuò)誤不僅存在于計(jì)數(shù)資料的統(tǒng)計(jì)分析中,經(jīng)常還發(fā)現(xiàn)于Logistic回歸的結(jié)果分析中。,不同職業(yè)對(duì)于某種職業(yè)腫瘤的危險(xiǎn)度分析,3.24,丁,0.58,丙,2.31,乙,1,甲,OR,職業(yè)類型,二、統(tǒng)計(jì)圖表的錯(cuò)誤使用,1.統(tǒng)計(jì)表的誤用:,主要是不符合主謂語(yǔ)要求。,在統(tǒng)計(jì)表中,要突出研究者所要分析的指標(biāo),要將其準(zhǔn)確的描述清楚,例如在不同條件下該指標(biāo)的變化、差異等。,因此一般,要將不同條件作為主語(yǔ),指標(biāo)作為謂語(yǔ)。,統(tǒng)計(jì)制表要符合主謂語(yǔ)的原則。,統(tǒng)計(jì)表的正確表達(dá)格式,組別,指標(biāo)1,指標(biāo)2,指標(biāo)3,指標(biāo)4,甲,乙,丙,丁,主謂語(yǔ)顛倒的例子,正確的表達(dá)方式,二、統(tǒng)計(jì)圖表的錯(cuò)誤使用,2.統(tǒng)計(jì)圖的誤用:,1)線圖的誤用:線圖只能用于描述某個(gè)指標(biāo)(如吸煙率)隨定量指標(biāo)(如時(shí)間、身高)發(fā)生變化的情況。而不能用來(lái)描述某個(gè)指標(biāo)(如吸煙率)在某個(gè)定性/分類指標(biāo)不同取值/分類(如地區(qū))之間的差異。因?yàn)榉诸愔笜?biāo)中的各個(gè)分類值之間沒(méi)有大小的關(guān)系。,2)圖的濫用:在PPT中用圖比較清晰,而在論文中除非表示趨勢(shì),一般不建議用圖。,二、統(tǒng)計(jì)圖表的錯(cuò)誤使用,錯(cuò)誤的橫坐標(biāo)表示正確的橫坐標(biāo)表示,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,啞變量設(shè)置中的錯(cuò)誤,比數(shù)比與相對(duì)危險(xiǎn)度的關(guān)系,用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),比數(shù)比與相對(duì)危險(xiǎn)度的正確解釋(因素之間作用大小的比較),三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,啞變量設(shè)置中的錯(cuò)誤,下例是一個(gè)有關(guān)分類變量賦值的例子:,某個(gè)吸煙調(diào)查中一些自變量的意義及賦值,變量名變量意義 變量可能取值研究者對(duì)變量的賦值,A,如果想要煙,你認(rèn)為 非常容易;,1,你能容易得到嗎?有點(diǎn)容易;,2,有點(diǎn)困難;,3,非常困難。,4,B,在過(guò)去的一個(gè)月里,沒(méi)有看到過(guò);,1,你是否在電視里看到 看到過(guò),是關(guān)于反對(duì)吸煙的;,2,過(guò)有關(guān)吸煙的任何內(nèi)容?看到過(guò),是關(guān)于贊成吸煙的;,3,看到過(guò),反對(duì)與贊成的都有。,4,C,你的祖母是否吸煙?不吸;,1,不知道;,2,吸煙。,3,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,啞變量設(shè)置中的錯(cuò)誤:,存在的主要問(wèn)題剖析:,變量,A,、,B,、,C,均為分類變量,而分類變量的各個(gè)分類值之間是沒(méi)有大小的。,解決的辦法:設(shè)置啞變量。,用啞變量表示變量,B,的取值可能,可能回答,B1B2B3,沒(méi)有看到過(guò),000,看到過(guò),是關(guān)于反對(duì)吸煙的,100,看到過(guò),是關(guān)于贊成吸煙的,010,看到過(guò),反對(duì)與贊成的都有,001,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,2.比數(shù)比與相對(duì)危險(xiǎn)度的關(guān)系:,隊(duì)列研究中暴露與患病的關(guān)系,暴露情況患病情況合計(jì),患病未得病,暴露組,a ba+b,未暴露組,c dc+d,合計(jì),a+cb+da+b+c+d,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,2.比數(shù)比與相對(duì)危險(xiǎn)度的關(guān)系:,相對(duì)危險(xiǎn)度:,RR =a(a+b)/c(c+d),=a(c+d)/c(a+b),比數(shù)比:,OR =,a(a+b)/b(a+b)/c(c+d)/d(c+d),=(ad)/(bc),當(dāng),,a (a+b),c(c+d)時(shí),可以有,a(a+b)ab 及c(c+d)cd,此時(shí),才可以有:RROR,因此要分析什么時(shí)候存在這種關(guān)系,什么時(shí)候不存在。,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,3.用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),假設(shè)在研究吸煙與一些因素的關(guān)系時(shí),擬合了下列形式的Logistic回歸方程:,Logit(P|y=1)=b0+b1 B1+b2 B2+b3 B3+b4(SEX)+b5(AGE),y=1為吸煙,y=0 為不吸煙。,AGE為年齡(歲)。,SEX為性別,SEX=1為男性,SEX=0為女性。,B1,B2,B3的定義同前。,b0為截距,b1-b5分別為各自變量的偏回歸系數(shù)。,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,3.用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),我們的研究設(shè)想是比較看到過(guò)煙草廣告不同情況對(duì)于吸煙的影響。進(jìn)行比較的指標(biāo)是OR。因此要估計(jì)不同情況下的OR大小。,自變量第一個(gè)水平,B1=0,B2=0,B3=0,其比數(shù)為:,P0/(1-P0)=expb0+b4(SEX)+b5(AGE)。,第二水平:B1=1,B2=0,B3=0,P2/(1-P2)=expb0+b1+b4(SEX)+b5(AGE)。,第三水平:B1=0,B2=1,B3=0,P3/(1-P3)=expb0+b2+b4(SEX)+b5(AGE)。,第四水平:B1=0,B2=0,B3=1,P4/(1-P4)=expb0+b3+b4(SEX)+b5(AGE)。,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,3.用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),自變量的第二水平(看到過(guò)關(guān)于反對(duì)吸煙廣告的組)與對(duì)照組(沒(méi)有看到過(guò)任何吸煙廣告組)的OR為:,OR(二水平:一水平),=expb0+b1+b4(SEX)+b5(AGE)/expb0+b4(SEX)+b5(AGE),=exp(b1)。,其他各組與對(duì)照組的OR可以仿照計(jì)算。即,,OR(三水平:一水平)=exp(b2),OR(四水平:一水平)=exp(b3)。,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,3.用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),設(shè)置為啞變量后各水平之間的比數(shù)比,變量水平 一水平 二水平 三水平四水平,對(duì)照(一水平),1 exp(-b1)exp(-b2)exp(-b3),二水平,exp(b1),1,exp(b1-b2)exp(b1-b3),三水平,exp(b2),exp(b2-b1),1,exp(b2-b3),四水平,exp(b3),exp(b3-b1),exp(b3-b2),1,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,3.用啞變量表示的自變量各個(gè)水平之間的比數(shù)比的估計(jì),設(shè)置為啞變量后各水平之間的比數(shù)比,變量水平 一水平 二水平三水平 四水平,對(duì)照(一水平),1 1.56 3.56 0.86,二水平,0.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,4.比數(shù)比及相對(duì)危險(xiǎn)度的正確解釋,某文獻(xiàn)在研究影響婦女產(chǎn)前檢查的可能因素時(shí),擬合了一個(gè)Logistic回歸模型。在進(jìn)行分析后,認(rèn)為由于量綱相同,可以由回歸系數(shù)的絕對(duì)值直接判定它們與產(chǎn)前檢查關(guān)聯(lián)強(qiáng)弱。其結(jié)論為:孕產(chǎn)期衛(wèi)生知識(shí)婦女文化程度婦女年齡丈夫文化程度丈夫職業(yè)家庭距衛(wèi)生院距離。,三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,4.比數(shù)比及相對(duì)危險(xiǎn)度的正確解釋,某文獻(xiàn)對(duì)一些自變量的設(shè)置,變量名分組,年齡1:15-2:20-45,婦女受教育程度1:初中以下 2:初中及以上,丈夫的職業(yè)1:農(nóng)業(yè) 2:非農(nóng)業(yè),三、Logistic 回歸中的主要統(tǒng)計(jì)學(xué)錯(cuò)誤,4.比數(shù)比及相對(duì)危險(xiǎn)度的正確解釋,設(shè)置為啞變量后各水平之間的比數(shù)比,變量水平 一水平 二水平三水平 四水平,對(duì)照(一水平),1 1.56 3.56 0.86,二水平,0.64,1,0.44 1.81,三水平,0.28,2.28 1 4.14,四水平,1.16,0.55 0.24 1,謝謝,