Normality Test - 艾比酷統計顧問 Epic Data Studio
文章推薦指數: 80 %
常態分布是母數方法中重要的前提假設,要如何檢定常態性? 圖形方法和統計方法又該怎選擇? 本文簡介常態檢定的常見方法及對應的SAS 語法。
Skiptocontent
byEpicDataStudioPostedon255月,20203012月,2020
每年八月至十一月是蘋果的收成期,果園裡的蘋果結實累累,你細心的剪去多餘的樹葉,讓蘋果均勻日晒,以便好上色變紅。
一陣辛勤工作之後,你忽然想知道今年的收成如何,所以你在蘋果樹間來回穿梭,隨機測量了一些蘋果的大小。
那麼,你心裡嘀估著:「要如何知道這些蘋果能否代表整個蘋果園的收成情形呢?」。
這時候我們需要「常態性檢定」。
什麼是常態分布
常態分布及其特色
在進行常態性檢定之前,我們先看看常態分布是什麼樣子。
由圖可知,曲線左右對稱且資料集中在正中央,再向二個尾端遞減,所以呈現出一種「鐘形曲線」。
這樣的曲線最早在1733年由法國數學家棣美弗(AbrahamdeMoivre)在投擲硬幣時所觀察到,並在他出版的書中介紹此概念(此書在當時可算是賭客們的指南書)。
隨後由才華洋溢的德國數學家、又名「數學王子」的高斯(JohannCarlFriedrichGauss)所確立。
而最早將常態分布應用在醫學領域上的則是達爾文的表兄弟、高爾頓爵士(SirFrancisGalton)。
常態分布還有一些特性例如:
平均值、中位數和眾數,三者是同一個值大約有68%的觀測值會落在中央左右二側的一個標準差σ之內,95%的觀測值會落在二個標準差之內常態曲線以平均值μ為中心,左右兩側正負一個標準差σ的地方,即曲線上所謂的反曲點(infectionpoint)理論上這個曲線會向二個尾端無限延伸
自然界中具有這種形態分布的資料十分常見,例如身高體重、智商、蘋果的大小、甚至銀河系星光的亮度等。
數學家們也很早就注意到,這個分布完全由群體的平均值μ和標準差σ所決定。
也就是說,一旦知道了平均值和標準差,就可以掌握這個群體的所有資訊。
為什麼要檢定常態性
一些我們熟知的母數統計方法(parametricstatisticalmethods)像是t-test、ANOVA、Pearsoncorrelation以及linearregression等,他們的基本假設之一就是「依變項(dependentvariable)須接近常態分布」。
如果違反此假設的話,統計結果的解釋與推論可能是不正確的。
如何檢定常態性
檢定的方法可大致區分為圖形檢驗和統計檢驗。
圖形檢驗以視覺化的方式,呈現隨機變數的分布情形,或者比對樣本分布與理論分布(例如標準常態分布)的差異。
圖形檢驗
Stem-and-leafplot,boxplot,dotplot,histogramP-Pplot,Q-Qplot
統計檢驗則呈現資料的基本描述如偏態(Skewness)與峰度(Kurtosis),或者執行常態檢定的統計分析。
統計檢驗:
Skewness,KurtosisShapiro-Wilk,Shapiro-Franciatest,Kolmogorov-Smirnovtest(Lilleforstest),Anderson-Darlingtest,Cramer-vonMisestests,Jarque-Beratest,Skewness-Kurtosistest
常見的圖形檢驗法
Histogram
直方圖是最直觀的方法,從資料頻率分布的輪廓,就可以直接檢視資料的分布情形是否接近鐘形。
Boxplot
箱形圖也是大家熟知的圖形,依序由最小值、第一四分位、中位數、第三四分位、最大值,以及離群值組成。
箱子本身的形狀告訴了我們資料大致的分布狀況,如果分布是常態的,則Q1和Q3會對稱於中位數,且中位數會在箱子的正中央。
離群值會影響分布,可是有時為了要十分符合常態分布,反而需要有很少部分的離群值。
箱形圖的好處是,我們不必計算平均數和標準差,就可以大約知道資料的散布情形。
也因為如此,在分辦資料為非常態分布的能力較好一些。
Q-Qplot
Q-Qplot以資料的分位數(quantile,Y軸)對上欲檢驗分布的理論分位數(X軸)作圖,以圖示的方法,比較這兩個機率分布之間的型態為何。
資料點散佈於圖上,並有一條常態線做為比較基準。
換句話說,如果樣本資料接近常態分布,那麼資料點也會非常靠近基準線。
圖形檢驗的圖會在下文的範例中呈現。
常見的統計檢驗法
SkewnessandKurtosis
偏態(Skewness)主要用來衡量單峰分布的「對稱性」,以偏態係數β1來表示。
如果β1>0,即所謂的正偏態或右偏(Positiveskewness),也就是分布集中在平均值之下;反之β1<0時為負偏態或左偏(Negativeskewness),分布集中在平均值之上。
如果是向中央對稱的分布,偏態係數β1=0。
峰度(Kurtosis)用來衡量高峰分布的「高低」,以峰度係數β2來表示。
常態分布的β2等於3,以此做為分界的話,β2>3表示資料集中在平均值附近及尾巴較長,屬於「高瘦」型的尖峰態(leptokurtic),如果β2<3,則資料聚集在平均值附近但較「圓胖」型的低峰態(platykurtic)。
一般來說,會同時考量分布的偏態與峰度,以偏態係數愈接近0(-0.5~0.5)與峰度係數愈接近3(或峰度係數減3為0)做為標準常態分布的判斷依據。
同時,偏態和峰度也都會受到樣本數大小的影響。
資料分布的偏態
資料分布的峰度
(圖引用自這個post)
Shapiro-Wilktest
Shapiro-Wilktest是最常使用的常態性檢測工具,他可以告訴我們隨機抽取出來的樣本是否來自於常態分布,當統計值W愈小,表示資料愈不可能來自常態分布。
Kolmogorov-Smirnovtest
Kolmogorov-Smirnovtest是1933年由Kolmogorov所建立,隨後在1948年由Smirnov所修訂,可檢定樣本是否吻合某個特定的分布(在這裡指的是常態分布),統計值D愈大,表示資料愈不可能來自常態分布。
Anderson-Darlingtest
Anderson-Darlingtest由Kolmogorov-Smirnovtest修改而來,同樣可檢定樣本是否吻合某個特定的分布,統計值A2愈大,表示資料愈不可能來自常態分布。
Cramer-vonMisestest
Cramer-vonMisestest是一種利用經驗分布函數(empiricaldistributionfunction)來檢測常態分布的方法,類似於Anderson-Darling,統計值W2愈大,表示資料愈不可能來自常態分布。
以SAS分析為例
統計軟體SAS提供上述常見的常態性檢定方法,我們以SAS內建的資料檔iris為例:
PROCUNIVARIATEdata=sashelp.irisNORMALPLOT;
VARSepalLength;
HISTOGRAMSepalLength/NORMAL;
QQPLOTSepalLength/NORMAL(mu=ESTsigma=EST);
INSETMEANSTD/CFILL=BLANKFORMAT=5.2;
run;
NORMALoption→請SAS執行常態性檢定
PLOToption→請SAS畫出莖葉圖及箱形圖
SepalLength→鳶尾花的花萼長度,此次範例的主要分析變項
HISTOGRAM→請SAS畫出資料的直方圖
QQPLOT→請SAS畫出資料的Q-Qplot
INSETstatement→請SAS在圖上加入摘要統計量
SAS提供的直方圖(Histogram)
SAS提供的莖葉圖(Stem-and-LeafDiagram)與箱形圖(Box-plot)
SAS提供的Q-Qplot及其統計量
從結果來看,鳶尾花花萼長度(SepalLength)平均值為58.4,中位數為58.0,兩者相當接近。
偏態為0.31,峰度為-0.55,也都很接近零。
由直方圖、箱形圖以及Q-Qplot也顯示樣本資料近似常態分布。
然而,這種描述性(圖形化)統計的結果,無法給予決定性的資訊說明樣本是否真的有近似常態分布。
統計檢定的部分:
SAS的常態性檢定提供四種常見的檢定方法,其檢定假設為:
H0:Thesampledataarenotsignificantlydifferentthananormalpopulation.Ha:Thesampledataaresignificantlydifferentthananormalpopulation.
→如果接受虛無假設H0,表示(有信心相信)資料近似常態分布
由統計結果來看,四種檢定方法的統計量與p值雖然不盡相同,但都拒絕了虛無假設(接受了替代假說Ha),也就是樣本資料不符合常態分布,和上述圖形化直觀方式的結果正好相反。
那麼,為什麼會出現這種違反直觀(直覺)的情況呢?實際上這種現象可能經常會出現,以下方的圖示為例:
虛擬變項H1~H6的直方圖分布
這六組虛疑資料的分布看起來離鐘形曲線都有些落差,可是實際上,他們在統計上全部都近似常態分布,但無法從直方圖主觀做出判斷。
會有這種誤判是因為,直方圖的圖形分布會受到主觀分組範圍的影響,也就是分組大小會產生完全不同的圖形,例如完全相同的H1變項所畫的二個直方圖:
變項H1的二種不同分組方式
左圖看起來不太像常態分布,右圖則像比較像常態分布,而實際上二者的差別只是因為分組大小不同所產生的視覺誤差。
結論:我該使用哪一種方法?
圖形化檢定方式直覺而且好解釋,是否接近常態分布帶有相當的主觀成分。
統計檢定則提供客觀的方式檢定常態性。
所以整體來說,若數種不同的統計檢定常態性的結果相似,就可以相信資料的常態性(有信心這組數據可以用來預測今年蘋果產量);然而,如果統計結果之間的差異很大,可以選擇Shapiro-Wilktest。
有些模擬數據的研究指出,在比較偵測非常態性資料的能力時,Shapiro-Wilktest有最好的檢測力,且需要的樣本數最小。
也就是說,當樣本數愈大時,各種統計檢定方法偵測常態性的能力愈好,而當樣本數不大時(例如n=100~200),Shapiro-Wilktest會是最推薦的方法,Anderson-Darlingtest則是次佳的選擇。
要注意的是,當樣本數太小時(例如n<50,甚至n<30),各種檢定能力都會大打扣折,增加錯誤判斷的風險。
那麼,如果檢定結果是非常態,又該怎麼做呢?
下一期我們再聊「非常態」與「檢定非常態」。
參考文獻:
RazaliNM,WahYB.PowercomparisonsofShapiro–Wilk,Kolmogorov–Smirnov,LillieforsandAnderson–Darlingtests.JStatModellAnal2011;2(1):21–33.
AhadNA,YinTS,OthmanAR&YaacobCR.SensitivityofNormalityTesttoNon-normalData.SainsMalaysiana,2011;40(6):637-641.
PublishedbyEpicDataStudio
ViewallpostsbyEpicDataStudio
文章導覽
NextHowtoDealwithNon-normalityData
OneReplyto“NormalityTest”
自動引用通知:HowtoDealwithNon-normalityData–EpicDataStudio
如有任何問題和意見歡迎提出取消回覆
網站地圖防疫新生活
防疫期間待在家沒事做嗎?就來艾比酷網站逛逛吧,補充滿滿的知識力!!
Searchfor:
Search
近期文章
SASlag的相反等於lead?LEADinSAS
WhatAreWeWeightingfor?PropensityScoreWeightingUsingOverlapWeights傾向分數的精準平衡
PicturingYourFormatswithPROCFORMAT用PICTUREstatement描繪你的格式
SampleSizeofSingle-stageDesigninPhaseIIClinicalTrial單階段臨床試驗的樣本數打哪來
RareEventsandSASPROCLOGISTIC稀少事件如何解?
近期留言「EpicDataStudio」於〈你今天高效率了嗎?高效思考聰明使用SAS–SASSortInformation〉發佈留言「May」於〈你今天高效率了嗎?高效思考聰明使用SAS–SASSortInformation〉發佈留言「WorkingwithSASPROCSQL,HighFivetoSUBQUERY-EpicDataStudio」於〈HowtofindoutthemaxtwovaluesofonesubjectusingSAS&R〉發佈留言「HowtoDealwithNon-normalityData–EpicDataStudio」於〈NormalityTest〉發佈留言分類
就是R
統計觀念
聰明使用SAS
臨床試驗
好網站不訂閱嗎
輸入你的電子郵件地址,即時獲取最新文章通知。
電子郵件位址
訂閱我
延伸文章資訊
- 1常態分配(Normal Distribution) - 小小整理網站Smallcollation
常態分配(Normal Distribution) · 一、 · 2.常態曲線最重要的特性是: · A.其形狀為左右對稱若鐘形之曲線。 · 【注意:對稱不一定為常態分布,但常態分布一定為對稱】 ...
- 2第五章常態分配(The Normal Distribution)
3、 以機率的方式來表達前述之面積。 貳、前言. 常態曲線(The Normal Curve) 及常態分配的觀念,在統計中十分. 重要,它們是 ...
- 3內科部研究能力課程(二) 連續型變數之統計檢定
- 4Normality Test (樣本分佈的常態檢定) - The first step for ...
因此, 本篇文章討論的重點是, 如何確認抽樣所得的樣本數據分佈呈常態分佈. 在計算Process Capability前所需要做的第一步, 拿出手頭上的統計軟體, for ...
- 5單一樣本Kolmogorov-Smirnov 檢定 - IBM
此適合度檢定會檢定觀察值是否能合理地來自指定的分佈。 從27.0 版開始,Lilliefors 檢定統計可用於估算p 值,方法是使用Monte Carlo 取樣來針對使用估算的參數的常態分佈 ...