Normality Test - 艾比酷統計顧問 Epic Data Studio

2024-11-20

文章推薦指數： 80 %

投票人數：10人

常態分布是母數方法中重要的前提假設，要如何檢定常態性? 圖形方法和統計方法又該怎選擇? 本文簡介常態檢定的常見方法及對應的SAS 語法。

Skiptocontent byEpicDataStudioPostedon255月,20203012月,2020 每年八月至十一月是蘋果的收成期，果園裡的蘋果結實累累，你細心的剪去多餘的樹葉，讓蘋果均勻日晒，以便好上色變紅。

一陣辛勤工作之後，你忽然想知道今年的收成如何，所以你在蘋果樹間來回穿梭，隨機測量了一些蘋果的大小。

那麼，你心裡嘀估著：「要如何知道這些蘋果能否代表整個蘋果園的收成情形呢?」。

這時候我們需要「常態性檢定」。

什麼是常態分布常態分布及其特色在進行常態性檢定之前，我們先看看常態分布是什麼樣子。

由圖可知，曲線左右對稱且資料集中在正中央，再向二個尾端遞減，所以呈現出一種「鐘形曲線」。

這樣的曲線最早在1733年由法國數學家棣美弗(AbrahamdeMoivre)在投擲硬幣時所觀察到，並在他出版的書中介紹此概念(此書在當時可算是賭客們的指南書)。

隨後由才華洋溢的德國數學家、又名「數學王子」的高斯(JohannCarlFriedrichGauss)所確立。

而最早將常態分布應用在醫學領域上的則是達爾文的表兄弟、高爾頓爵士(SirFrancisGalton)。

常態分布還有一些特性例如：平均值、中位數和眾數，三者是同一個值大約有68%的觀測值會落在中央左右二側的一個標準差σ之內，95%的觀測值會落在二個標準差之內常態曲線以平均值μ為中心，左右兩側正負一個標準差σ的地方，即曲線上所謂的反曲點(infectionpoint)理論上這個曲線會向二個尾端無限延伸自然界中具有這種形態分布的資料十分常見，例如身高體重、智商、蘋果的大小、甚至銀河系星光的亮度等。

數學家們也很早就注意到，這個分布完全由群體的平均值μ和標準差σ所決定。

也就是說，一旦知道了平均值和標準差，就可以掌握這個群體的所有資訊。

為什麼要檢定常態性一些我們熟知的母數統計方法(parametricstatisticalmethods)像是t-test、ANOVA、Pearsoncorrelation以及linearregression等，他們的基本假設之一就是「依變項(dependentvariable)須接近常態分布」。

如果違反此假設的話，統計結果的解釋與推論可能是不正確的。

如何檢定常態性檢定的方法可大致區分為圖形檢驗和統計檢驗。

圖形檢驗以視覺化的方式，呈現隨機變數的分布情形，或者比對樣本分布與理論分布(例如標準常態分布)的差異。

圖形檢驗 Stem-and-leafplot,boxplot,dotplot,histogramP-Pplot,Q-Qplot 統計檢驗則呈現資料的基本描述如偏態(Skewness)與峰度(Kurtosis)，或者執行常態檢定的統計分析。

統計檢驗： Skewness,KurtosisShapiro-Wilk,Shapiro-Franciatest,Kolmogorov-Smirnovtest(Lilleforstest),Anderson-Darlingtest,Cramer-vonMisestests,Jarque-Beratest,Skewness-Kurtosistest 常見的圖形檢驗法 Histogram 直方圖是最直觀的方法，從資料頻率分布的輪廓，就可以直接檢視資料的分布情形是否接近鐘形。

Boxplot 箱形圖也是大家熟知的圖形，依序由最小值、第一四分位、中位數、第三四分位、最大值，以及離群值組成。

箱子本身的形狀告訴了我們資料大致的分布狀況，如果分布是常態的，則Q1和Q3會對稱於中位數，且中位數會在箱子的正中央。

離群值會影響分布，可是有時為了要十分符合常態分布，反而需要有很少部分的離群值。

箱形圖的好處是，我們不必計算平均數和標準差，就可以大約知道資料的散布情形。

也因為如此，在分辦資料為非常態分布的能力較好一些。

Q-Qplot Q-Qplot以資料的分位數(quantile,Y軸)對上欲檢驗分布的理論分位數(X軸)作圖，以圖示的方法，比較這兩個機率分布之間的型態為何。

資料點散佈於圖上，並有一條常態線做為比較基準。

換句話說，如果樣本資料接近常態分布，那麼資料點也會非常靠近基準線。

圖形檢驗的圖會在下文的範例中呈現。

常見的統計檢驗法 SkewnessandKurtosis 偏態(Skewness)主要用來衡量單峰分布的「對稱性」，以偏態係數β1來表示。

如果β1>0，即所謂的正偏態或右偏(Positiveskewness)，也就是分布集中在平均值之下；反之β1<0時為負偏態或左偏(Negativeskewness)，分布集中在平均值之上。

如果是向中央對稱的分布，偏態係數β1=0。

峰度(Kurtosis)用來衡量高峰分布的「高低」，以峰度係數β2來表示。

常態分布的β2等於3，以此做為分界的話，β2>3表示資料集中在平均值附近及尾巴較長，屬於「高瘦」型的尖峰態(leptokurtic)，如果β2<3，則資料聚集在平均值附近但較「圓胖」型的低峰態(platykurtic)。

一般來說，會同時考量分布的偏態與峰度，以偏態係數愈接近0(-0.5~0.5)與峰度係數愈接近3(或峰度係數減3為0)做為標準常態分布的判斷依據。

同時，偏態和峰度也都會受到樣本數大小的影響。

資料分布的偏態資料分布的峰度 (圖引用自這個post) Shapiro-Wilktest Shapiro-Wilktest是最常使用的常態性檢測工具，他可以告訴我們隨機抽取出來的樣本是否來自於常態分布，當統計值W愈小，表示資料愈不可能來自常態分布。

Kolmogorov-Smirnovtest Kolmogorov-Smirnovtest是1933年由Kolmogorov所建立，隨後在1948年由Smirnov所修訂，可檢定樣本是否吻合某個特定的分布(在這裡指的是常態分布)，統計值D愈大，表示資料愈不可能來自常態分布。

Anderson-Darlingtest Anderson-Darlingtest由Kolmogorov-Smirnovtest修改而來，同樣可檢定樣本是否吻合某個特定的分布，統計值A2愈大，表示資料愈不可能來自常態分布。

Cramer-vonMisestest Cramer-vonMisestest是一種利用經驗分布函數(empiricaldistributionfunction)來檢測常態分布的方法，類似於Anderson-Darling，統計值W2愈大，表示資料愈不可能來自常態分布。

以SAS分析為例統計軟體SAS提供上述常見的常態性檢定方法，我們以SAS內建的資料檔iris為例： PROCUNIVARIATEdata=sashelp.irisNORMALPLOT; VARSepalLength; HISTOGRAMSepalLength/NORMAL; QQPLOTSepalLength/NORMAL(mu=ESTsigma=EST); INSETMEANSTD/CFILL=BLANKFORMAT=5.2; run; NORMALoption→請SAS執行常態性檢定 PLOToption→請SAS畫出莖葉圖及箱形圖 SepalLength→鳶尾花的花萼長度，此次範例的主要分析變項 HISTOGRAM→請SAS畫出資料的直方圖 QQPLOT→請SAS畫出資料的Q-Qplot INSETstatement→請SAS在圖上加入摘要統計量 SAS提供的直方圖(Histogram) SAS提供的莖葉圖(Stem-and-LeafDiagram)與箱形圖(Box-plot) SAS提供的Q-Qplot及其統計量從結果來看，鳶尾花花萼長度(SepalLength)平均值為58.4，中位數為58.0，兩者相當接近。

偏態為0.31，峰度為-0.55，也都很接近零。

由直方圖、箱形圖以及Q-Qplot也顯示樣本資料近似常態分布。

然而，這種描述性(圖形化)統計的結果，無法給予決定性的資訊說明樣本是否真的有近似常態分布。

統計檢定的部分： SAS的常態性檢定提供四種常見的檢定方法，其檢定假設為： H0:Thesampledataarenotsignificantlydifferentthananormalpopulation.Ha:Thesampledataaresignificantlydifferentthananormalpopulation. →如果接受虛無假設H0，表示(有信心相信)資料近似常態分布由統計結果來看，四種檢定方法的統計量與p值雖然不盡相同，但都拒絕了虛無假設(接受了替代假說Ha)，也就是樣本資料不符合常態分布，和上述圖形化直觀方式的結果正好相反。

那麼，為什麼會出現這種違反直觀(直覺)的情況呢?實際上這種現象可能經常會出現，以下方的圖示為例：虛擬變項H1~H6的直方圖分布這六組虛疑資料的分布看起來離鐘形曲線都有些落差，可是實際上，他們在統計上全部都近似常態分布，但無法從直方圖主觀做出判斷。

會有這種誤判是因為，直方圖的圖形分布會受到主觀分組範圍的影響，也就是分組大小會產生完全不同的圖形，例如完全相同的H1變項所畫的二個直方圖：變項H1的二種不同分組方式左圖看起來不太像常態分布，右圖則像比較像常態分布，而實際上二者的差別只是因為分組大小不同所產生的視覺誤差。

結論：我該使用哪一種方法? 圖形化檢定方式直覺而且好解釋，是否接近常態分布帶有相當的主觀成分。

統計檢定則提供客觀的方式檢定常態性。

所以整體來說，若數種不同的統計檢定常態性的結果相似，就可以相信資料的常態性(有信心這組數據可以用來預測今年蘋果產量)；然而，如果統計結果之間的差異很大，可以選擇Shapiro-Wilktest。

有些模擬數據的研究指出，在比較偵測非常態性資料的能力時，Shapiro-Wilktest有最好的檢測力，且需要的樣本數最小。

也就是說，當樣本數愈大時，各種統計檢定方法偵測常態性的能力愈好，而當樣本數不大時(例如n=100~200)，Shapiro-Wilktest會是最推薦的方法，Anderson-Darlingtest則是次佳的選擇。

要注意的是，當樣本數太小時(例如n<50，甚至n<30)，各種檢定能力都會大打扣折，增加錯誤判斷的風險。

那麼，如果檢定結果是非常態，又該怎麼做呢? 下一期我們再聊「非常態」與「檢定非常態」。

參考文獻： RazaliNM,WahYB.PowercomparisonsofShapiro–Wilk,Kolmogorov–Smirnov,LillieforsandAnderson–Darlingtests.JStatModellAnal2011;2(1):21–33. AhadNA,YinTS,OthmanAR&YaacobCR.SensitivityofNormalityTesttoNon-normalData.SainsMalaysiana,2011;40(6):637-641. PublishedbyEpicDataStudio ViewallpostsbyEpicDataStudio 文章導覽 NextHowtoDealwithNon-normalityData OneReplyto“NormalityTest” 自動引用通知:HowtoDealwithNon-normalityData–EpicDataStudio 如有任何問題和意見歡迎提出取消回覆網站地圖防疫新生活防疫期間待在家沒事做嗎?就來艾比酷網站逛逛吧，補充滿滿的知識力!! Searchfor: Search 近期文章 SASlag的相反等於lead?LEADinSAS WhatAreWeWeightingfor?PropensityScoreWeightingUsingOverlapWeights傾向分數的精準平衡 PicturingYourFormatswithPROCFORMAT用PICTUREstatement描繪你的格式 SampleSizeofSingle-stageDesigninPhaseIIClinicalTrial單階段臨床試驗的樣本數打哪來 RareEventsandSASPROCLOGISTIC稀少事件如何解? 近期留言「EpicDataStudio」於〈你今天高效率了嗎?高效思考聰明使用SAS–SASSortInformation〉發佈留言「May」於〈你今天高效率了嗎?高效思考聰明使用SAS–SASSortInformation〉發佈留言「WorkingwithSASPROCSQL,HighFivetoSUBQUERY-EpicDataStudio」於〈HowtofindoutthemaxtwovaluesofonesubjectusingSAS&R〉發佈留言「HowtoDealwithNon-normalityData–EpicDataStudio」於〈NormalityTest〉發佈留言分類就是R 統計觀念聰明使用SAS 臨床試驗好網站不訂閱嗎輸入你的電子郵件地址，即時獲取最新文章通知。

電子郵件位址訂閱我

請為這篇文章評分？

延伸文章資訊

常態分配(Normal Distribution) - 小小整理網站Smallcollation

常態分配(Normal Distribution) · 一、 · 2.常態曲線最重要的特性是： · A.其形狀為左右對稱若鐘形之曲線。 · 【注意：對稱不一定為常態分布，但常態分布一定為對稱】 ...

第五章常態分配(The Normal Distribution)

3、以機率的方式來表達前述之面積。貳、前言. 常態曲線(The Normal Curve) 及常態分配的觀念，在統計中十分. 重要，它們是 ...

內科部研究能力課程(二) 連續型變數之統計檢定

Normality Test (樣本分佈的常態檢定) - The first step for ...

因此, 本篇文章討論的重點是, 如何確認抽樣所得的樣本數據分佈呈常態分佈. 在計算Process Capability前所需要做的第一步, 拿出手頭上的統計軟體, for ...

單一樣本Kolmogorov-Smirnov 檢定 - IBM

此適合度檢定會檢定觀察值是否能合理地來自指定的分佈。從27.0 版開始，Lilliefors 檢定統計可用於估算p 值，方法是使用Monte Carlo 取樣來針對使用估算的參數的常態分佈 ...

Normality Test - 艾比酷統計顧問 Epic Data Studio

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

更年期食療

更年期情緒

更年期症状

胰島素肥胖

胰島素阻抗

皮膚紅腫硬硬的

親子天下寶寶生活

毒品危害防制條例修法

抑鬱症安慰

應用寶

攝護腺

恐慌症睡覺

Normality Test - 艾比酷統計顧問 Epic Data Studio

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

更年期食療

更年期情緒

更年期症状

胰島素肥胖

胰島素阻抗

皮膚紅腫硬硬的

親子天下 寶寶生活

毒品危害防制條例修法

抑鬱症安慰

應用寶

攝護腺

恐慌症睡覺

親子天下寶寶生活