母體變異數vs樣本變異數 - 科學Online
文章推薦指數: 80 %
第4章-資料集中趨勢及變異性的測度。
江振東、政治大學統計系|淺談自由度(樣本標準差公式中的分母為什麼要採用n-1) ...
Monday11thApril2022
11-Apr-2022
人工智慧
化學
物理
數學
生命科學
生命科學文章
植物圖鑑
地球科學
環境能源
科學繪圖
高瞻專區
第一期高瞻計畫
第二期高瞻計畫
第三期高瞻計畫
綠色奇蹟-中等學校探究課程發展計畫
關於我們
網站主選單
母體變異數(\(\sigma^2\))v.s.樣本變異數(\(s^2\))
國立臺灣大學農藝學系吳博雅
一、前言
每當收集完一筆資料後,可能會非常零亂、複雜,很難看出該筆資料的特性,那我們又如何整理這些資料呢?常常會畫圖表示資料的分布情形,也會計算其平均數(mean)、中位數(median)、眾數(mode)…等來看該筆資料的中心位置,同時,還會計算全距(range)、變異數(variance)…等,來看該筆資料的分散程度,如此一來,資料收集者可以簡單敘述該資料的特性,讓有興趣者可以快速了解,取得所需的資訊,而這類的數據分析可統稱為敘述統計學(DescriptiveStatistics)。
今天我們要特別談論變異數,變異數在高中課本裡表示成:
\(\sigma^2=\displaystyle\sum_{i=i}^{N}\frac{(x_i-\mu)^2}{N}~~~~~~~~~(1.1)\)
其中\(x_i\) 為各觀測值(一共\(N\)個觀測值,亦即族群中一共有\(N\)個觀測值);\(\mu\)(讀作mu)為族群平均數,可表示成:
\(\mu=\displaystyle\frac{1}{N}(x_1+x_2+\cdots+x_N)=\frac{1}{N}\sum_{i=1}^{N}x_i~~~~~~~~~(1.2)\)
上述所提及的變異數為母體變異數,事實上還有樣本變異數,公式表示成:
\(s^2=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}~~~~~~~~~(1.3)\)
其中\(x_i\) 為各觀測值(共\(n\)個觀測值);\(\bar{x}\)為樣本平均數。
\(\bar{x}=\displaystyle\frac{1}{n}(x_1+x_2+\cdots+x_n)=\frac{1}{n}\sum_{i=1}^{n}x_i~~~~~~~~~(1.4)\)
二、母體變異數v.s.樣本變異數
大家或許會很疑惑,為什麼會有母體變異數與樣本變異數呢?他們彼此間存在哪些差異呢?
往往我們欲關注的族群資料量很大甚至是無限大,而且族群的平均數(\(\mu\))實際上常常無法知道,為了減少調查成本與增加效率,常常會藉由抽樣(sampling)取得樣本資料,希望能藉由樣本資料,獲得樣本平均數與樣本變異數,利用樣本平均數(\(\bar{x}\))來估計族群平均數(\(\mu\)),與利用樣本變異數(\(s^2\))來估計母體變異數(\(\sigma^2\)),進而了解整個族群的狀況(圖一)。
至於怎樣才是好的抽樣,才能準確估計族群,請詳見其他章節,在此不加以著墨。
圖一族群與樣本的關係(本文作者吳博雅製)
而以樣本資料求其變異數,稱之樣本變異數,又可稱為均方(meansquare),如式子1.3。
均方公式中在分子部分,我們稱之為平方和(sumofsquares),將每一個觀測值與樣本平均數之差予以平方再加總起來;均方在分母部分是\(n-1\)而不是\(n\),其原因為如果以\(n\)取代\(n-1\)會造成當以樣本變異數來估計母群體變異數時,會發生低估(underestimate)的現象註一,而這裡的\(n-1\)在統計學上稱之自由度(degreeoffreedom)註二。
在數理統計上可以證明以自由度作為除數所計算出來的均方,才是族群的無偏估值註三,亦即\(s^2\) 才是\(\sigma^2\) 的良好估值。
註一:由於
\(\begin{array}{ll}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2&\displaystyle=\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\\&=\displaystyle\sum_{i=1}^n(x_i-\mu)^2-n(\bar{x}-\mu)^2\end{array}\)
\(\rightarrow\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2\le\sum_{i=1}^{n}(x_i-\mu)^2\)
若以\(\sum_{i=1}^{n}(x_i-\bar{x})^2/n\)作為樣本的變異數,由上式可知會發生低估的現象。
註二:自由度是指樣本內獨立,且能夠自由變動的離均差\((x_i-\bar{x})\)之個數。
例如:樣本中有四個觀測值,樣本平均為6,其中三個觀測值為4、8與10,最後一個觀測值一定是6*4-(4+8+10)=2。
因此,當樣本大小為4(=n)時,只有3(=n-1)個離均差可以自由變動,此時自由度等於3。
註三:無偏估值的介紹,請詳見另篇文章。
而有時為了計算方便,我們也可以將樣本變異數的公式表示成:
\(\begin{array}{ll}s^2&=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}\\&=\displaystyle\frac{1}{n-1}\times(\sum_{i=1}^nx_{i}^2-2\sum_{i=1}^nx_i\bar{x}+n\bar{x}^2)\\&=\displaystyle\frac{1}{n-1}\times(\sum_{i=1}^nx_i^2-n\bar{x}^2)\end{array}\)
另外,母體變異數的正平方根,稱之為母體標準差(\(\sigma\));樣本變異數的正平方根,稱之為樣本標準差(\(s\))。
例題:
A研究員想要了解某一地區20-30歲的女性之體重,但他的時間、經費有限,所以他決定在該地去隨機抽取12位20-30歲的女性,得知她們的體重55,45,60,48,43,52,48,43,50,50,48,58(單位:kg),請問這12位學生體重的樣本變異數為多少?
\(\begin{array}{ll}\bar{x}&=\displaystyle\frac{1}{n}\times\sum_{i=1}^{n}x_i\\&=\displaystyle\frac{1}{12}(55+45+60+48+43+52+48+43+50+50+48+58)\\&=50\end{array}\)
\(\begin{array}{ll}s^2&=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}=\frac{1}{12-1}(\sum_{i=1}^{12}x_i^2-12\bar{x}^2)\\&=\displaystyle\frac{1}{11}(30328-12\times50^2)\\&=29.82\end{array}\)
參考文獻
沈明來(2014)生物統計學入門第六版。
第三章-敘述統計學。
郭寶錚、陳玉敏(2011)生物統計學。
第4章-資料集中趨勢及變異性的測度。
江振東、政治大學統計系|淺談自由度(樣本標準差公式中的分母為什麼要採用n-1)。
http://mathcenter.ck.tp.edu.tw/Resources/Ctrl/ePaper/ePaperOpenFileX.ashx?autoKey=16
Tags:degreeoffreedom,meansquare,populationvariance,samplevariance,均方,樣本變異數,母體變異數,自由度
前一篇文章下一篇文章
您或許對這些文章有興趣
惠更斯(ChristiaanHuygens)專題
泰勒多項式(2)(TaylorPolynomials(2))
海芭夏(HypatiaofAlexandria)
Thereare3commentsforthisarticle
例題應該是問體重而不是成績吧?
KYChiu您好
謝謝您的細心,經確認已修正囉!
管理員敬上
註一有點看不懂
如果直接帶5,15這兩個數字進去算
式子似乎不會相等
何解?
發表迴響Cancelcommentreply
你的電子郵件位址並不會被公開。
必要欄位標記為*迴響名稱*
電子郵件*
個人網站
驗證問題*
1+=9
熱門文章
母體變異數v.s.樣本變異數
前列腺素(Prostaglandin)
轉動慣量
混成軌域
零級、一級與二級反應與半衰期
倍角公式
酸鹼滴定
定壓熱容量(Cp)和定容熱容量(Cv)的差別(下)
電偶極
Z-檢定、t-檢定
總點閱排行
點到直線的距離公式
細胞膜運輸物質的方式
比爾定律與吸收度
混成軌域
準確度和精確度
腎素-血管收縮素-醛固酮系統
穿透式電子顯微鏡
好站鏈接
科學online粉絲專頁
Insertmathas
Block
Inline
Additionalsettings
Formulacolor
Textcolor
#333333
FormulaID
Formulaclasses
TypemathusingLaTeX
Preview
\({}\)
Nothingtopreview
Insert
延伸文章資訊
- 1為什麼統計的樣本標準差計算要除(n-1)而母體標準差則除n?
所以,一般我們在計算樣本標準差時總會要求數據量至少要大於25個,或大於30個,數據當然要越多越好,只是為了取得實用與經濟的平衡點而不得不取一個建議的數量。因此,樣本 ...
- 2從標準差除以n 或除以n − 1 談起
當初大家對統計教材中「標準差是除以n 或n − 1」 的疑問, 在國立編譯館的主 ... 假設樣本資料x1, x2,...,xn 是從一個平均數µ 而變異數σ2 之母體中經由簡單隨機抽.
- 3統計
4.3 標準差標準差(standard deviation)用於表示資料之離散程度,若由母體中抽取n個樣本,其值 ... 標準差和平均全距( )有相當良好的統計關係,在樣本少之情況下,
- 4x x x ,..., , 2 - ,其樣本標準差計算如下: 式中
標準差(s)係由樣本數據求得,稱為「樣本標準差」,工程實務上一. 般簡稱「標準差」。 若經全檢測得檢驗批之每一個別值,則可據以計算母體標準差(σ,. 唸sigma ...
- 5母體變異數vs樣本變異數 - 科學Online
第4章-資料集中趨勢及變異性的測度。 江振東、政治大學統計系|淺談自由度(樣本標準差公式中的分母為什麼要採用n-1) ...