母體變異數vs樣本變異數 - 科學Online

文章推薦指數: 80 %
投票人數:10人

第4章-資料集中趨勢及變異性的測度。

江振東、政治大學統計系|淺談自由度(樣本標準差公式中的分母為什麼要採用n-1) ... Monday11thApril2022 11-Apr-2022 人工智慧 化學 物理 數學 生命科學 生命科學文章 植物圖鑑 地球科學 環境能源 科學繪圖 高瞻專區 第一期高瞻計畫 第二期高瞻計畫 第三期高瞻計畫 綠色奇蹟-中等學校探究課程發展計畫 關於我們 網站主選單 母體變異數(\(\sigma^2\))v.s.樣本變異數(\(s^2\)) 國立臺灣大學農藝學系吳博雅 一、前言 每當收集完一筆資料後,可能會非常零亂、複雜,很難看出該筆資料的特性,那我們又如何整理這些資料呢?常常會畫圖表示資料的分布情形,也會計算其平均數(mean)、中位數(median)、眾數(mode)…等來看該筆資料的中心位置,同時,還會計算全距(range)、變異數(variance)…等,來看該筆資料的分散程度,如此一來,資料收集者可以簡單敘述該資料的特性,讓有興趣者可以快速了解,取得所需的資訊,而這類的數據分析可統稱為敘述統計學(DescriptiveStatistics)。

今天我們要特別談論變異數,變異數在高中課本裡表示成: \(\sigma^2=\displaystyle\sum_{i=i}^{N}\frac{(x_i-\mu)^2}{N}~~~~~~~~~(1.1)\) 其中\(x_i\) 為各觀測值(一共\(N\)個觀測值,亦即族群中一共有\(N\)個觀測值);\(\mu\)(讀作mu)為族群平均數,可表示成: \(\mu=\displaystyle\frac{1}{N}(x_1+x_2+\cdots+x_N)=\frac{1}{N}\sum_{i=1}^{N}x_i~~~~~~~~~(1.2)\) 上述所提及的變異數為母體變異數,事實上還有樣本變異數,公式表示成: \(s^2=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}~~~~~~~~~(1.3)\) 其中\(x_i\) 為各觀測值(共\(n\)個觀測值);\(\bar{x}\)為樣本平均數。

\(\bar{x}=\displaystyle\frac{1}{n}(x_1+x_2+\cdots+x_n)=\frac{1}{n}\sum_{i=1}^{n}x_i~~~~~~~~~(1.4)\) 二、母體變異數v.s.樣本變異數 大家或許會很疑惑,為什麼會有母體變異數與樣本變異數呢?他們彼此間存在哪些差異呢? 往往我們欲關注的族群資料量很大甚至是無限大,而且族群的平均數(\(\mu\))實際上常常無法知道,為了減少調查成本與增加效率,常常會藉由抽樣(sampling)取得樣本資料,希望能藉由樣本資料,獲得樣本平均數與樣本變異數,利用樣本平均數(\(\bar{x}\))來估計族群平均數(\(\mu\)),與利用樣本變異數(\(s^2\))來估計母體變異數(\(\sigma^2\)),進而了解整個族群的狀況(圖一)。

至於怎樣才是好的抽樣,才能準確估計族群,請詳見其他章節,在此不加以著墨。

圖一族群與樣本的關係(本文作者吳博雅製) 而以樣本資料求其變異數,稱之樣本變異數,又可稱為均方(meansquare),如式子1.3。

均方公式中在分子部分,我們稱之為平方和(sumofsquares),將每一個觀測值與樣本平均數之差予以平方再加總起來;均方在分母部分是\(n-1\)而不是\(n\),其原因為如果以\(n\)取代\(n-1\)會造成當以樣本變異數來估計母群體變異數時,會發生低估(underestimate)的現象註一,而這裡的\(n-1\)在統計學上稱之自由度(degreeoffreedom)註二。

在數理統計上可以證明以自由度作為除數所計算出來的均方,才是族群的無偏估值註三,亦即\(s^2\) 才是\(\sigma^2\) 的良好估值。

註一:由於 \(\begin{array}{ll}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2&\displaystyle=\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\\&=\displaystyle\sum_{i=1}^n(x_i-\mu)^2-n(\bar{x}-\mu)^2\end{array}\) \(\rightarrow\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2\le\sum_{i=1}^{n}(x_i-\mu)^2\) 若以\(\sum_{i=1}^{n}(x_i-\bar{x})^2/n\)作為樣本的變異數,由上式可知會發生低估的現象。

註二:自由度是指樣本內獨立,且能夠自由變動的離均差\((x_i-\bar{x})\)之個數。

例如:樣本中有四個觀測值,樣本平均為6,其中三個觀測值為4、8與10,最後一個觀測值一定是6*4-(4+8+10)=2。

因此,當樣本大小為4(=n)時,只有3(=n-1)個離均差可以自由變動,此時自由度等於3。

註三:無偏估值的介紹,請詳見另篇文章。

而有時為了計算方便,我們也可以將樣本變異數的公式表示成: \(\begin{array}{ll}s^2&=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}\\&=\displaystyle\frac{1}{n-1}\times(\sum_{i=1}^nx_{i}^2-2\sum_{i=1}^nx_i\bar{x}+n\bar{x}^2)\\&=\displaystyle\frac{1}{n-1}\times(\sum_{i=1}^nx_i^2-n\bar{x}^2)\end{array}\) 另外,母體變異數的正平方根,稱之為母體標準差(\(\sigma\));樣本變異數的正平方根,稱之為樣本標準差(\(s\))。

例題: A研究員想要了解某一地區20-30歲的女性之體重,但他的時間、經費有限,所以他決定在該地去隨機抽取12位20-30歲的女性,得知她們的體重55,45,60,48,43,52,48,43,50,50,48,58(單位:kg),請問這12位學生體重的樣本變異數為多少? \(\begin{array}{ll}\bar{x}&=\displaystyle\frac{1}{n}\times\sum_{i=1}^{n}x_i\\&=\displaystyle\frac{1}{12}(55+45+60+48+43+52+48+43+50+50+48+58)\\&=50\end{array}\) \(\begin{array}{ll}s^2&=\displaystyle\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}=\frac{1}{12-1}(\sum_{i=1}^{12}x_i^2-12\bar{x}^2)\\&=\displaystyle\frac{1}{11}(30328-12\times50^2)\\&=29.82\end{array}\) 參考文獻 沈明來(2014)生物統計學入門第六版。

第三章-敘述統計學。

郭寶錚、陳玉敏(2011)生物統計學。

第4章-資料集中趨勢及變異性的測度。

江振東、政治大學統計系|淺談自由度(樣本標準差公式中的分母為什麼要採用n-1)。

http://mathcenter.ck.tp.edu.tw/Resources/Ctrl/ePaper/ePaperOpenFileX.ashx?autoKey=16 Tags:degreeoffreedom,meansquare,populationvariance,samplevariance,均方,樣本變異數,母體變異數,自由度 前一篇文章下一篇文章 您或許對這些文章有興趣 惠更斯(ChristiaanHuygens)專題 泰勒多項式(2)(TaylorPolynomials(2)) 海芭夏(HypatiaofAlexandria) Thereare3commentsforthisarticle 例題應該是問體重而不是成績吧? KYChiu您好 謝謝您的細心,經確認已修正囉! 管理員敬上 註一有點看不懂 如果直接帶5,15這兩個數字進去算 式子似乎不會相等 何解? 發表迴響Cancelcommentreply 你的電子郵件位址並不會被公開。

必要欄位標記為*迴響名稱* 電子郵件* 個人網站 驗證問題* 1+=9 熱門文章 母體變異數v.s.樣本變異數 前列腺素(Prostaglandin) 轉動慣量 混成軌域 零級、一級與二級反應與半衰期 倍角公式 酸鹼滴定 定壓熱容量(Cp)和定容熱容量(Cv)的差別(下) 電偶極 Z-檢定、t-檢定 總點閱排行 點到直線的距離公式 細胞膜運輸物質的方式 比爾定律與吸收度 混成軌域 準確度和精確度 腎素-血管收縮素-醛固酮系統 穿透式電子顯微鏡 好站鏈接 科學online粉絲專頁 Insertmathas Block Inline Additionalsettings Formulacolor Textcolor #333333 FormulaID Formulaclasses TypemathusingLaTeX Preview \({}\) Nothingtopreview Insert



請為這篇文章評分?