資料分析03 統計學- 敘述統計 - Medium

文章推薦指數: 80 %
投票人數:10人

首先,我們先來複習前一章所提及的敘述統計(descriptive statistics)。

何謂敘述統計呢,簡單來說,是就資料本身加以描述,並不做其它的推論。

例如: 描述資料本身的平均 ... GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWrite資料分析03統計學-敘述統計[概論]本篇主要了解敘述統計的三大觀念:資料的集中趨勢、資料的分散趨勢、以及資料的統計量及其呈現。

前言首先,我們先來複習前一章所提及的敘述統計(descriptivestatistics)。

何謂敘述統計呢,簡單來說,是就資料本身加以描述,並不做其它的推論。

例如:描述資料本身的平均數、中位數、變異數等等。

(疑?有些名詞聽不懂沒關係,我們下方會慢慢介紹。

然而通常對資料做初步整理,都會從敘述統計開始,在做敘述統計前,我們都會經過一番資料整理的過程,光是做這些整理,可能會花去整體作業時間的八成到九成,而這段整理的過程,我們稱之為"清洗資料"(Datacleaning)。

為什麼要清洗資料呢?主要是因為原有蒐集的資料太過雜亂,其中有可能是電腦語言所編寫的系統資料,亦有可能是市場調查當初設定問卷的規格等等,這些最原始的資料通常我們稱為"髒資料",將這些髒資料整理成我們要分析的格式後,就稱為"乾淨的資料"。

有了乾淨的資料,我們就可以繼續我們分析的流程囉!如果想練習如何清洗資料,本文最下方的延伸學習有提供相關連結可以作為參考。

敘述統計的目的,就是在分析前,來看看我們資料的"樣子",知道資料長怎樣後,才能針對自己的資料做進一步分析。

至於怎麼看資料呢?通常會從資料的集中趨勢、分散趨勢、以及統計量,這幾個方向著手。

以下我們就來一個一個介紹吧!資料集中趨勢假設今天有50筆班上同學的身高資料,那麼今天要闡述這50位同學的身高,如果一個一個表達,是不是很複雜呢?於是統計學家就思考,如果有指標可以代表這些數值,將會有利於分析的速度。

而現在我們就要來介紹其中一類指標:資料集中趨勢(或稱中央趨勢)!資料集中趨勢的指標可分為以下三個:平均數(mean):全部數值加總/數值個數。

中位數(median,Mo):一組按大小次序排列的觀測值中,居中的數值。

眾數(mode):一組數據中出現次數最多的數值。

雖然大家對這三個指標不會太陌生,不過我們還是舉一個小小例子複習一下。

假設有一組資料是:1,2,2,2,4,5,5。

那麼平均數就會是3,中位數就會是2,眾數也是2。

回到這小節第一個例子,如果以平均數當作資料集中趨勢,例如:班上50位同學平均身高是175公分,這樣是不是簡潔易懂,又能代表全體的資料呢?一般我們要表達資料的集中趨勢時,會採用平均數作為代表,但當資料有極端值出現,平均數會失去代表集中趨勢的特性,像是今天來個幾個身高200以上的轉學生,班上同學的平均身高就會被拉高,但畢竟轉學生只佔少數,也因此,平均數就可能不適合代表整體數據,而通常我們會採用中位數作為代表。

[注意]資料採用平均數或中位數作為資料集中趨勢的指標,會影響之後我們要用的統計方法喔。

資料分散趨勢假設有一組資料是10,10,10,而另外一組資料是9,10,11。

如果我們只看資料的集中趨勢,那麼以平均數作為代表,這兩組數值算出來的平均數都會是10,為了更能夠代表資料,指標除了集中趨勢外,我們還可以加上資料的分散程度,來代表我們的資料,以下則是幾個有關資料分散趨勢的相關專有名詞:最大值(max):資料的最大值。

最小值(min):資料的最小值。

全距(range):資料的最大值減最小值。

四分位差(interquartilerange,IQR):又稱四分位距。

是將資料排序,劃分成四等份後,依照上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)算出來的差。

變異數(variance):量測所有資料到平均數的平均距離。

變異係數(coefficientofvariation,CV)用來比較單位不同或單位相同但資料差異甚大的資料分散情形。

標準差(standarddeviation,SD):又稱均方差(Meansquareerror),為變異數的平方根。

偏態(skewness):大部份的數值落在平均數的哪一邊。

而以下,我們將對大家會有疑惑的專有名詞進行說明。

[四分位差]我們舉個例子來解釋相關的概念,假設我們的資料為1,2,3,4,5,6,7,8,9,那麼5則為中位數,稱為第二四分位距(Q2);而小於中位數的數值1,2,3,4,其中位數為(2+3)/2=2.5,稱為第一四分位距(Q1);大於中位數的數值6,7,8,9,其中位數為(7+8)/2=7.5,稱第三四分位距(Q3)。

將Q3-Q2就可以算出我們的四分位差,即7.5-2.5=5。

[變異數]變異數越大,代表大部分的數值和其平均值之間差異較大,資料較分散;變異數越小,代表大部分的數值和其平均值之間差異較小,資料較集中。

[變異係數]e.g.假設今天三位同學的的身高分別是181,173,175而體重分別是75,66,60,而今天我們要比較身高資料和體重資料的差異情形,但由於身高資料的單位是"公分",體重資料的單位是"公斤",此時就可以利用變異係數進行比較。

這邊採用樣本變異係數的公式進行運算後,身高的變異係數是2.3611,體重的變異係數是1.2684。

有此可得知,身高的變異係數較大,判別身高的資料分散程度會比較大。

其公式如下:[標準差]其解釋和變異數相同。

[變異數vs標準差]變異數是所有資料與平均值的平均距離,在計算的過程中,為了避免正負相抵,因此我們將距離平方,得出來的變異數就可以解釋數據的發散程度。

但此時原先的數值單位也會因為平方變成不可解釋,因此當我們需要解釋單位時,會將變異數開根號,得出標準差,其單位就可以用來解釋。

[偏態]若資料分配較多集中在低數那方,稱為正偏態分配(或稱右偏態分配);若分配較多集中在高數值方面,稱為負偏態分配(或稱左偏態分配)。

資料統計量-次數分配表了解資料集中趨勢和分散趨勢後,我們來認識一下資料的統計量。

所謂的「統計量」就是由一組樣本所算出的單一數值。

這邊我們介紹統計量最常見的呈現方式:次數分配表(frequencydistributiontable),亦即針對資料的出現次數所整理的表格。

而次數分配表的圖表呈現又有很多種,包含長條圖、圓餅圖等等。

下圖則用python的長條圖呈現次數分配表。

[原始程式碼]http://pcse.pw/7VDEM[圖表說明]今天有五個人參加拔蘿蔔比賽,計時一分鐘,最後結果經由裁判紀錄下來。

由上圖次數分配表可以得知,第一名Tina拔了6根蘿蔔,而最後一名Claire只拔了一根。

這邊由於是敘述統計,只對資料本身做描述,並不能加以揣測說Claire由於偷懶所以只拔了一根這種話,如果要得出這樣的結論,必須要有數據證明這番論證才行,這就會是推論統計的範疇。

[注意]這邊小編Momus提醒一下兩個容易混淆的專有名詞,在圖表呈現最常混淆的是長條圖(barchart)和直方圖(histogram),兩者有甚麼區別呢?在圖形表達上,長條圖的長條間並沒有連在一起,比較適合間斷型資料的視覺化呈現。

而直方圖的長條間有連在一起,比較適合連續型資料的視覺化呈現。

下圖我們就來畫一張直方圖,來看看所謂連在一起,是怎麼個連法。

[原始程式碼]http://pcse.pw/7B3Q3然而,為甚麼要區分長條圖和直方圖呢?主要是因為在連續型資料的解釋上,直方圖會比較好解釋。

像是今天我們量測班上同學的身高,如果說160~170公分的同學有三位,這樣是不是有利用說明資料呢。

此時就會有人提問:如果想要用長條圖表示連續型資料,是否也是可以?答案是:當然可行的!像是股票資料,這種連續型數值,我們有時候會看「趨勢線」,因此不需要將資料切分。

如此可以知道,長條圖和直方圖要如何選擇,就要看分析的人想要怎麼解釋圖表囉。

而在說明上方圖表之前,我們來認識一些製作直方圖的觀念。

首先,我們要有資料的全距,有了全距,就來決定要切分資料的組數,一般而言,組數可依照研究者自身的需求做決定,也可以利用下方的經驗公式,決定組數:決定好組數,就可以利用全距/組數算出所謂的「組距」,組距就是用來切分數值的量尺。

了解這些專有名詞後,我們就來透過上方的圖表,來實際操作一下吧。

[圖表說明]由於資料是連續型,依照經驗判斷要將所有收集回來的數值劃分為五等分,亦即組數設定為5。

資料的全距是1.1(1.4-0.3),組距是0.22(1.1/5),因此我們將資料每0.22個單位劃分為一組資料。

第一組資料會是從最小值0.3開始到0.52(0.3+0.22),第二組資料從0.52到0.74(0.52+0.22),以此類推,最後第五組資料是從1.18到1.4,剛好會到資料的最大值。

延伸學習這裡提供一個可以練習資料清洗的數據集,大家可以多多利用悠:https://makingnoiseandhearingthings.com/2018/04/19/datasets-for-data-cleaning-practice/結尾學會認識自己的資料後,下一篇,將從資料視覺化開始介紹。

最後,如果喜歡這篇文章,請按下方的拍手鍵,來點掌聲和鼓勵,讓我感受一下你們的溫暖和支持。

ALLthebest!^^Reference:#3ControlcolorofbarplotsThispostaimstodescribehowtousecolorsonmatplotlibbarplots.First,let'sloadlibrariesandcreateafake…python-graph-gallery.comMomusChao/descriptive-statistics-by-pythondescriptive-statistics-by-python-descriptivestatisticsbypythongithub.com1.4KMorefromMomusChaoFollowDataanalyst|AIR&DLovepodcastsoraudiobooks?Learnonthegowithournewapp.TryKnowableGetstartedMomusChao147FollowersDataanalyst|AIR&DFollowMorefromMediumMichelleGyimahWhydocorporatesfindGenderorEthnicitypaygapssohardtotalkabout?ShaunCoffeyWelearnbysharingourignorance.CharisOngAssignment1:AbstractionJoelJuniorAnxietycantakeoveryourlife.HelpStatusWritersBlogCareersPrivacyTermsAboutKnowable



請為這篇文章評分?