資料分析03 統計學- 敘述統計 - Medium
文章推薦指數: 80 %
首先,我們先來複習前一章所提及的敘述統計(descriptive statistics)。
何謂敘述統計呢,簡單來說,是就資料本身加以描述,並不做其它的推論。
例如: 描述資料本身的平均 ...
GetunlimitedaccessOpeninappHomeNotificationsListsStoriesWrite資料分析03統計學-敘述統計[概論]本篇主要了解敘述統計的三大觀念:資料的集中趨勢、資料的分散趨勢、以及資料的統計量及其呈現。
前言首先,我們先來複習前一章所提及的敘述統計(descriptivestatistics)。
何謂敘述統計呢,簡單來說,是就資料本身加以描述,並不做其它的推論。
例如:描述資料本身的平均數、中位數、變異數等等。
(疑?有些名詞聽不懂沒關係,我們下方會慢慢介紹。
然而通常對資料做初步整理,都會從敘述統計開始,在做敘述統計前,我們都會經過一番資料整理的過程,光是做這些整理,可能會花去整體作業時間的八成到九成,而這段整理的過程,我們稱之為"清洗資料"(Datacleaning)。
為什麼要清洗資料呢?主要是因為原有蒐集的資料太過雜亂,其中有可能是電腦語言所編寫的系統資料,亦有可能是市場調查當初設定問卷的規格等等,這些最原始的資料通常我們稱為"髒資料",將這些髒資料整理成我們要分析的格式後,就稱為"乾淨的資料"。
有了乾淨的資料,我們就可以繼續我們分析的流程囉!如果想練習如何清洗資料,本文最下方的延伸學習有提供相關連結可以作為參考。
敘述統計的目的,就是在分析前,來看看我們資料的"樣子",知道資料長怎樣後,才能針對自己的資料做進一步分析。
至於怎麼看資料呢?通常會從資料的集中趨勢、分散趨勢、以及統計量,這幾個方向著手。
以下我們就來一個一個介紹吧!資料集中趨勢假設今天有50筆班上同學的身高資料,那麼今天要闡述這50位同學的身高,如果一個一個表達,是不是很複雜呢?於是統計學家就思考,如果有指標可以代表這些數值,將會有利於分析的速度。
而現在我們就要來介紹其中一類指標:資料集中趨勢(或稱中央趨勢)!資料集中趨勢的指標可分為以下三個:平均數(mean):全部數值加總/數值個數。
中位數(median,Mo):一組按大小次序排列的觀測值中,居中的數值。
眾數(mode):一組數據中出現次數最多的數值。
雖然大家對這三個指標不會太陌生,不過我們還是舉一個小小例子複習一下。
假設有一組資料是:1,2,2,2,4,5,5。
那麼平均數就會是3,中位數就會是2,眾數也是2。
回到這小節第一個例子,如果以平均數當作資料集中趨勢,例如:班上50位同學平均身高是175公分,這樣是不是簡潔易懂,又能代表全體的資料呢?一般我們要表達資料的集中趨勢時,會採用平均數作為代表,但當資料有極端值出現,平均數會失去代表集中趨勢的特性,像是今天來個幾個身高200以上的轉學生,班上同學的平均身高就會被拉高,但畢竟轉學生只佔少數,也因此,平均數就可能不適合代表整體數據,而通常我們會採用中位數作為代表。
[注意]資料採用平均數或中位數作為資料集中趨勢的指標,會影響之後我們要用的統計方法喔。
資料分散趨勢假設有一組資料是10,10,10,而另外一組資料是9,10,11。
如果我們只看資料的集中趨勢,那麼以平均數作為代表,這兩組數值算出來的平均數都會是10,為了更能夠代表資料,指標除了集中趨勢外,我們還可以加上資料的分散程度,來代表我們的資料,以下則是幾個有關資料分散趨勢的相關專有名詞:最大值(max):資料的最大值。
最小值(min):資料的最小值。
全距(range):資料的最大值減最小值。
四分位差(interquartilerange,IQR):又稱四分位距。
是將資料排序,劃分成四等份後,依照上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)算出來的差。
變異數(variance):量測所有資料到平均數的平均距離。
變異係數(coefficientofvariation,CV)用來比較單位不同或單位相同但資料差異甚大的資料分散情形。
標準差(standarddeviation,SD):又稱均方差(Meansquareerror),為變異數的平方根。
偏態(skewness):大部份的數值落在平均數的哪一邊。
而以下,我們將對大家會有疑惑的專有名詞進行說明。
[四分位差]我們舉個例子來解釋相關的概念,假設我們的資料為1,2,3,4,5,6,7,8,9,那麼5則為中位數,稱為第二四分位距(Q2);而小於中位數的數值1,2,3,4,其中位數為(2+3)/2=2.5,稱為第一四分位距(Q1);大於中位數的數值6,7,8,9,其中位數為(7+8)/2=7.5,稱第三四分位距(Q3)。
將Q3-Q2就可以算出我們的四分位差,即7.5-2.5=5。
[變異數]變異數越大,代表大部分的數值和其平均值之間差異較大,資料較分散;變異數越小,代表大部分的數值和其平均值之間差異較小,資料較集中。
[變異係數]e.g.假設今天三位同學的的身高分別是181,173,175而體重分別是75,66,60,而今天我們要比較身高資料和體重資料的差異情形,但由於身高資料的單位是"公分",體重資料的單位是"公斤",此時就可以利用變異係數進行比較。
這邊採用樣本變異係數的公式進行運算後,身高的變異係數是2.3611,體重的變異係數是1.2684。
有此可得知,身高的變異係數較大,判別身高的資料分散程度會比較大。
其公式如下:[標準差]其解釋和變異數相同。
[變異數vs標準差]變異數是所有資料與平均值的平均距離,在計算的過程中,為了避免正負相抵,因此我們將距離平方,得出來的變異數就可以解釋數據的發散程度。
但此時原先的數值單位也會因為平方變成不可解釋,因此當我們需要解釋單位時,會將變異數開根號,得出標準差,其單位就可以用來解釋。
[偏態]若資料分配較多集中在低數那方,稱為正偏態分配(或稱右偏態分配);若分配較多集中在高數值方面,稱為負偏態分配(或稱左偏態分配)。
資料統計量-次數分配表了解資料集中趨勢和分散趨勢後,我們來認識一下資料的統計量。
所謂的「統計量」就是由一組樣本所算出的單一數值。
這邊我們介紹統計量最常見的呈現方式:次數分配表(frequencydistributiontable),亦即針對資料的出現次數所整理的表格。
而次數分配表的圖表呈現又有很多種,包含長條圖、圓餅圖等等。
下圖則用python的長條圖呈現次數分配表。
[原始程式碼]http://pcse.pw/7VDEM[圖表說明]今天有五個人參加拔蘿蔔比賽,計時一分鐘,最後結果經由裁判紀錄下來。
由上圖次數分配表可以得知,第一名Tina拔了6根蘿蔔,而最後一名Claire只拔了一根。
這邊由於是敘述統計,只對資料本身做描述,並不能加以揣測說Claire由於偷懶所以只拔了一根這種話,如果要得出這樣的結論,必須要有數據證明這番論證才行,這就會是推論統計的範疇。
[注意]這邊小編Momus提醒一下兩個容易混淆的專有名詞,在圖表呈現最常混淆的是長條圖(barchart)和直方圖(histogram),兩者有甚麼區別呢?在圖形表達上,長條圖的長條間並沒有連在一起,比較適合間斷型資料的視覺化呈現。
而直方圖的長條間有連在一起,比較適合連續型資料的視覺化呈現。
下圖我們就來畫一張直方圖,來看看所謂連在一起,是怎麼個連法。
[原始程式碼]http://pcse.pw/7B3Q3然而,為甚麼要區分長條圖和直方圖呢?主要是因為在連續型資料的解釋上,直方圖會比較好解釋。
像是今天我們量測班上同學的身高,如果說160~170公分的同學有三位,這樣是不是有利用說明資料呢。
此時就會有人提問:如果想要用長條圖表示連續型資料,是否也是可以?答案是:當然可行的!像是股票資料,這種連續型數值,我們有時候會看「趨勢線」,因此不需要將資料切分。
如此可以知道,長條圖和直方圖要如何選擇,就要看分析的人想要怎麼解釋圖表囉。
而在說明上方圖表之前,我們來認識一些製作直方圖的觀念。
首先,我們要有資料的全距,有了全距,就來決定要切分資料的組數,一般而言,組數可依照研究者自身的需求做決定,也可以利用下方的經驗公式,決定組數:決定好組數,就可以利用全距/組數算出所謂的「組距」,組距就是用來切分數值的量尺。
了解這些專有名詞後,我們就來透過上方的圖表,來實際操作一下吧。
[圖表說明]由於資料是連續型,依照經驗判斷要將所有收集回來的數值劃分為五等分,亦即組數設定為5。
資料的全距是1.1(1.4-0.3),組距是0.22(1.1/5),因此我們將資料每0.22個單位劃分為一組資料。
第一組資料會是從最小值0.3開始到0.52(0.3+0.22),第二組資料從0.52到0.74(0.52+0.22),以此類推,最後第五組資料是從1.18到1.4,剛好會到資料的最大值。
延伸學習這裡提供一個可以練習資料清洗的數據集,大家可以多多利用悠:https://makingnoiseandhearingthings.com/2018/04/19/datasets-for-data-cleaning-practice/結尾學會認識自己的資料後,下一篇,將從資料視覺化開始介紹。
最後,如果喜歡這篇文章,請按下方的拍手鍵,來點掌聲和鼓勵,讓我感受一下你們的溫暖和支持。
ALLthebest!^^Reference:#3ControlcolorofbarplotsThispostaimstodescribehowtousecolorsonmatplotlibbarplots.First,let'sloadlibrariesandcreateafake…python-graph-gallery.comMomusChao/descriptive-statistics-by-pythondescriptive-statistics-by-python-descriptivestatisticsbypythongithub.com1.4KMorefromMomusChaoFollowDataanalyst|AIR&DLovepodcastsoraudiobooks?Learnonthegowithournewapp.TryKnowableGetstartedMomusChao147FollowersDataanalyst|AIR&DFollowMorefromMediumMichelleGyimahWhydocorporatesfindGenderorEthnicitypaygapssohardtotalkabout?ShaunCoffeyWelearnbysharingourignorance.CharisOngAssignment1:AbstractionJoelJuniorAnxietycantakeoveryourlife.HelpStatusWritersBlogCareersPrivacyTermsAboutKnowable
延伸文章資訊
- 1描述統計學 - MBA智库百科
描述統計學(Descriptive Statistics)描述統計(descriptive statistics)是來描繪(describe)或總結(summarize)的觀察量的基本情況的統計...
- 2敘述性統計量選項 - IBM
平均數和總和。 這個選項會依預設,顯示平均數和算術平均數。 分散情形。 這個選項乃是用來測量資料分佈和變化的統計量。 這些統計量包括標準差、變異數、範圍、最小值、 ...
- 3現代統計學的發展 - 數學知識
一般而言,我們可以把統計問題分成兩類: 敘述統計和推論統計,簡單的說:任何對數據(即樣本)的處理導致預測或推論群體的統計稱為推論統計。反之,如果我們的興趣只 ...
- 4描述統計學
描述統計(descriptive statistics),是統計學中,來描繪或總結觀察量的基本情況的統計總稱。其與統計推論相對應。
- 5敘述統計概論
一、什麼是統計學. (一) 統計的意義. 統計係利用數據變動的資訊及經過資料蒐集和整理、表現、分析和. 解釋,再依據分析出來的結果,作出較為正確且合理的決策,並大.