2-4-1數據分析-一維數據分析 - 9lib TW

文章推薦指數: 80 %
投票人數:10人

(3) 【定義】 1. 幾何平均數: 設x1 , x2 , , xn 是n 個正實數, 則G.M . n x1 x2 xn 稱 ... menu menu Loading... Home &nbsp 其他 2-4-1數據分析-一維數據分析 8  41  Download (0) 顯示更多(7頁) 顯示更多(頁) 立即下載(8頁) 全文 (1)(99課綱)第二冊第四章數據分析4-1一維數據分析【目標】首先能了解算術平均數﹑幾何平均數等兩種數據代表值的意義及求法;再者,能以算術平均數為中心,求出測定數據離散程度的標準差,並理解算術平均數與標準差的關係及性質;進而能推算或利用計算機進行數據的標準化,以便應用。

【說明】日常生活中的許多複雜的訊息,適當地用數值表示,再經過適當的整理分析,以了解數值中隱含的意義,可提供我們解決問題或決策的參考,這就是數據分析的意義。

統計量有很多種,適用於各種不同類型的資料,並不是一種統計量就可以解釋所有的各種資料,而要針對不同的資料選取不同的統計量來用。

檢討過去可以展望未來。

大自國家,小至個人,都不斷將既有的現況資料經過整理,進而分析,得到一些特徵或趨勢,作為未來發展的依據。

而對現況精確的描述必須要有數據。

本章將說明如何從不易解讀的原始數據,整理出有用的資訊,讓數字說話。

平均數是一筆數據的集中趨勢,也可以說平均數是表示一個資料分布的中心,它可以作為整筆數據的代表值。

在統計課程中,常用的平均數有四種:算術平均數﹑中位數﹑幾何平均數﹑眾數,它們各有適用的時機及其意義。

在本節的課題中,我們討論的平均數以算術平均數為主,再者,討論一些幾何平均數的問題與其應用,其餘的平均數就不再處理。

1n.算術平均數是一筆n個數據之總和除以n所得的數值,也就是每個數據乘以之和,所以算術平均數具有數學期望值的意涵。

當數據很多時(即n很大時),我們可用分組的方式推算算術平均數,但現代科技發展,我們可利用電算器或電腦處理,所以不再討論分組方式的算術平均數。

【定義】1.算術平均數(平均數):一筆數據Xx1,x2,,xn(即數據X中有n個數x1,x2,,xn),總和為n1xk,再除以n(即乘以),就是平均數,此平均數稱為算術平均數,常以nk1n11表示,即xk(x1x2xn)。

有時為了註明是數據X的算術平均nk1n.數,也記為X。

.1.(2)【性質】1.算術平均數的可平移性:設數據Xx1,x2,,xn,若c是常數,而數據YXc,即Yy1,y2,,yn,其中ykxkc,k1,2,則Y.2..n.n.n.當原數據一律加(或減)一常數c時,新數據的算術平均數就會是原算術平均數加(或減)常數c,一性質稱為算術平均數的可平移性。

算術平均數的可伸縮性:設數據Xx1,x2,,xn,若c是常數,而數據YcX,即Yy1,y2,,yn,其中ykcxk,k1,2,,n,則Y.3..1n1n1nykcxkc(xk)cX。

nk1nk1nk1.當原數據一律乘一常數c時,新數據的算術平均數就會是原算術平均數乘常數c,此一性質稱為算術平均數的可伸縮性。

註:由算術平均數的可伸縮性及可平移性知:當a,b為常數時,若YaXb,則YaXb。

求證:(1)任意兩個正實數的算術平均數大於或等於幾何平均數。

(2)正實數a與b的算術平均數.ab等於幾何平均數ab2.12.的充要條件為(ab)20,亦即ab。

註:一般而言,任意n個正實數x1,x2,,xn,1恆有(x1x2n.xn)(x1x2.xn.1)n.nx1x2.xn,.即算術平均數大於或等於幾何平均數,1n.且(x1x2.xn)nx1x2.xn的充要條件為x1x2.xn。

.證明:設a,b為正實數,則算術平均數為.ab,幾何平均數為ab。

2.ab11ab(ab2ab)(ab)20。

222abab,即算術平均數大於或等於幾何平均數。

故2n.4..,n,.1111yk(xkc)(xknc)xkcXc。

nk1nk1nk1nk1n.(xi1.i.X)0。

.【問題】1..至少一半或一半以上資料X?至少一半或一半以上資料X?.2..至少一半資料X?至少一筆資料X?.2.(3)【定義】1.幾何平均數:設x1,x2,,xn是n個正實數,則G.M.nx1x2xn稱為x1,x2,,xn的幾何平均數。

註:(1)幾何平均數通常用於一筆數據中的數值大約按照一定的比例變化時適用之。

例如:求物價指數﹑人口增加率或貨幣的年增率,常用幾何平均數求其平均值。

(2)當x1,x2,,xn為n個正數時,其算術平均數恆大於或等於幾何平均數,因此,一筆正數的數據如果較適合用幾何平均數作代表值,而我們錯用了算術平均數作代表值,這時,我們就高估了這筆數據。

【定義】1.平均成長率:設n年的成長率分別為r1,r2,,rn且(1r1),(1r2),,(1rn)0,則平均成長率為n(1r1)(1r2)(1rn)1。

例如:設本金為P,連續兩年之成長率分別為50%,50%,則本金變化分別為P,P(10.5),P(10.5)(10.5),也就是為P,1.5P,0.75P,(50%)(50%)現若以算術平均數0%來解釋其平均成長率為0%,2則不恰當,若以P(10.5)(10.5)P(1r)(1r),求出r1.50.510.86610.134來當成平均成長率解釋較為恰當,此時滿足P(10.134)(10.134)0.75P。

.3.(4)【定義】1.變異數:偏差量的總和永遠是0。

為了避免正的偏差量與負的偏差量相互抵消,可以考慮偏差量的絕對值或偏差量的平方,其總和分別如下:n.n.k1.k1.2|xk|,(xk)。

.絕對值在數學上比較不好處理。

在此,我們選擇偏差量的平方。

當數據Xx1,x2,.2..,xn時,令V(X).1n2(xk)(注意:V(X)0),稱為X的變nk1.異數,其中偏差平方的總和再除以n,表示偏差平方的平均值。

標準差:我們真正關切的是各數值與平均數之間的偏差,而非偏差平方,故再取V(X)的正平方根,為X的標準差,以表示,即V(X).1n2(xk)nk1.(2V(X)且0)。

有時為了註明是數據X的標準差,也記為X。

【說明】1.離散量數:(1)一筆數據的算術平均數代表著這筆數據的集中趨勢,但無法呈現數據是否集中在中心周圍的離散程度,因此,要了解全體呈現更多的訊息,就需理解數據間的離散情況,這就是離差的意義。

(2)統計學中常用的離散量有三種:平均偏差﹑變異數與標準差。

n個數據x1,x2,.,xn與平均數X的差xiX稱為偏差,但.現離散程度,故我們取.2..1n(xiX)0無法顯ni1.1n|xiX|為平均偏差作為度量離散程度的依ni1.據。

本章中只考慮標準差作為離差的代表。

(3)常討論的標準差有兩種:母群體標準差與樣本標準差。

討論樣本標準差時,我們必須先探討抽樣的概念,目前的課程僅就給予的數據加以討論﹑分析,不涉及抽樣的問題,我們目前不討論樣本標準差。

標準差的意義:(1)一筆數據X中,n個數值的算術平均數X作為整筆數據的代表值。

要知道X的代表性,我們可用(xiX)2的平均數來衡量,即用1n1n(xiX)2來衡量,我們定義V(X)(xiX)2,V(X)稱為X的變ni1ni1.異數。

(2)當變異數V(X)愈小,則X的代表性愈大。

(3)為了評估數值分散程度的大小,其單位應與X相同。

因此,我們取V(X)的平方根來評估數值的分散程度,以XV(X).1n(xiX)2。

ni1.(4)當數據資料多或數據很大時,可利用電算器處理之。

.4.(5)【性質】1.數據Xx1,x2,平均數.,xn時,.1nxk,nk1n.n.n.n.k1.k1.k1.k1.則偏差量的總和為(xk)xknxkxk0。

2..當數據Xx1,x2,平均數.,xn時,.1xk,nk1n.而變異數V(X).1n1n222(xk)(xk2xk)nk1nk1.n1n2(xk2xkn2)nk1k11n2(xk2nn2)nk11n21n2(xkn2)xk2,nk1nk11n1n1n得到2V(X)xk22xk2(xk)2,nk1nk1nk1..3..即變異數等於平方的平均減去平均的平方,我們可以用此公式計算變異數2,進而求標準差。

算術平均數常用來表示一筆數據的集中量數,作為一筆數據的代表,是因為與所有數據的差異數的平方和最小,這個特性只要利用「級數和」的性質與二次式運算即可得知。

n.偏差總和公式:f(x)(xxi)2n[(x)22]。

i1.證明:當數據Xx1,x2,.,xn時,想要以一個數x來代表這些數,1n可用偏差平方的平均值評估x的適切性,令e(x)(xkx)2,nk1則使e(x)的值最小的x就是最恰當的x,.由於nn1n21222(x2xkxxk)[nx2(xk)xxk]nk1nk1k11n1n21n2x22(xk)xxkx22xxknk1nk1nk1n12(x)2(xk2)(x)222,nk12故e()為最小值,即e(x)的最小值是變異數2,.e(x).而最小值發生在取x為平均數時。

此結果說明了為何平均數可擔當代表值的角色,也使變異數2及標準差的意義更為明白。

.5.(6)4..標準差的平移不變性:設數據Xx1,x2,,xn,又c是常數,數據YXc,則YXc,1n1n1n222(ykY)[(xkc)(Xc)](xkX)V(X)。

nk1nk1nk1於是YV(Y)V(X)X。

.故V(Y).5..可知數據的平移不影響標準差,此性質稱為標準差的平移不變性。

直觀而言,標準差是度量數據的分散趨勢,平移數據不改變其分散性,故標準差不改變。

標準差的可伸縮性:設數據Xx1,x2,,xn,c是常數,數據YcX,則YcX,1n1n22(ykY)(cxkcX)nk1nk1n1n21c(xkX)2c2(xkX)2c2V(X),nk1nk1.故V(Y).於是YV(Y)c2V(X)|c|V(X)|c|X。

當c0時,YcX。

由此可知伸縮數據時,其標準差會跟著伸縮,此性質稱為標準差的可伸縮性。

由標準差的平移不變性及可伸縮性知:當a,b是常數,且a0時,若YaXb,則YaX,即Y的標準差可由X的標準差推導出,且標準差與數值的起始點無關,但與單位有關,不論a之值為正數或負數,標準差X與Y恆為正數或0。

.6.(7)【例題】1.已知某地區40戶住家房屋的面積,如下表所示:(單位:坪)房屋面積X17.522.527.532.537.542.5戶數f3513764.47.52.15.試利用數據Y(X32.5),推算Y的算術平均數及標準差。

解答:Y的平均數與標準差推算如下:2.yi.fi.yifi.yi.3210123總和.35137642.91013068612.9410149.2.yifi.272013061618100.13(12)0.3,40101Y100(0.3)22.50.092.411.55。

40設某次測驗的數學成績x1,x2,,x42的算術平均數56分,標準差3.5分,設二.故Y.2..42.次函數f(x)(xxi)2,試求f(x)的最小值,並求f(x)發生最小值時x之值。

i1.解答:利用偏差總和公式得42.142(xxi)2]42[(x)22],42i1i1故f(x)的最小值為422423.52514.5,f(x)最小值發生在x56(分)之處。

f(x)(xxi)242[.7.(8)【定義】1.標準化數據:設數據Xx1,x2,,xn的平均數為,標準差為,其中0,X1令數據Z,則由於ZX(),故Z的平均數Z及標準差Z分別如下:11Z()0,Z1。

我們稱Z為X的標準化數據。

【說明】1.一筆數據X以其平均數X為中心,標準差X為單位,xXXX可以將它標準化為Z,即zii,i1,2,,n。

XX由xi的標準化數據zi即可得知xi與平均數X的差是標準差的幾倍,也就是如果以標準差X為單位,那麼由zi就可知道xi在平均數X之上或之下幾個單位的位置。

2.兩個不同單位的數據,比如:一個班級的學生之身高X與體重Y,如果我們要了解某同學的身高xi,體重yi,到底是身高偏高或體重偏重,我們不容易由xi,yi得知,可是將xi,yi標準化之後,得zx,zy,i.3..i.即可知道這位同學的身高與體重在全班同學中所占的地位了。

假設一個母群體的某個特性,如身高,我們用公分與呎為單位,得到兩組數據X與Y,雖然xi,yi﹐i1,2,,n都不同,可是經過數據標準化,zx與zy必然是相同的,i.i.這也是標準化數據的特性。

數據X經標準化後得數據Z,此時Z的平均數恆為0,標準差恆為1。

【問題】1.平移:若yixib,則各種統計量如何變化?2.伸縮:若yiaxi,則各種統計量如何變化?3.伸縮平移:若yiaxib,則各種統計量如何變化?4.設數據Xx1,x2,,xn的平均數為,標準差為。

若去掉了xn後,試問:(1)平均值變大、不變、變小?(2)標準差變大、不變、變小?5.設數據Xx1,x2,,xn的平均數為,標準差為。

若去掉了最大值與最小值後,試問:(1)平均值變大、不變、變小?(2)標準差變大、不變、變小?.8.(9) 閱讀更多 數據 Updating... 參考文獻 Updating... Download(PDF-8頁-270.76KB) 相關主題: 相關文件 4-3-4機率與統計(I)-分析一維數據 優點:不受極端值影響,較不敏感。

注意:1未分組資料找中間的資料。

...意義:  10   0   5 5-1-3機率與統計(II)-交叉分析與二維數據分析 圖五圖六圖七曲線相關:兩變數間的關係不是線性的,為二次形、雙曲線形、...等等。

註:  14   0   5 數據驅動的幾何學習 Weintroduceatwo-layereddistancemeasurementforclusteringhighdimensionaldatabasedonDataCloudGeometry(DCG)first..ThroughtheDCGclusteringmethod,weupdatethedistance  30   0   0 粗化數據之統計分析-政大學術集成 粗化數據之統計分析StatisticalAnalysiswithCoarse  1   0   1 模糊數據均值方法及應用研究 PartII:algorithmsandexamplesforthediscretecase[J]..FuzzyRandomVariables[  5   0   0 WiMAX系統下兩階級數據的數據映射演算法之改進 Ourproposeddatamappingalgorithm,calledEnhancedTwo-LevelRequestsMapping(E-TLRM)inWiMAXSystems,isbrieflyintroducedanddescribedinChapter3..Detailsof  44   0   0 丟掉之後 垃圾數據解析 喀報第兩百六十三期社會議題科技新知文化現象人物特寫藝文評論照片故事影音新聞自由創作請輸入關鍵字搜尋大事記交大頻道記者群  2   0   0 客家料理之大數據分析 輿情關鍵領袖分析:可針對於網路空間發表文章、留言的作者帳號依時間、數量、來源等要素進行統整及排序,可藉此功能找出該議題  22   0   0 應用多方向量分析分析污染檢測數據 End-memberfingerprintcompositions(indecimalpercentages)analyzedthroughPVAofDataSet9,8×6datamatrix,6end-membermodel..End-memberfingerprintcompositions(inpercent)  107   0   0 高速基因數據分析的統計方法研究 preprocessingmethodshavebeendevelopedtoestimateexpressionlevelsofgenes.Anotherfundamentalgoalofamicroarrayexperimentistoidentifythosegenesthataredifferentially  12   0   0 利用大數據分析於智能工廠之研究 163.5SCADA整合系統SCADA一詞是指一個可以監控及控制所有裝置的集中式系統,或是在由分散  40   0   10 多維及相關數據的非參數估計問題(1/2) 英文關鍵詞:adaptivefiltering,autoregression,exponentialsmoothing,GARCH,interpolation,locallinearregression,variancereduction,volatility..前言︰Kernelmethods  7   0   0 相關文件 2-4-2數據分析-二維數據分析  19   0   55 2-4-1單變量數據分析  5   0   2 2-4-2雙變量數據分析  5   0   6 7-數據分析  17   0   41 數據分析  3   0   6 99math2  53   0   2 數據分析  6   0   0 單元08-一維數據分析  24   0   3 單元09-二維數據分析  24   0   0 4-3-4機率與統計(I)-分析一維數據  10   0   5 5-1-3機率與統計(II)-交叉分析與二維數據分析  14   0   5 數據驅動的幾何學習  30   0   0 粗化數據之統計分析-政大學術集成  1   0   1 模糊數據均值方法及應用研究  5   0   0 WiMAX系統下兩階級數據的數據映射演算法之改進  44   0   0 丟掉之後 垃圾數據解析  2   0   0 客家料理之大數據分析  22   0   0 應用多方向量分析分析污染檢測數據  107   0   0 高速基因數據分析的統計方法研究  12   0   0 利用大數據分析於智能工廠之研究  40   0   10 多維及相關數據的非參數估計問題(1/2)  7   0   0 數據一覽2010  6   0   0 數據一覽2011  6   0   0 顯示更多



請為這篇文章評分?